Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: Momentum, Gradient Descent, Tối Ưu Hóa, Machine Learning, Deep Learning
Trong quá trình làm việc với các mô hình Machine Learning và Deep Learning, đặc biệt khi bắt đầu bước vào nhóm kiến thức tối ưu hóa (thường xuất hiện trong các chủ đề tương tự Module 5 – Optimization), người học dễ gặp tình huống:
Vấn đề này xảy ra vì Gradient Descent truyền thống chỉ dựa vào giá trị gradient hiện tại, thiếu thông tin về “quán tính” trong quá trình di chuyển. Momentum được đề xuất để khắc phục điểm này.
Momentum là cơ chế bổ sung một thành phần tích lũy theo thời gian, cho phép thuật toán “ghi nhớ” hướng đi trước đó.
Trong tối ưu hóa, thay vì cập nhật trọng số chỉ dựa trên gradient tại mỗi bước, Momentum thêm quán tính vào chuyển động:
Trong đó:
Ở những vùng mà gradient không đồng đều theo từng chiều (ví dụ trục dọc rất dốc, trục ngang phẳng), SGD dễ bị dao động mạnh.
Ở những vùng gradient nhỏ, SGD thường đi rất chậm. Vì Momentum tích lũy thông tin từ nhiều bước, vận tốc vẫn được duy trì và giúp mô hình vượt qua những vùng phẳng hiệu quả hơn.
Thay vì thay đổi hướng liên tục theo gradient hiện tại, Momentum giúp thuật toán giữ được hướng di chuyển hợp lý qua nhiều bước. Điều này làm tốc độ hội tụ tốt hơn trong nhiều bài toán thực tế.
Giả sử bạn huấn luyện một mô hình phân loại hình ảnh đơn giản (liên quan đến nhóm ứng dụng Computer Vision như trong Module 9). Khi dùng SGD thuần:
Khi bật Momentum:
Bạn vẫn dùng cùng learning rate, cùng kiến trúc, chỉ khác lựa chọn optimizer.
Trong nhiều pipeline thực tế (đặc biệt các mô hình sâu ở Module 7 – Deep Learning 1), thời gian huấn luyện là yếu tố quan trọng.
Momentum thường được xem như “mảnh ghép cơ bản”, giúp các mô hình quy mô lớn:
Vì thế, khi xây dựng mô hình từ baseline trở đi, lựa chọn tối ưu hóa luôn là bước quan trọng trong MLOps (logging – theo dõi loss – theo dõi gradient).
Để hiểu Momentum rõ ràng hơn, người học thường đi qua:
Những phần này tạo nền tảng để phân tích xem tại sao có quán tính lại giúp mô hình di chuyển tốt hơn trong không gian tối ưu.
Bạn có thể bắt đầu bằng:
Bạn có thể thử nghiệm thêm để hiểu rõ hơn về cách Momentum thay đổi quá trình tối ưu.
Momentum có thay đổi kiến trúc mạng không?
Không, chỉ thay đổi cách tối ưu.
Momentum có giúp tránh local minima không?
Có thể hỗ trợ mô hình thoát khỏi vùng phẳng hoặc điểm kém tối ưu.
Momentum có làm mô hình huấn luyện nhanh hơn không?
Thường có, vì hướng di chuyển ổn định và ít dao động.
Có cần điều chỉnh learning rate khi dùng Momentum không?
Không bắt buộc, nhưng điều chỉnh nhẹ có thể giúp tối ưu tốt hơn.
Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.
Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.
Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.
Q4. AIO có gì khác những nơi khác?
Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: Cùng nhau học – cùng nhau khổ – cùng nhau lớn. Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.