Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: MLP Sigmoid, SGD, Vanishing Gradient, Deep Learning, Optimization
Khi xây dựng mô hình MLP nhiều tầng, rất nhiều người gặp tình huống quen thuộc: mô hình học chậm, loss giảm ít hoặc gradient gần như biến mất. Điều này đặc biệt dễ xảy ra khi kết hợp Sigmoid và SGD, nhất là khi mạng có 5 lớp ẩn trở lên. Trong các nhóm kiến thức nền tảng về Machine Learning và Deep Learning (thường xuất hiện từ Module 4 → Module 7 của lộ trình học thuật), hiện tượng này được nhắc đến khá nhiều vì nó ảnh hưởng trực tiếp đến khả năng học của mô hình.
Sigmoid nén đầu ra vào khoảng (0, 1). Khi giá trị đầu vào quá lớn hoặc quá nhỏ, đạo hàm của Sigmoid tiến về gần 0. Khi mô hình có 5 lớp ẩn, gradient phải đi qua 5 lần hàm đạo hàm nhỏ này trong quá trình lan truyền ngược. Kết quả:
SGD không điều chỉnh tốc độ học theo từng chiều hay từng lớp. Điều này khiến:
Khi hai yếu tố này kết hợp, mô hình rất dễ rơi vào trạng thái “đứng yên”, không cải thiện nhiều qua từng epoch.
Giả sử bạn xây dựng một MLP 5 tầng để phân loại ảnh CIFAR-10 bằng Sigmoid và SGD. Một số dấu hiệu bạn có thể thấy:
Nhiều bạn khi làm dự án Computer Vision ở giai đoạn đầu (Module 9) từng trải nghiệm tình huống này trước khi chuyển sang dùng ReLU, He initialization hoặc optimizer thích ứng.
Khi triển khai mô hình sâu trong dự án thực tế:
Đây là lý do trong nhiều pipeline MLOps (Module 5–7), người ta thường chuẩn hóa kiến trúc ngay từ đầu để tránh mất thời gian chạy thử nghiệm không hiệu quả.
Hiện tượng này được giải thích từ các ý chính trong:
Những nội dung này thường là nền tảng quan trọng để xử lý các vấn đề khi mô hình gặp khó khăn trong huấn luyện.
Bạn có thể:
Bạn có thể thử nghiệm thêm để hiểu rõ hơn cách activation và optimizer ảnh hưởng đến quá trình học.
MLP dùng Sigmoid nhiều lớp có dễ gây Vanishing Gradient không?
Có, vì Sigmoid làm gradient nhỏ dần qua từng lớp.
SGD có phù hợp cho mạng sâu dùng Sigmoid không?
Không thật sự phù hợp khi không có kỹ thuật bổ trợ.
Dùng 5 lớp ẩn Sigmoid có khiến mô hình học chậm không?
Có, vì các lớp sâu gần như không nhận được tín hiệu cập nhật.
Thay ReLU vào có cải thiện được vấn đề không?
Có, vì ReLU giữ gradient lớn hơn trong phần lớn miền giá trị.
Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.
Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.
Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.
Q4. AIO có gì khác những nơi khác?
Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: Cùng nhau học – cùng nhau khổ – cùng nhau lớn. Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.