Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: vanishing gradient, mất mát gradient, deep learning, dấu hiệu nhận biết
Khi bước vào Deep Learning, nhiều bạn gặp tình huống: mô hình càng huấn luyện càng “ì”, loss giảm rất chậm, hoặc gần như không giảm. Lúc tìm hiểu nguyên nhân, bạn gặp ngay cụm từ vanishing gradient — khiến nhiều bạn cảm giác nó vừa trừu tượng, vừa khó hình dung.
Thực tế, vanishing gradient là một vấn đề quen thuộc, xuất hiện nhiều trong các mạng sâu như RNN hoặc mạng nhiều lớp. Hiểu bản chất giúp bạn dễ nhận ra khi mô hình hoạt động bất thường.
Vanishing Gradient là hiện tượng gradient trở nên cực kỳ nhỏ khi lan truyền ngược qua nhiều lớp
backpropagationĐiều này xảy ra do:
sigmoid, tanhTrong module Deep Learning 1 và Pre-Deep Learning
7 – 5Backpropagation nhân gradient qua từng lớp.
Nếu đạo hàm của hàm kích hoạt nhỏ hơn 1
như sigmoid và tanhgradient mới = gradient cũ × đạo hàm × trọng sốQua 20–50 lớp, gradient bị thu nhỏ liên tục → tiệm cận về 0.
Khi gradient đã gần bằng 0:
Dù bạn tăng epoch, mô hình vẫn “đứng hình”.
Khi kiểm tra gradient từng layer, phần đầu gần như bằng 0.
Mô hình không rút ra được đặc trưng tốt do lớp đầu không học.
Một mạng 30 lớp có thể cho kết quả kém hơn mạng 5 lớp — dấu hiệu thường thấy trong các mô hình không có kỹ thuật ổn định gradient.
RNN truyền gradient qua thời gian, nên vanishing gradient là vấn đề phổ biến trong chuỗi dài → cũng là lý do LSTM/GRU ra đời.
Giả sử bạn huấn luyện một mạng MLP 20 lớp dùng sigmoid:
Khi kiểm tra:
Đây là một trong những dạng biểu hiện kinh điển của vanishing gradient.
Các kỹ thuật trong nhóm kiến thức Deep Learning như
ReLUXavier/He InitializationBatchNormBạn có thể thử:
ít lớpnhiều lớpBạn có thể thử nghiệm thêm để hiểu rõ hơn hiện tượng này.
Vanishing Gradient có xảy ra ở mọi mô hình sâu không?
Không phải mọi mô hình, nhưng thường gặp ở mô hình dùng sigmoid/tanh hoặc mạng quá sâu.
RNN có dễ gặp vấn đề này không?
Rất dễ, đặc biệt với chuỗi dài.
Mạng shallow có bị không?
Ít khi, vì số lớp ít nên gradient ít bị thu nhỏ.
BatchNorm có giúp giảm Vanishing Gradient không?
Có, vì BatchNorm ổn định phân phối đầu vào của từng lớp.
4 câu đúng format – chỉ đặt ở cuốiQ: Mình con số 0 thì học nổi không?
A: Chỉ cần có thời gian học mỗi ngày. Kiến thức và tài liệu team admin lo.
Q: Ai dạy AIO?
A: Toàn bộ admin AIO trực tiếp dạy và hỗ trợ trong suốt hành trình.
Q: Admin có “xịn” không?
A: Admin đều là người làm nghề thật. Không dám nói xịn, chỉ dạy bằng hết sức mình.
Q: AIO khác gì trung tâm khác?
A: AIO không phải trung tâm. Đây là dự án học tập cộng đồng với tinh thần “Cùng nhau học – cùng nhau khổ – cùng nhau lớn”.