Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: sigmoid, relu, vanishing gradient, deep learning, activation function
Trong giai đoạn đầu học Deep Learning, rất nhiều bạn gặp cảm giác “mạng không học được gì”, loss đứng yên hoặc giảm rất chậm. Khi kiểm tra lại, nguyên nhân thường nằm ở hàm kích hoạt, đặc biệt là khi dùng Sigmoid.
Câu hỏi quen thuộc: “Tại sao Sigmoid có khả năng gây Vanishing Gradient, còn ReLU lại ít bị hơn?”
Bài viết dưới đây giải thích theo cách gần gũi, không nặng toán.
Hàm Sigmoid biến mọi giá trị thành một số trong khoảng từ 0 đến 1.
Nghe có vẻ lý tưởng, nhưng lại tạo ra hai vùng
bão hòaỞ hai vùng này, độ dốc (gradient) của Sigmoid gần như bằng 0.
Vì Gradient Descent cập nhật trọng số bằng cách nhân gradient theo từng lớp, nên:
→ gradient nhỏ × gradient nhỏ × gradient nhỏ
→ gradient bị triệt tiêu khi lan ngược về các lớp đầu.
Kết quả: các lớp sâu phía trước gần như không được cập nhật.
ReLU có công thức đơn giản:
Điều quan trọng:
Ở phía dương, gradient luôn bằng
1Điều này giúp:
ReLU vẫn có nhược điểm
chết ReLUHãy tưởng tượng bạn nhân một số nhỏ nhiều lần:
0.2 × 0.2 × 0.2 × 0.2 × … = rất nhỏ → tiến về 0Đây chính là điều xảy ra khi nhiều lớp Sigmoid xếp chồng lên nhau.
Trong khi ReLU:
Gradient ở phía dương =
11 × 1 × 1 × … = 1Trong thực tế triển khai mô hình:
Đây là lý do các nhóm kiến thức về Deep Learning (Module 7 trong lộ trình học thuật) luôn nhấn mạnh việc chọn activation phù hợp.
Khi đi qua các phần Toán – Optimization – Deep Learning trong các module:
Người học sẽ thường xuyên thấy Sigmoid được dùng rất hạn chế ở hidden layer do vấn đề bão hòa gradient.
Bạn có thể thử xây một mạng nhỏ 5–10 lớp:
Sau vài epoch, bạn sẽ thấy sự khác biệt rất rõ về tốc độ học và khả năng hội tụ.
Sigmoid có phải luôn gây Vanishing Gradient?
Không phải luôn, nhưng rất dễ xảy ra khi mạng sâu hoặc đầu vào lớn/nhỏ.
ReLU có hoàn toàn tránh được Vanishing Gradient không?
Không hoàn toàn, nhưng ít bị hơn rất nhiều.
Sigmoid có còn được dùng không?
Có, chủ yếu ở đầu ra nhị phân.
ReLU có thể “chết” không?
Có. Nếu trọng số khiến đầu vào ≤ 0 lâu dài, neuron có thể không kích hoạt nữa.
Q: Mình con số 0 thì học nổi không?
A: Chỉ cần có thời gian học mỗi ngày. Kiến thức và tài liệu team admin lo.
Q: Ai dạy AIO?
A: Toàn bộ admin AIO trực tiếp dạy và hỗ trợ trong suốt hành trình.
Q: Admin có “xịn” không?
A: Admin đều là người làm nghề thật. Không dám nói xịn, chỉ dạy bằng hết sức mình.
Q: AIO khác gì trung tâm khác?
A: AIO không phải trung tâm. Đây là dự án học tập cộng đồng với tinh thần
Cùng nhau học – cùng nhau khổ – cùng nhau lớn