Label Smoothing là gì và vì sao cần

Label Smoothing là gì và vì sao cần?

Label Smoothing là kỹ thuật thường xuất hiện trong các mô hình phân loại, đặc biệt ở giai đoạn Deep Learning. Dù khái niệm không dài, nhưng nhiều bạn tiếp cận lần đầu thường thắc mắc vì sao chỉ “làm mềm nhãn” mà mô hình lại ổn định hơn. Bài viết đi thẳng vào bản chất để giúp hình dung rõ cơ chế hoạt động.

Trong các bài toán classification, nhãn thường được biểu diễn dạng one-hot:
Ví dụ một bài toán có 4 lớp, nếu mẫu thuộc lớp 2 thì phân bố nhãn sẽ là:
[0, 1, 0, 0].

Dạng nhãn tuyệt đối này khiến mô hình coi lớp đúng là “chắc chắn 100%”, kéo theo việc mạng dễ học theo hướng tự tin quá mức. Khi huấn luyện lâu, hiện tượng này làm giảm khả năng tổng quát hóa vì mô hình áp lực đưa xác suất lớp đúng về mức 1 tuyệt đối.

Label Smoothing điều chỉnh lại phân bố này thành dạng mềm hơn. Thay vì điểm đúng là 1, nó sẽ hơi thấp hơn, và phần dư được chia đều cho các lớp còn lại. Phân bố chuyển về dạng:

[ε/k, 1−ε, ε/k, ε/k]

Trong đó ε là hệ số làm mềm, k là số lớp. Điều này khiến mô hình không còn mục tiêu đẩy xác suất lớp đúng lên mức tuyệt đối, nhờ vậy giảm khuynh hướng phóng đại độ tự tin.

Cách Label Smoothing giúp giảm mô hình quá tự tin

Khi dùng one-hot, hàm mất mát cross-entropy phạt rất nặng nếu mô hình không đưa xác suất lớp đúng lên cao tuyệt đối.
Với Label Smoothing: • Trọng số của lớp đúng giảm nhẹ → giảm áp lực đưa xác suất lên 1.
• Các lớp sai có một chút giá trị → mô hình nhận ra rằng các lớp khác vẫn có sự liên quan nhất định.
• Mô hình học đặc trưng mang tính khái quát hơn, hạn chế việc “ghi nhớ” quá cụ thể mẫu huấn luyện.

Nếu xét từ góc nhìn toán học ở module Pre-Deep Learning (losses & metrics), ta đang thay đổi dạng mục tiêu để phân bố nhãn trở nên ít cực đoan. Đây là lý do Label Smoothing thường được nhắc trong phần tối ưu hóa mô hình, bên cạnh regularization, dropout hay weight decay.

Ví dụ trực quan

Giả sử có bài toán phân loại mèo – chó – chim. Một ảnh “mèo” chuẩn one-hot sẽ là:
[1, 0, 0]. Dùng Label Smoothing (ví dụ ε = 0.1):
[0.9, 0.05, 0.05].

Trong thực tế ảnh, có trường hợp mèo nhìn hơi giống chó hoặc bị che khuất. Việc gán một chút xác suất cho các lớp còn lại mô phỏng sự không chắc chắn tự nhiên, giúp mô hình học theo hướng mềm và chống overfitting.

Khi làm dự án AI/ML, Label Smoothing hữu ích ở đâu?

• Các mô hình image classification trong Computer Vision thường hưởng lợi nhiều nhất, đặc biệt khi số lớp lớn.

• Khi chất lượng dataset không hoàn hảo: nhãn nhiễu, ảnh mờ, dữ liệu không đồng nhất.

• Trong NLP, nó hỗ trợ các mô hình seq2seq hoặc phân loại văn bản lớn để tránh dự đoán cực đoan.

Ở góc độ pipeline MLOps, Label Smoothing là một trong những tham số có thể thử nghiệm trong quá trình tuning, bên cạnh learning rate, batch size hay optimizer. Nhiều nhóm dự án xem nó là bước kiểm tra mặc định khi mô hình có dấu hiệu overconfidence.

Liên hệ với kiến thức nền trong lộ trình AI

• Trong Machine Learning cơ bản (module ML 1–2), người học thường bắt đầu với cross-entropy và gradient.

• Khi đi vào Pre-Deep Learning (optimization – loss), Label Smoothing xuất hiện như mở rộng của hàm mất mát.

• Lên Deep Learning và Computer Vision (module DL 1, DL 2, CV), kỹ thuật này được dùng thường xuyên trong các kiến trúc phân loại ảnh.

Đây là các nhóm kiến thức thường gặp khi học và làm mô hình phân loại thực tế.

Lời gợi ý học thuật cho người mới

• Có thể thử thay đổi ε từ 0.05 đến 0.2 để quan sát độ ổn định mô hình.

• Nên bắt đầu bằng các bài toán nhỏ, chẳng hạn phân loại 3–5 lớp, để thấy rõ chênh lệch khi có và không có Label Smoothing.

• Trải nghiệm nhiều lần sẽ giúp hiểu bản chất của mô hình thay vì chỉ dựa vào giá trị accuracy.

Hỏi đáp nhanh về Label Smoothing

Label Smoothing có làm giảm accuracy không?
Có thể giảm nhẹ khi training nhưng tổng quát hóa thường tăng.
Tất cả bài toán phân loại đều nên dùng Label Smoothing?
Không. Những bài toán yêu cầu phân tách lớp tuyệt đối có thể không phù hợp.
Label Smoothing có phải regularization?
Có thể xem như một dạng điều chuẩn ở mức nhãn.
Có kết hợp được với các kỹ thuật khác như dropout không?
Có, hai kỹ thuật hoạt động ở các tầng khác nhau.

FAQ về chương trình AIO

Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.

Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.

Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.

Q4. AIO có gì khác những nơi khác?
Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: Cùng nhau học – cùng nhau khổ – cùng nhau lớn. Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.

Label Smoothing là gì và vì sao cần