Soft Target trong Distillation: Cách mô hình học được quan hệ giữa các lớp

Mở đầu

Nhiều người khi tìm hiểu về Distillation thường thắc mắc vì sao mô hình nhỏ vẫn có thể đạt chất lượng gần mô hình lớn. Điểm gây bối rối nhất nằm ở khái niệm “soft target” – một dạng đầu ra mà mô hình sinh ra không chỉ chứa một lớp đúng, mà còn có phân bố xác suất trên tất cả các lớp. Đây là phần cốt lõi giúp teacher truyền tải trải nghiệm học của mình cho student.

Soft Target là gì và vì sao chứa thêm thông tin?

Khi mô hình dự đoán, nó không chỉ chọn lớp có khả năng cao nhất, mà còn phân bố xác suất cho từng lớp.
Ví dụ: Một ảnh con mèo có thể được mô hình đánh giá như sau:

mèo: xác suất cao
hổ: xác suất vừa
chó: xác suất thấp
chim: rất thấp
Trong khi “hard label” chỉ nói rằng “đây là mèo”, “soft target” lại phản ánh cả mức độ giống nhau giữa các lớp.
Điều này giúp student hiểu được:
lớp nào gần lớp nào về mặt đặc trưng
mức độ tự tin của teacher
cấu trúc không gian đặc trưng (feature space) mà teacher đã học

Đây chính là “thông tin quan hệ giữa các lớp” – thứ mà hard label không bao giờ thể hiện.

Ví dụ thực tế

Giả sử mô hình teacher đã học rất kỹ về động vật. Khi gặp hình một chú mèo rừng, teacher có thể dự đoán:

mèo rừng: 0.60
mèo nhà: 0.30
chó: 0.05
cáo: 0.05

Student khi học từ soft target sẽ hiểu: mèo rừng gần mèo nhà hơn là gần chó hay cáo.
Nếu chỉ dùng hard label “mèo rừng”, student sẽ không nhận được thông tin này.

Từ góc nhìn dự án AI/ML

Trong các pipeline được xây dựng hướng MLOps:

Soft target giúp student ổn định hơn khi triển khai trên dữ liệu thực tế.
Student thường có khả năng tổng quát hóa tốt hơn do được học “cách teacher đánh giá độ giống nhau”, thay vì chỉ học quyết định đúng/sai.
Ở các dự án tối ưu hóa mô hình nhỏ để chạy trên thiết bị giới hạn tài nguyên, distillation gần như là bước quan trọng.

Liên hệ kiến thức nền

Khái niệm soft target thường xuất hiện sau khi đã đi qua:

Kiến thức tối ưu và hàm mất mát (Module 5)
Các mô hình classification trong ML/DL (Modules 4–7)
Ứng dụng trong NLP hoặc CV khi triển khai mô hình rút gọn (Modules 9–10)

Đây là nhóm kiến thức mà người học AI thường gặp khi muốn hiểu cách mô hình biểu diễn tri thức.

Lời khuyên cho người mới

Bạn có thể bắt đầu bằng việc thử huấn luyện một mô hình nhỏ, sau đó so sánh kết quả khi dùng:

hard label
soft target từ một mô hình lớn hơn

Việc đối chiếu này giúp hình dung rõ hơn bản chất của phân bố xác suất.

Hỏi đáp nhanh

1. Soft target có giống hard label không?
Không, soft target chứa phân bố xác suất trên nhiều lớp.

2. Soft target có giúp student ổn định hơn không?
Có, vì nó mang theo thông tin về quan hệ giữa các lớp.

3. Có thể dùng distillation cho mô hình NLP không?
Có, distillation được dùng rộng rãi trong nhiều bài toán NLP.

4. Soft target có yêu cầu model teacher phải lớn không?
Không bắt buộc, dù thường teacher là mô hình mạnh hơn.

FAQ về chương trình AIO

Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.

Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.

Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.

Q4. AIO có gì khác những nơi khác?
Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: Cùng nhau học – cùng nhau khổ – cùng nhau lớn. Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.