Multi-Label Classification trong Deep Learning thường dùng Sigmoid ở lớp cuối và Binary Cross-Entropy vì lý do gì?

Tác giả: AI VIET NAM (AI VIET NAM)

Keywords: multi-label, sigmoid, binary cross-entropy

1. Mở đầu

Khi tiếp cận bài toán đa nhãn (multi-label), nhiều người dễ nhầm lẫn với bài toán đa lớp (multi-class). Điều này thường gây khó khăn trong việc chọn hàm kích hoạt và hàm mất mát phù hợp. Một trong những câu hỏi phổ biến nhất là: vì sao lại dùng Sigmoid thay vì Softmax, và vì sao Binary Cross-Entropy lại tương ứng tự nhiên với bài toán này?

2. Giải thích từ gốc: Multi-Label khác gì Multi-Class?

Trong bài toán multi-label:

  • Một mẫu có thể thuộc nhiều nhãn cùng lúc.
  • Ví dụ: một bức ảnh có thể chứa cả “cat”, “dog”, “person”.
  • Mỗi nhãn là một bài toán nhị phân độc lập: có hoặc không có. Ngược lại, multi-class chỉ chọn một nhãn duy nhất, nên Softmax sẽ phù hợp vì nó ép tổng xác suất bằng 1.

3. Vì sao dùng Sigmoid?

Sigmoid tạo xác suất độc lập cho từng nhãn, không yêu cầu các xác suất cộng lại bằng 1. Điều này phản ánh đúng bản chất bài toán:

  • Khả năng xuất hiện của “cat” không ảnh hưởng khả năng xuất hiện của “dog”.
  • Mô hình không bị ràng buộc phải “chia xác suất” giữa các lớp.

4. Vì sao Binary Cross-Entropy?

Khi mỗi nhãn được xem như một bài toán nhị phân riêng, ta cần một hàm mất mát đo lường độ lệch giữa nhãn thật (0/1)xác suất dự đoán cho từng nhãn. Binary Cross-Entropy phù hợp vì:

  • Nó đánh giá từng nhãn độc lập.
  • Tổng hợp lỗi từ tất cả các nhãn tạo thành lỗi cuối cùng.
  • Dạng toán học của nó tương thích trực tiếp với đầu ra Sigmoid. Khi mô hình dự đoán xác suất cho mỗi nhãn, BCE giúp mô hình học được mức độ tự tin phù hợp mà không bị ràng buộc tổng xác suất.

5. Ví dụ thực tế

Giả sử mô hình cần dự đoán nhãn cho một ảnh:

  • cat
  • tree
  • car
  • dog Nếu ảnh chứa cat và tree: nhãn thật là [1, 1, 0, 0]. Mỗi nhãn là một bài toán “một-vs-không”, nên Sigmoid cho từng nhãn và BCE tính lỗi từng nhãn rồi tổng hợp lại là lựa chọn tự nhiên nhất.

6. Khi làm dự án AI/ML

Trong dự án thực tế, multi-label xuất hiện ở nhiều lĩnh vực:

  • Phân loại tags cho ảnh sản phẩm.
  • Phân loại chủ đề nhiều nhãn cho văn bản.
  • Nhận diện nhiều vật thể có thể cùng xuất hiện. Một mô hình multi-label thường được thiết kế theo pipeline gần giống module Machine Learning và Deep Learning:
  • Tiền xử lý dữ liệu (liên quan đến nhóm kiến thức Data Analysis – ETL của Module 3).
  • Xây mô hình neural network cơ bản (Module 7 về các thành phần DL).
  • Huấn luyện với Sigmoid và BCE (kiến thức thường gặp khi học Module 4–5 về loss và optimization).
  • Đánh giá bằng F1 micro/macro để phản ánh tốt chất lượng. Khi thiết kế mô hình, việc xác định đúng bản chất multi-label giúp tránh sai lầm như dùng Softmax dẫn đến mô hình học sai tính chất của dữ liệu.

7. Lời khuyên học thuật cho người bắt đầu

Bạn có thể thử bài toán multi-label đơn giản với dữ liệu ảnh hoặc văn bản để tự trải nghiệm sự khác biệt giữa Softmax và Sigmoid. Việc trực tiếp quan sát đầu ra sẽ giúp hiểu rõ cách hoạt động của BCE và ý nghĩa của từng xác suất.

8. Hỏi đáp nhanh về Multi-Label Classification

1. Multi-label có cần tổng xác suất bằng 1 không?
Không, mỗi nhãn độc lập nên tổng xác suất không bị ràng buộc.

2. Softmax có dùng cho multi-label không?
Không, vì Softmax buộc các lớp cạnh tranh nhau.

3. Có thể dùng BCE cho multi-class không?
Có thể, nhưng không tự nhiên bằng Cross-Entropy truyền thống.

4. Multi-label có cần one-hot vector không?
Không, dùng vector 0/1 cho từng nhãn là đủ.

9. FAQ về chương trình AIO

Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.

Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.

Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.

Q4. AIO có gì khác những nơi khác?
Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: Cùng nhau học – cùng nhau khổ – cùng nhau lớn. Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.

Tài nguyên học AI: