Độ đo Entropy bằng 1 khi nào trong Decision Tree (bài toán phân loại 2 lớp)?

Tác giả: AI VIET NAM (AI VIET NAM)

Keywords: entropy decision tree, entropy bằng 1, binary classification, information gain, chỉ số entropy

Mở đầu

Khi học đến Decision Tree trong các bài toán phân loại, nhiều bạn thường gặp một thắc mắc quen thuộc: “Entropy bằng 1 nghĩa là gì? Tại sao đôi khi nó bằng 0, đôi khi bằng 1? Và điều này liên quan gì đến việc chọn điểm chia trong cây quyết định?” Sự bối rối này hoàn toàn bình thường, vì Entropy thuộc nhóm khái niệm nền tảng trong Machine Learning (liên quan đến Module 4 – ML cơ bản). Nắm rõ bản chất của Entropy giúp bạn hiểu vì sao Decision Tree chọn nhánh này thay vì nhánh khác.

Entropy trong phân loại 2 lớp là gì?

Entropy đo mức độ hỗn loạn (không chắc chắn) của nhãn tại một node. Entropy thấp → dữ liệu “gọn”, ít nhiễu, mô hình dễ phân loại. Entropy cao → dữ liệu “lẫn lộn”, khó quyết định. Với 2 lớp (binary classification), Entropy được tính dựa trên tỷ lệ xuất hiện của từng lớp trong node. Để dễ hình dung, bạn có thể xem Entropy như mức “rối” của nhãn trong node: càng lẫn nhiều, node càng “mất trật tự”.

Khi nào Entropy = 1?

Trong bài toán 2 lớp, Entropy đạt giá trị tối đa 1 khi: Hai lớp xuất hiện với tỷ lệ bằng nhau: 50% – 50% Đây là lúc mà node phân chia chứa dữ liệu cân bằng tuyệt đối, không nghiêng về lớp nào. Vì vậy, mức độ bất định là cao nhất. Có thể tóm tắt: Nếu lớp A = 50%, lớp B = 50% → Entropy = 1 Đây là mức hỗn loạn tối đa trong bài toán phân loại 2 lớp.

Vì sao lại là mức tối đa?

Khi hai lớp bằng nhau: Bạn không có “dấu hiệu” nào để nghiêng về một lớp cụ thể. Không thể dự đoán lớp nào chiếm ưu thế. Cây quyết định sẽ xem đây là một điểm cần chia tiếp vì node đang chứa dữ liệu “chưa sạch”.

Ví dụ thực tế

Giả sử bạn đang phân loại email:

  • Lớp 1: Email “bình thường”
  • Lớp 2: Email “spam” Nếu trong một node bất kỳ, bạn có: 100 email bình thường 100 email spam → tỷ lệ = 50% – 50% → Entropy = 1 Node này không giúp ích cho việc dự đoán, vì mức hỗn loạn đạt tối đa.

Điều này ảnh hưởng gì đến Decision Tree?

Decision Tree sẽ cố gắng tìm thuộc tính để tách node Entropy = 1 thành các node con có Entropy thấp hơn. Node càng “sạch” → mô hình càng dễ đưa ra quyết định. Node càng “lẫn lộn” → cây phải chia tiếp. Đây là giai đoạn rất quen thuộc trong pipeline Machine Learning (thường gặp ở Module 4 – ML, đặc biệt khi nói về các chỉ số như Entropy, Gini, Information Gain).

Liên hệ một chút đến kiến thức nền

Khái niệm Entropy gắn với:

  • Logic thống kê (Module 1–2)
  • ML cơ bản – Regression & Classification (Module 4)
  • XAI khi phân tích đường đi của Decision Tree (thuộc nhóm kỹ thuật ở ML/XAI series)
  • Loss function & uncertainty (Module 5 – Pre-Deep Learning) khi mở rộng sang các mô hình khác Đây là những nhóm kiến thức nền tảng thường xuất hiện khi người học tiến từ ML → DL.

Lời khuyên cho người bắt đầu

Bạn có thể thử:

  • Tạo một node với tỷ lệ lớp khác nhau (10–90, 30–70, 50–50…)
  • Tính Entropy để quan sát mức độ thay đổi
  • Quan sát cách mô hình chọn điểm chia dựa trên Information Gain Việc tự thử nghiệm nhỏ như vậy giúp bạn hiểu rõ hơn cơ chế hoạt động của Decision Tree trong thực tế.

Tài nguyên học AI: