Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: entropy decision tree, entropy bằng 1, binary classification, information gain, chỉ số entropy
Khi học đến Decision Tree trong các bài toán phân loại, nhiều bạn thường gặp một thắc mắc quen thuộc: “Entropy bằng 1 nghĩa là gì? Tại sao đôi khi nó bằng 0, đôi khi bằng 1? Và điều này liên quan gì đến việc chọn điểm chia trong cây quyết định?” Sự bối rối này hoàn toàn bình thường, vì Entropy thuộc nhóm khái niệm nền tảng trong Machine Learning (liên quan đến Module 4 – ML cơ bản). Nắm rõ bản chất của Entropy giúp bạn hiểu vì sao Decision Tree chọn nhánh này thay vì nhánh khác.
Entropy đo mức độ hỗn loạn (không chắc chắn) của nhãn tại một node. Entropy thấp → dữ liệu “gọn”, ít nhiễu, mô hình dễ phân loại. Entropy cao → dữ liệu “lẫn lộn”, khó quyết định. Với 2 lớp (binary classification), Entropy được tính dựa trên tỷ lệ xuất hiện của từng lớp trong node. Để dễ hình dung, bạn có thể xem Entropy như mức “rối” của nhãn trong node: càng lẫn nhiều, node càng “mất trật tự”.
Trong bài toán 2 lớp, Entropy đạt giá trị tối đa 1 khi: Hai lớp xuất hiện với tỷ lệ bằng nhau: 50% – 50% Đây là lúc mà node phân chia chứa dữ liệu cân bằng tuyệt đối, không nghiêng về lớp nào. Vì vậy, mức độ bất định là cao nhất. Có thể tóm tắt: Nếu lớp A = 50%, lớp B = 50% → Entropy = 1 Đây là mức hỗn loạn tối đa trong bài toán phân loại 2 lớp.
Khi hai lớp bằng nhau: Bạn không có “dấu hiệu” nào để nghiêng về một lớp cụ thể. Không thể dự đoán lớp nào chiếm ưu thế. Cây quyết định sẽ xem đây là một điểm cần chia tiếp vì node đang chứa dữ liệu “chưa sạch”.
Giả sử bạn đang phân loại email:
Decision Tree sẽ cố gắng tìm thuộc tính để tách node Entropy = 1 thành các node con có Entropy thấp hơn. Node càng “sạch” → mô hình càng dễ đưa ra quyết định. Node càng “lẫn lộn” → cây phải chia tiếp. Đây là giai đoạn rất quen thuộc trong pipeline Machine Learning (thường gặp ở Module 4 – ML, đặc biệt khi nói về các chỉ số như Entropy, Gini, Information Gain).
Khái niệm Entropy gắn với:
Bạn có thể thử: