Nội dung bài viết
© 2026 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: entropy decision tree, entropy bằng 1, binary classification, information gain, chỉ số entropy
Khi học đến Decision Tree trong các bài toán phân loại, nhiều bạn thường gặp một thắc mắc quen thuộc:
“Entropy bằng 1 nghĩa là gì? Tại sao đôi khi nó bằng 0, đôi khi bằng 1? Và điều này liên quan gì đến việc chọn điểm chia trong cây quyết định?”
Sự bối rối này hoàn toàn bình thường, vì Entropy thuộc nhóm khái niệm nền tảng trong Machine Learning (liên quan đến Module 4 – ML cơ bản). Nắm rõ bản chất của Entropy giúp bạn hiểu vì sao Decision Tree chọn nhánh này thay vì nhánh khác.
Entropy đo mức độ hỗn loạn (không chắc chắn) của nhãn tại một node.
Với 2 lớp (binary classification), Entropy được tính dựa trên tỷ lệ xuất hiện của từng lớp trong node.
Bạn có thể xem Entropy như mức “rối” của nhãn trong node: càng lẫn nhiều → node càng “mất trật tự”.
Trong bài toán 2 lớp, Entropy đạt giá trị tối đa 1 khi:
→ Hai lớp xuất hiện với tỷ lệ bằng nhau: 50% – 50%
Đây là lúc node chứa dữ liệu cân bằng tuyệt đối, không nghiêng về lớp nào → mức độ bất định cao nhất.
Tóm tắt:
Đây là mức hỗn loạn tối đa trong phân loại nhị phân.
Khi hai lớp bằng nhau:
Entropy cao = cần tách thêm.
Giả sử bạn phân loại email thành:
Nếu trong một node có:
→ tỷ lệ 50% – 50%
→ Entropy = 1
Node này không giúp ích cho việc dự đoán vì mức hỗn loạn tối đa.
Decision Tree sẽ tìm thuộc tính sao cho khi tách node:
Quá trình này gắn trực tiếp với:
Đây là phần quan trọng trong pipeline ML cơ bản (Module 4).
Entropy kết nối với nhiều phần của lộ trình AI:
Hiểu Entropy giúp bạn nắm vững cách các mô hình “đo sự hỗn loạn” — từ cây quyết định đến các mô hình phức tạp hơn.
Bạn có thể thử:
Các thử nghiệm nhỏ và trực quan này giúp bạn hiểu sâu hơn thay vì học công thức khô khan.