Nội dung bài viết
© 2026 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: Gini Impurity, Decision Tree, độ hỗn hợp dữ liệu, phân lớp, Machine Learning
Khi mới tìm hiểu Decision Tree, nhiều bạn nhìn thấy công thức của Gini Impurity và cảm giác nó trừu tượng: nhân, bình phương, rồi cộng dồn… nhưng không rõ mô hình đo lường điều gì và vì sao phải dùng nó.
Thực tế, Gini Impurity chỉ phản ánh một điều rất gần gũi: mức độ lẫn lộn của các lớp trong một tập dữ liệu con.
Gini Impurity đo xem dữ liệu trong một node có bị pha trộn nhiều lớp hay không.
Nó trả lời câu hỏi:
“Nếu chọn ngẫu nhiên một phần tử trong node, xác suất bị gán sai lớp là bao nhiêu?”
Khái niệm này thuộc nền tảng ML – Classification (Module 4 của AIO), nơi các thuật toán dựa trên impurity & entropy là bước quan trọng để hiểu cách cây học quy tắc.
Không cần công thức, chỉ cần hình dung:
Node có 50% lớp A + 50% lớp B
→ impurity cao, cây không quyết định được hướng phân lớp.
Node có 90% lớp A + 10% lớp B
→ impurity thấp, hướng phân lớp rõ ràng.
Node có 100% một lớp
→ impurity = 0 → node sạch hoàn toàn.
Cây quyết định luôn tìm cách giảm impurity nhiều nhất sau mỗi lần chia dữ liệu.
Điều này giúp:
Trong thực tế (liên quan đến các module từ Data → ML của AIO), Gini Impurity giúp bạn:
Giả sử có một node chứa 10 mẫu:
Node này có impurity thấp vì phần lớn cùng một lớp → dự đoán ít sai.
Nếu node có:
Thì impurity là cao nhất vì mô hình gần như không phân biệt được lớp nào mạnh hơn.
Khi làm với Decision Tree hoặc Random Forest, việc theo dõi Gini Impurity ở từng node cho phép bạn:
Gini Impurity là một tín hiệu quan trọng để “đọc” mô hình — đặc biệt hữu ích trong XAI và MLOps (modules 4–7 của AIO).
Hãy thử:
Những thực hành nhỏ này giúp hiểu rõ cách mô hình học thay vì nhớ công thức.
Gini Impurity có phải luôn thấp khi dữ liệu sạch?
Có — node càng thuần, Gini càng thấp.
Impurity bằng 0 nghĩa là gì?
Node chứa duy nhất một lớp.
Gini có dùng cho Regression không?
Không — Regression dùng các chỉ số khác như MSE.
Gini và Entropy khác nhau nhiều không?
Không quá khác — chúng cho kết quả chia khá giống nhau trong nhiều trường hợp.
Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.
Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.
Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.
Q4. AIO có gì khác những nơi khác?
Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: “Cùng nhau học – cùng nhau khổ – cùng nhau lớn.” Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.