Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: Gini Impurity, Decision Tree, độ hỗn hợp dữ liệu, phân lớp, Machine Learning
Khi mới tìm hiểu Decision Tree, nhiều bạn nhìn thấy công thức của Gini Impurity và cảm giác nó
trừu tượngThực tế, Gini Impurity chỉ phản ánh một điều rất gần gũi:
mức độ
lẫn lộnMột node càng hỗn hợp (nhiều lớp trộn lẫn), độ impurity càng cao.
Một node càng
sạchGini Impurity là chỉ số dùng để đo xem tại một node của cây quyết định, dữ liệu có đang bị pha trộn giữa nhiều lớp hay không.
Nó trả lời câu hỏi:
Nếu chọn ngẫu nhiên một phần tử trong node, xác suất bị gán sai lớp là bao nhiêu?Khái niệm này xuất hiện trong nhóm kiến thức nền tảng của Machine Learning – Classification (Module 4 của AIO), nơi các thuật toán dựa trên entropy và impurity được xem như bước quan trọng để hiểu cách mô hình phân chia dữ liệu.
Thay vì nhìn công thức, bạn có thể tưởng tượng như sau:
Nếu một node đang có 50% lớp A + 50% lớp B
→ mô hình
bối rốiNếu node có 90% lớp A + 10% lớp B
→ node khá
sạchNếu node có 100% một lớp
→
impurity = 0Trong quá trình xây dựng cây, mô hình sẽ chọn thuộc tính giúp giảm impurity nhiều nhất, nghĩa là:
thuần hơnChính việc giảm impurity này tạo nên cách cây học được quy tắc.
Về mặt dự án thực tế (thuộc nhóm kiến thức nền từ Data → ML của AIO), Gini Impurity giúp bạn:
Giả sử bạn có một node chứa 10 mẫu:
Tích cựcTiêu cựcNode này có impurity thấp vì:
Tích cựcNgược lại, nếu node có:
Tích cựcTiêu cựcThì độ impurity là cao nhất vì:
Khi làm việc với Decision Tree hoặc Random Forest, bạn có thể quan sát Gini Impurity ở từng node để:
Gini Impurity vì thế là một
tín hiệuNếu bạn đang làm quen với Decision Tree:
Những bước thực hành nhỏ giúp bạn hiểu rõ cách mô hình học thay vì chỉ dựa vào công thức.