Decision Tree hoạt động như thế nào và khi nào nên dùng cây quyết định?
Tác giả: AI VIET NAM (Decision Tree)
Keywords: Decision Tree
Bạn đang hỏi kiểu:
“Decision Tree là gì? Nó chia kiểu gì? Khi nào nên dùng cây quyết định và khi nào nên chọn Random Forest, XGBoost?”
Câu trả lời ngắn: Decision Tree là mô hình học ra một chuỗi câu hỏi if–else thông minh để đưa ra dự đoán.
Dễ hiểu, dễ giải thích, tốt cho dữ liệu tabular — nhưng một mình nó rất dễ overfit nếu cây quá sâu.
Trong bài này, bạn sẽ:
Hiểu cách Decision Tree hoạt động theo cách trực quan
Biết ưu – nhược điểm thật sự của cây quyết định
Biết khi nào nên dùng tree, và khi nào không nên
Thấy Decision Tree nằm ở đâu trong lộ trình AIO – chương trình AI & Data Science 1 năm của AI VIET NAM
1. Decision Tree là gì nếu nhìn bằng “ngôn ngữ if–else”?
Hãy quên entropy, Gini… trước.
Nhìn một cây quyết định như:
Một chuỗi câu hỏi if–else được tổ chức thành hình cái cây.
Node = một câu hỏi
“Thu nhập > 15 triệu không?”
“Số đơn hàng > 3 không?”
Branch = câu trả lời
Có → đi nhánh phải
Không → đi nhánh trái
Leaf (lá) = kết luận cuối cùng
Dự đoán churn
Dự đoán không churn
Dự đoán doanh thu (nếu là regression)
Cách hoạt động cực đơn giản:
Bắt đầu từ gốc
Hỏi câu hỏi ở node
Chọn nhánh phù hợp
Lặp lại đến khi gặp lá → đưa ra dự đoán
Điểm khác biệt quan trọng:
Bạn không phải tự viết if–else.
Model tự học xem nên đặt câu hỏi nào, ở ngưỡng nào để phân tách dữ liệu tốt nhất.
2. Decision Tree học “câu hỏi” bằng cách nào?
Đây là phần nhiều bạn tò mò nhất:
“Sao nó biết phải hỏi ‘Thu nhập > 15 triệu?’ mà không phải ‘Tuổi > 27?’?”
Ý tưởng cốt lõi:
Ở mỗi bước, model thử tách dữ liệu bằng tất cả các feature và nhiều ngưỡng khác nhau.
Với mỗi cách chia, nó đo xem dữ liệu có “gọn hơn” không — nghĩa là ít lẫn lộn giữa các nhãn hơn.
Nó chọn feature + ngưỡng giúp dữ liệu sạch nhất.
“Độ sạch” đo bằng:
Entropy
Gini impurity (phổ biến)
Hoặc variance reduction với regression
Bạn chỉ cần hiểu ở mức Newbie:
Một tách tốt là tách làm cho mỗi bên thiên về một nhãn rõ rệt.
Sau đó model tiếp tục chia từng nhánh con (đệ quy) cho đến khi:
Dữ liệu đủ sạch
Hoặc đạt giới hạn độ sâu
Hoặc số mẫu quá ít
Hoặc đạt tiêu chí dừng
3. Decision Tree dùng cho Classification hay Regression?