Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: Decision Tree Regressor, leaf node, giá trị dự đoán, regression tree, MSE, MAE, machine learning cơ bản
Khi bắt đầu học Decision Tree, đặc biệt là với bài toán hồi quy (regression), nhiều bạn thường có chung một thắc mắc:
“Mô hình dự đoán giá trị cuối cùng ở Leaf Node bằng cách nào? Có phải lấy trung bình? Hay có thêm bước nào phức tạp hơn?”
Câu hỏi này tưởng đơn giản nhưng dễ gây nhầm lẫn, nhất là khi bạn đã quen với Decision Tree cho classification – nơi leaf node cho ra class. Với regression thì cơ chế khác hoàn toàn.
Bài viết dưới đây giúp bạn hiểu đúng bản chất, không cần công thức phức tạp.
Mỗi khi mô hình đi từ gốc xuống cuối cây, nó sẽ dừng ở một leaf node.
Tại đây, mô hình sẽ nhìn vào tập mẫu đã rơi vào node này trong quá trình huấn luyện.
Giá trị dự đoán chính là:
→ Trung bình của tất cả giá trị mục tiêu (target) trong leaf node.
meany-valuesĐây là lý do Decision Tree cho regression còn được xem như “mô hình chia vùng + dự đoán đại diện”.
Giả sử một leaf node chứa 5 mẫu huấn luyện, với giá trị mục tiêu:
120
135
140
150
155
Giá trị dự đoán tại leaf node =
(120 + 135 + 140 + 150 + 155) / 5
= 140
Bạn có thể hình dung node giống như một “nhóm dữ liệu nhỏ”, và mô hình dự đoán bằng cách lấy giá trị trung tâm nhất của nhóm.
Ý tưởng của Decision Tree Regressor là:
Để giá trị đại diện này tốt nhất, mô hình sử dụng phép đo sai số như:
Khi tối ưu MSE (phổ biến nhất), giá trị tối ưu đại diện cho nhóm chính là trung bình.
Đây là kết quả từ tính chất thống kê: trung bình là điểm tối thiểu hóa MSE.
Điều này liên quan đến nhóm kiến thức về losses và optimization trong Pre-Deep Learning (Module 5).
Cách dự đoán tại leaf node gắn chặt với:
Nhờ nắm rõ nền tảng này, bạn sẽ dễ kết nối Decision Tree với các mô hình phức tạp hơn như Random Forest, XGBoost.
Nếu node chỉ còn 1 mẫu, giá trị dự đoán = chính target của mẫu đó → mô hình “nhớ” dữ liệu.
Vì vậy, các tham số như
min_samples_leafmax_depthDo mỗi leaf node cho một giá trị cố định, biểu đồ dự đoán của Decision Tree Regressor thường có dạng “giật bậc”.
Điều này hoàn toàn bình thường.
Trong Random Forest, mỗi cây dự đoán bằng trung bình tại node, sau đó rừng lấy trung bình giữa các cây.
Ý tưởng
meanNếu bạn muốn hiểu rõ hơn về cách leaf node dự đoán:
Bạn có thể bắt đầu bằng những ví dụ nhỏ như vậy để cảm nhận rõ cơ chế của mô hình.