Nội dung bài viết
© 2026 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: Decision Tree Regressor, leaf node, giá trị dự đoán, regression tree, MSE, MAE, machine learning cơ bản
Khi bắt đầu học Decision Tree cho bài toán hồi quy (regression), nhiều bạn thường thắc mắc:
“Mô hình dự đoán giá trị cuối cùng ở leaf node bằng cách nào?
Có phải lấy trung bình? Hay còn bước nào phức tạp hơn?”
Câu hỏi này tưởng đơn giản nhưng dễ gây nhầm lẫn vì nếu bạn đã quen với Decision Tree dùng cho classification (trả về class), thì regression hoạt động hoàn toàn khác.
Khi mô hình đi từ gốc xuống các node theo các ngưỡng chia (threshold), nó sẽ dừng tại một leaf node.
Tại leaf node, mô hình nhìn vào toàn bộ các mẫu huấn luyện rơi vào node này.
Giá trị dự đoán tại leaf node chính là:
→ Trung bình (mean) của tất cả giá trị mục tiêu (target) có trong node.
Leaf node của Decision Tree Regressor chỉ đơn giản là giá trị trung bình của các y-values trong node đó.
Một leaf node chứa 5 giá trị target: 120 , 130 , 140 , 150 , 155
Dự đoán của node =
(120 + 135 + 140 + 150 + 155) / 5 = 140
Node giống như một “nhóm dữ liệu nhỏ”, và mô hình chọn giá trị trung tâm nhất của nhóm làm đại diện.
Decision Tree Regressor chia không gian dữ liệu thành nhiều vùng nhỏ (leaf nodes).
Trong mỗi vùng, mô hình phải chọn một giá trị đại diện duy nhất.
Khi tối ưu dựa trên Mean Squared Error (MSE) — tiêu chuẩn phổ biến nhất — thì giá trị đại diện tốt nhất chính là trung bình.
→ Vì vậy, trung bình là lựa chọn tối ưu về mặt toán học.
Hiểu cách leaf node dự đoán giúp bạn kết nối:
Hiểu rõ phần này khiến Random Forest, Gradient Boosting, XGBoost trở nên dễ tiếp cận hơn.
Nếu leaf node chỉ có 1 điểm → dự đoán bằng đúng target của điểm đó → mô hình “nhớ” dữ liệu.
Tham số quan trọng để tránh overfitting:
Decision Tree cho regression tạo ra các đoạn dự đoán có giá trị cố định theo từng vùng → biểu đồ thường bị “giật bậc”.
Đây không phải lỗi — mà là bản chất của mô hình.
Trong Random Forest:
→ Kết quả ổn định hơn, ít nhiễu hơn.
Trong Gradient Boosting:
Hãy thử:
Những thử nghiệm này giúp bạn hiểu bản chất thay vì chỉ nhớ lý thuyết.
Leaf node luôn dự đoán bằng mean?
Có — khi tối ưu theo MSE.
Nếu dùng MAE thì sao?
Leaf sẽ dự đoán bằng median.
Leaf node càng nhỏ càng tốt?
Không — quá nhỏ dễ overfit.
Mỗi leaf node cho một giá trị duy nhất?
Đúng — Decision Tree Regressor tạo dự đoán dạng “bậc thang”.
Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.
Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.
Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.
Q4. AIO có gì khác những nơi khác?
Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: “Cùng nhau học – cùng nhau khổ – cùng nhau lớn.” Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.