Decision Tree Regressor dự đoán giá trị tại Leaf Node như thế nào?

Tác giả: AI VIET NAM (AI VIET NAM)

Keywords: Decision Tree Regressor, leaf node, giá trị dự đoán, regression tree, MSE, MAE, machine learning cơ bản

Decision Tree Regressor dự đoán giá trị tại Leaf Node như thế nào?

Khi bắt đầu học Decision Tree, đặc biệt là với bài toán hồi quy (regression), nhiều bạn thường có chung một thắc mắc:

“Mô hình dự đoán giá trị cuối cùng ở Leaf Node bằng cách nào? Có phải lấy trung bình? Hay có thêm bước nào phức tạp hơn?”

Câu hỏi này tưởng đơn giản nhưng dễ gây nhầm lẫn, nhất là khi bạn đã quen với Decision Tree cho classification – nơi leaf node cho ra class. Với regression thì cơ chế khác hoàn toàn.

Bài viết dưới đây giúp bạn hiểu đúng bản chất, không cần công thức phức tạp.

Decision Tree Regressor hoạt động ra sao ở cuối cây?

Mỗi khi mô hình đi từ gốc xuống cuối cây, nó sẽ dừng ở một leaf node.
Tại đây, mô hình sẽ nhìn vào tập mẫu đã rơi vào node này trong quá trình huấn luyện.

Giá trị dự đoán chính là:

→ Trung bình của tất cả giá trị mục tiêu (target) trong leaf node.

  • Không nhiều hơn.
  • Không ít hơn.
  • Không có công thức bổ sung hay weighting đặc biệt.
  • Nó chỉ đơn giản là
    mean
    của toàn bộ
    y-values
    thuộc node đó.

Đây là lý do Decision Tree cho regression còn được xem như “mô hình chia vùng + dự đoán đại diện”.

Ví dụ trực quan

Giả sử một leaf node chứa 5 mẫu huấn luyện, với giá trị mục tiêu:

120
135
140
150
155

Giá trị dự đoán tại leaf node =
(120 + 135 + 140 + 150 + 155) / 5
= 140

Bạn có thể hình dung node giống như một “nhóm dữ liệu nhỏ”, và mô hình dự đoán bằng cách lấy giá trị trung tâm nhất của nhóm.

Vì sao lại dùng trung bình?

Ý tưởng của Decision Tree Regressor là:

  • chia không gian dữ liệu thành nhiều vùng nhỏ (dựa trên các ngưỡng chia – thresholds)
  • trong mỗi vùng, dự đoán bằng một giá trị đại diện

Để giá trị đại diện này tốt nhất, mô hình sử dụng phép đo sai số như:

  • Mean Squared Error (MSE)
  • Mean Absolute Error (MAE)

Khi tối ưu MSE (phổ biến nhất), giá trị tối ưu đại diện cho nhóm chính là trung bình.
Đây là kết quả từ tính chất thống kê: trung bình là điểm tối thiểu hóa MSE.

Điều này liên quan đến nhóm kiến thức về losses và optimization trong Pre-Deep Learning (Module 5).

Mối liên hệ với kiến thức nền

Cách dự đoán tại leaf node gắn chặt với:

  • đại số tuyến tính và thống kê cơ bản (Modules 1–2)
  • các loại lỗi như MSE, MAE (Module 5 – optimization, losses & metrics)
  • mô hình ML cơ bản dạng cây (Module 4 – regression & classification)
  • cách biểu diễn dữ liệu dạng feature (Modules 3–4)

Nhờ nắm rõ nền tảng này, bạn sẽ dễ kết nối Decision Tree với các mô hình phức tạp hơn như Random Forest, XGBoost.

Khi làm dự án AI/ML, điều này có ý nghĩa gì?

Leaf node càng nhỏ → mô hình dễ overfit

Nếu node chỉ còn 1 mẫu, giá trị dự đoán = chính target của mẫu đó → mô hình “nhớ” dữ liệu.
Vì vậy, các tham số như

min_samples_leaf
,
max_depth
ảnh hưởng mạnh đến chất lượng.

Các vùng dự đoán là những “bậc thang”

Do mỗi leaf node cho một giá trị cố định, biểu đồ dự đoán của Decision Tree Regressor thường có dạng “giật bậc”.
Điều này hoàn toàn bình thường.

Các mô hình ensemble tận dụng cơ chế này

Trong Random Forest, mỗi cây dự đoán bằng trung bình tại node, sau đó rừng lấy trung bình giữa các cây.
Ý tưởng

mean
lặp lại ở nhiều tầng → ổn định hơn và ít nhiễu.

Lời khuyên nhẹ dành cho người mới

Nếu bạn muốn hiểu rõ hơn về cách leaf node dự đoán:

  • thử tạo bộ dữ liệu nhỏ và quan sát giá trị trung bình trong từng node
  • thay đổi độ sâu cây để xem dự đoán bị giật bậc ra sao
  • thử đổi từ MSE sang MAE để thấy cách cây chia khác nhau

Bạn có thể bắt đầu bằng những ví dụ nhỏ như vậy để cảm nhận rõ cơ chế của mô hình.

Tài nguyên học AI: