Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: gradient boosting machine, cơ chế gbm, boosting là gì, residual gradient boosting
Khi mới học Machine Learning (đặc biệt giai đoạn Classification & Regression – Module 4 của AIO), nhiều bạn quen với mô hình độc lập như Logistic Regression, Decision Tree hoặc KNN.
Nhưng khi nhìn sang GBM, nơi có hàng trăm cây nhỏ “hợp lực” với nhau, cộng thêm khái niệm “gradient”, “residual”, “boosting”… cảm giác rối là điều rất bình thường.
Trên thực tế, cơ chế của GBM lại rất trực quan: mỗi cây sinh ra để sửa lỗi của cây trước đó.
GBM giống như một nhóm nhỏ cùng giải một bài toán, mỗi người bổ sung phần mà người trước còn thiếu.
Boosting = học tuần tự + sửa lỗi liên tục
Nếu Random Forest dùng nhiều cây độc lập,
thì GBM dùng nhiều cây phụ thuộc lẫn nhau.
Mỗi cây trong GBM:
Lặp lại nhiều vòng → mô hình ngày càng chính xác.
GBM dùng gradient để biết hướng nào giúp giảm lỗi nhanh nhất.
Ba bước cơ bản:
Thường là một cây nông (weak learner).
Residual = phần mô hình chưa học được.
Cây tiếp theo học cách “bù vào” sai số.
Cây mới không thay cây cũ → chỉ cộng dồn vào mô hình hiện tại.
Lặp qua hàng trăm vòng → mô hình hội tụ.
Dự đoán điểm phim:
Cây 2 học cách bù vào +2
Cây 3 bù thêm phần còn thiếu
→ Dự đoán tiến gần 8.
✔ Tập trung vào phần mô hình còn yếu
✔ Linh hoạt giữa Regression & Classification
✔ Cây nhỏ → giảm overfitting
✔ Tối ưu được nhiều dạng loss
Nhờ dùng gradient, GBM liên kết chặt với kiến thức Optimization – Module 5.
| Khía cạnh | GBM | Random Forest |
|---|---|---|
| Cách học | tuần tự | song song |
| Ý tưởng | sửa lỗi cây trước | trung bình nhiều cây |
| Tuning | cao | thấp hơn |
| Nguy cơ overfit | cao nếu không chỉnh | ổn định hơn |
GBM mạnh hơn khi dữ liệu có cấu trúc phức tạp và cần tinh chỉnh sâu.
Những mô hình này tối ưu tốc độ, bộ nhớ và độ chính xác.
Xuất hiện nhiều trong dự án doanh nghiệp & cuộc thi ML.
✔ Dữ liệu dạng bảng (tabular)
✔ Cần baseline mạnh
✔ Không muốn dùng mô hình deep learning
✔ Bài toán cần hiệu suất cao và khả năng tuning tốt
Trong dữ liệu tabular, GBM thường vượt mặt nhiều mô hình DL.
Những thực nghiệm nhỏ giúp hiểu bản chất boosting nhanh nhất.
Q: Tại sao GBM “mạnh” hơn Decision Tree đơn lẻ?
A: Vì mỗi cây sửa lỗi cây trước, tạo nên mô hình cộng dồn rất tinh vi.
Q: GBM có dễ overfit không?
A: Có, nếu số vòng lớn và cây quá sâu. Dùng learning rate nhỏ & depth thấp sẽ giảm overfit.
Q: Residual có phải là error tuyệt đối không?
A: Không nhất thiết. Residual là phần mô hình chưa học được, phụ thuộc vào loại loss.
Q: GBM có phù hợp dữ liệu lớn không?
A: Có, nếu dùng các biến thể như XGBoost, LightGBM hoặc CatBoost.
Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.
Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.
Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.
Q4. AIO có gì khác những nơi khác?
Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: Cùng nhau học – cùng nhau khổ – cùng nhau lớn. Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.