LightGBM khác gì XGBoost về tốc độ xử lý?

Vì sao nhiều bạn thắc mắc “LightGBM nhanh hơn XGBoost là do đâu?”

Khi mới làm quen với các mô hình Boosting trong Machine Learning, người học thường gặp hai cái tên quen thuộc: XGBoost và LightGBM. Cả hai đều mạnh, ổn định và phổ biến trong những bài toán dạng bảng

tabular

. Nhưng khi chạy thử, nhiều bạn thấy LightGBM thường “nhanh hơn hẳn”, nhất là khi dữ liệu lớn.

Câu hỏi tự nhiên xuất hiện:
“Cùng là Boosting, cùng là cây quyết định, vậy LightGBM nhanh hơn XGBoost ở điểm nào?”

Điều làm nhiều bạn khó phân biệt nằm ở việc cả hai đều tối ưu

hiệu quả tính toán

, nhưng cách xây cây lại khác hoàn toàn.

Bài viết này đi từ gốc rễ, giúp bạn hiểu lý do LightGBM xử lý nhanh hơn XGBoost mà không cần công thức nặng nề.

Cốt lõi: LightGBM dùng Leaf-wise, XGBoost dùng Level-wise

Đây là khác biệt quan trọng nhất.

XGBoost – Level-wise Tree Growth

Mỗi lần mở rộng cây, XGBoost mở toàn bộ các node ở cùng một tầng.

Ưu điểm: Cây cân đối, dễ kiểm soát.

Nhược điểm:
Mở rộng cả những nhánh “không quan trọng”, gây tốn thời gian và bộ nhớ.

LightGBM – Leaf-wise Tree Growth
`kèm giới hạn độ sâu`

LightGBM chỉ mở rộng node có “lợi ích” cao nhất.

Tức là thay vì mở cả tầng, nó tập trung vào một nhánh “lời nhất” để đào sâu.

Ưu điểm:
Chọn đúng khu vực cần chia → tăng tốc đáng kể.

Nhược điểm:
Nếu không giới hạn độ sâu, cây có thể lệch

overfitting

, nên LightGBM thường dùng

depth limit

Vì sao Leaf-wise lại nhanh hơn?

Bạn có thể hình dung bằng ví dụ:

Giả sử trong một tầng có 20 node:

Với XGBoost, bạn phải tính split cho cả 20 node → tốn thời gian.
Với LightGBM, giả sử node số 7 mang lợi ích cao nhất → chỉ tính và mở node 7, bỏ qua 19 node còn lại.

Khi dữ liệu lớn:

Số node nhiều hơn,
Số feature lớn hơn,

=> Mức tiết kiệm thời gian càng rõ rệt.

LightGBM còn nhanh nhờ 2 kỹ thuật đặc biệt

Histogram-based Algorithm

LightGBM không duyệt từng giá trị liên tục, mà gom giá trị feature vào các

bin

(thùng).
Lợi ích:

Giảm số phép tính,
Giảm RAM,
Tăng tốc đáng kể.

Feature Bundling & GOSS
`tùy bản dùng`

LightGBM còn dùng:

Feature Bundling
Ghép các feature ít tương quan để giảm chiều
GOSS –
Gradient-based One-Side Sampling

Ưu tiên giữ mẫu có gradient lớn

Cả hai đều góp phần giảm chi phí xử lý.

Góc nhìn dự án: chọn LightGBM hay XGBoost?

Tùy vào bài toán:

Dữ liệu lớn, nhiều cột: LightGBM thường nổi bật.
Yêu cầu cây cân bằng hơn: XGBoost có lợi thế.
Cần độ ổn định cao: XGBoost phổ biến hơn trong sản xuất.
Muốn thử nghiệm nhanh: LightGBM là lựa chọn hợp lý.

Trong nhóm kiến thức Machine Learning 1–2

module 4

và

optimization module 5

, các kỹ thuật như

gradient

split gain

regularization

… thường được nhắc tới, giúp bạn hiểu sâu hơn vì sao hai mô hình xử lý khác nhau.

Lời khuyên cho người mới bắt đầu

Nếu bạn mới học Boosting, có thể:

Thử chạy một dataset nhỏ bằng cả XGBoost và LightGBM,
Quan sát thời gian huấn luyện,
Xem số node và cấu trúc cây.

Bạn có thể bắt đầu bằng vài thử nghiệm nhỏ để hiểu rõ hơn cách mỗi mô hình hoạt động.

Hỏi đáp nhanh về LightGBM vs XGBoost

LightGBM có luôn nhanh hơn XGBoost không?
Không phải lúc nào, nhưng thường nhanh hơn trên dữ liệu lớn.

LightGBM có dễ overfit hơn không?
Đúng, vì Leaf-wise dễ tạo cây lệch nếu không giới hạn độ sâu.

XGBoost có chậm hơn do Level-wise không?
Đúng, Level-wise mở rộng nhiều node không cần thiết.

Cả hai có dùng được cho regression và classification không?
Có, cả hai đều hỗ trợ nhiều loại bài toán.

FAQ về chương trình AIO
`4 câu được phép`

Q: Mình con số 0 thì học nổi không?
A: Chỉ cần có thời gian học mỗi ngày. Kiến thức và tài liệu team admin lo.

Q: Ai dạy AIO?
A: Toàn bộ admin AIO trực tiếp dạy và hỗ trợ trong suốt hành trình.

Q: Admin có “xịn” không?
A: Admin đều là người làm nghề thật. Không dám nói xịn, chỉ dạy bằng hết sức mình.

Q: AIO khác gì trung tâm khác?
A: AIO không phải trung tâm. Đây là dự án học tập cộng đồng với tinh thần “Cùng nhau học – cùng nhau khổ – cùng nhau lớn”.