LightGBM khác gì XGBoost về tốc độ xử lý?

Vì sao nhiều bạn thắc mắc “LightGBM nhanh hơn XGBoost là do đâu?”

Khi mới làm quen với các mô hình Boosting trong Machine Learning, người học thường gặp hai cái tên quen thuộc: XGBoost và LightGBM. Cả hai đều mạnh và phổ biến trong bài toán dạng bảng (tabular). Nhưng khi chạy thử, nhiều bạn thấy LightGBM thường nhanh hơn rõ rệt, đặc biệt khi dữ liệu lớn.

Câu hỏi tự nhiên xuất hiện:

“Cùng là Boosting, cùng là cây quyết định, vậy LightGBM nhanh hơn XGBoost ở điểm nào?”

Điều gây nhầm lẫn nằm ở chỗ cả hai đều tối ưu hiệu suất tính toán, nhưng cách xây cây lại khác nhau hoàn toàn.

Cốt lõi: LightGBM dùng Leaf-wise, XGBoost dùng Level-wise

🔹 XGBoost – Level-wise Tree Growth

Ở mỗi tầng, XGBoost mở rộng tất cả các node cùng cấp.

Ưu điểm:

Cây cân đối, dễ kiểm soát

Nhược điểm:

Mở cả những nhánh không quan trọng → lãng phí thời gian và bộ nhớ

🔹 LightGBM – Leaf-wise Tree Growth (kèm giới hạn độ sâu)

LightGBM chỉ mở rộng node có “lợi ích cao nhất” (highest gain).

Ưu điểm:

Tập trung vào nhánh “đáng mở nhất” → tăng tốc đáng kể

Nhược điểm:

Nếu không giới hạn độ sâu, cây dễ lệch → overfitting

Vì sao Leaf-wise lại nhanh hơn?

Ví dụ:

Ở một tầng có 20 node:

XGBoost → tính split cho cả 20 node
LightGBM → chỉ tính node tốt nhất, bỏ qua 19 node còn lại

Khi số feature & số node tăng lớn → mức tiết kiệm thời gian của LightGBM càng rõ rệt.

LightGBM còn tăng tốc nhờ 2 kỹ thuật quan trọng

🔸 1. Histogram-based Algorithm

LightGBM không duyệt tất cả giá trị liên tục, mà gom feature vào các bin.

Lợi ích:

Giảm số phép tính
Giảm RAM
Tăng tốc huấn luyện mạnh mẽ

🔸 2. GOSS & Feature Bundling

GOSS (Gradient-based One-Side Sampling):
giữ các mẫu có gradient lớn → tập trung học vào điểm “khó học”
Feature Bundling:
ghép các feature ít tương quan thành 1 nhóm → giảm chiều hiệu quả

Hai kỹ thuật này làm LightGBM cực nhanh trên dữ liệu lớn.

Góc nhìn dự án: chọn LightGBM hay XGBoost?

Khi nào LightGBM tốt hơn?

Dữ liệu lớn
Nhiều feature
Cần huấn luyện nhanh
Muốn thử nghiệm nhiều mô hình trong thời gian ngắn

Khi nào XGBoost hợp lý hơn?

Cần độ ổn định cao
Mô hình dùng trong sản xuất
Muốn cây cân bằng hơn (ít overfit hơn Leaf-wise)

Trong các module ML (Module 4) và Optimization (Module 5) của AIO, tư duy “gain”, “split”, “gradient” và “tối ưu tốc độ” là nền tảng giúp hiểu rõ sự khác biệt này.

Lời khuyên cho người mới bắt đầu

Bạn nên thử:

Chạy cùng dataset với XGBoost & LightGBM
So sánh thời gian train
Xem cấu trúc cây (leaf-wise sâu hơn, level-wise rộng hơn)
Theo dõi chỉ số validation khi tăng depth limit

Những thử nghiệm nhỏ giúp bạn hiểu bản chất thay vì học thuộc.

Hỏi đáp nhanh về LightGBM vs XGBoost

Q: LightGBM có luôn nhanh hơn không?
A: Không phải mọi lúc, nhưng trên dữ liệu lớn thì gần như luôn nhanh hơn.

Q: LightGBM dễ overfit hơn không?
A: Đúng, vì Leaf-wise đào sâu một nhánh rất nhanh → cần depth limit.

Q: XGBoost chậm hơn vì Level-wise đúng không?
A: Đúng, vì mở rộng quá nhiều node không cần thiết.

Q: Cả hai có dùng cho regression & classification không?
A: Có, cả hai đều hỗ trợ đầy đủ.

FAQ về chương trình AIO

Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.

Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.

Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.

Q4. AIO có gì khác những nơi khác?
Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: Cùng nhau học – cùng nhau khổ – cùng nhau lớn. Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.