LightGBM sử dụng kỹ thuật GOSS (Gradient-based One-Side Sampling) là gì?

Hiểu về GOSS trong LightGBM theo cách dễ nhất

Khi bắt đầu tìm hiểu các mô hình Boosting, đặc biệt là LightGBM, nhiều bạn sẽ thấy xuất hiện một khái niệm hơi lạ: GOSS – Gradient-based One-Side Sampling.
Dễ hiểu là: LightGBM không dùng toàn bộ dữ liệu cho mỗi lần xây cây, mà chọn lọc một phần mẫu để tăng tốc nhưng vẫn giữ được chất lượng mô hình.

Nhóm kiến thức này thường được gặp trong các nội dung ML cơ bản (như regression, classification) và tối ưu hóa mô hình – những kiến thức quen thuộc trong lộ trình học nền tảng từ Machine Learning đến Pre-Deep Learning.

GOSS là cơ chế giúp LightGBM nhanh hơn mà không giảm nhiều độ chính xác. Bản chất của nó nằm ở cách chọn mẫu dựa trên độ lớn gradient – tức mức độ “sai” của từng điểm dữ liệu.

GOSS giải quyết vấn đề gì?

Trong Boosting, ở mỗi vòng lặp, mô hình học từ gradient – đại diện cho mức độ mô hình đang sai ở đâu và sai bao nhiêu.

Những điểm có gradient lớn: mô hình dự đoán sai nhiều → rất quan trọng.
Những điểm có gradient nhỏ: mô hình dự đoán gần đúng → ít quan trọng hơn.

Nếu dùng toàn bộ dữ liệu để học, mô hình sẽ mất nhiều thời gian, đặc biệt khi dữ liệu lớn.
GOSS giúp giải bài toán này bằng cách:

Giữ tất cả mẫu có gradient lớn
Lấy ngẫu nhiên một phần các mẫu gradient nhỏ
Điều chỉnh lại trọng số để mô hình không bị lệch

Nhờ vậy:

Tốc độ tăng lên rõ rệt
Thông tin quan trọng vẫn được giữ lại
Chất lượng mô hình không giảm đáng kể

Cách hiểu đơn giản về cơ chế của GOSS

LightGBM dùng GOSS theo ba bước chính:

Giữ lại các điểm “khó”

Những mẫu có gradient cao luôn được chọn vào tập huấn luyện. Đây là nơi mô hình cần cải thiện mạnh nhất.

Lấy mẫu ngẫu nhiên các điểm “dễ”

Trong nhóm gradient nhỏ, LightGBM chỉ chọn một phần để giảm tải tính toán.

Cân chỉnh trọng số

Do bỏ bớt mẫu “dễ”, mô hình điều chỉnh trọng số của chúng để giữ cân bằng khi tính toán độ lợi (Gain).

Ví dụ thực tế

Giả sử bạn có:

1.000.000 mẫu
20% mẫu có gradient lớn
80% mẫu có gradient nhỏ

GOSS sẽ:

Giữ 200.000 mẫu gradient lớn
Lấy ngẫu nhiên khoảng 10–20% trong số 800.000 mẫu nhỏ
Tăng trọng số của nhóm được lấy mẫu để tổng thể không bị lệch

Kết quả:
Thay vì xử lý 1 triệu điểm, mô hình chỉ xử lý khoảng 300–350 nghìn điểm nhưng vẫn mang đủ “thông tin quan trọng” để tạo ra các nhánh cây hiệu quả.

GOSS trong bối cảnh dự án thực tế

Khi làm việc với dữ liệu lớn hoặc hệ thống thời gian thực (đặc biệt trong ML áp dụng cho tabular data):

Tốc độ xử lý là yếu tố rất quan trọng
Thời gian huấn luyện bị giới hạn
Mô hình cần thử nghiệm nhiều lần (tuning, retraining…)

GOSS giúp LightGBM:

Huấn luyện nhanh hơn
Bớt tốn RAM
Dễ chạy hơn trên máy cá nhân hoặc server nhỏ

Đây là lý do LightGBM thường được dùng trong các pipeline ML truyền thống (Module ML cơ bản → MLOps), nơi tốc độ và hiệu quả phải cân bằng với nhau.

Gợi ý cho người mới học

Bạn có thể bắt đầu bằng việc:

Thử chạy LightGBM với
tắt GOSS
và
bật GOSS
để so sánh tốc độ
Quan sát số lượng mẫu thật sự được mô hình dùng
Theo dõi ảnh hưởng lên độ chính xác để hiểu rõ tác dụng của kỹ thuật này

Hỏi đáp nhanh về GOSS trong LightGBM

GOSS có thay đổi bản chất của LightGBM không?
Không. Nó chỉ thay đổi cách lấy mẫu để tăng tốc.

GOSS có làm giảm chất lượng mô hình không?
Giảm rất ít, vì các điểm quan trọng nhất vẫn được giữ lại.

Có thể tắt GOSS không?
Có. LightGBM cho phép bật/tắt tùy mục đích.

GOSS có phù hợp cho dữ liệu nhỏ không?
Không bắt buộc. Với dữ liệu nhỏ, dùng toàn bộ mẫu cũng đủ nhanh.

FAQ về chương trình AIO

Q: Mình con số 0 thì học nổi không?
A: Chỉ cần có thời gian học mỗi ngày. Kiến thức và tài liệu team admin lo.

Q: Ai dạy AIO?
A: Toàn bộ admin AIO trực tiếp dạy và hỗ trợ trong suốt hành trình.

Q: Admin có “xịn” không?
A: Admin đều là người làm nghề thật. Không dám nói xịn, chỉ dạy bằng hết sức mình.

Q: AIO có trụ sở ở đâu?
A: Team làm việc tại Ninh Thuận để tập trung xây dựng chương trình tốt nhất.