Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: LightGBM, GOSS, Gradient-based One-Side Sampling, Boosting, cây quyết định, tối ưu hóa mô hình
Khi bắt đầu tìm hiểu các mô hình Boosting, đặc biệt là LightGBM, nhiều bạn sẽ thấy xuất hiện một khái niệm hơi lạ: GOSS – Gradient-based One-Side Sampling.
Dễ hiểu là: LightGBM không dùng toàn bộ dữ liệu cho mỗi lần xây cây, mà chọn lọc một phần mẫu để tăng tốc nhưng vẫn giữ được chất lượng mô hình.
Nhóm kiến thức này thường được gặp trong các nội dung ML cơ bản (như regression, classification) và tối ưu hóa mô hình – những kiến thức quen thuộc trong lộ trình học nền tảng từ Machine Learning đến Pre-Deep Learning.
GOSS là cơ chế giúp LightGBM nhanh hơn mà không giảm nhiều độ chính xác. Bản chất của nó nằm ở cách chọn mẫu dựa trên độ lớn gradient – tức mức độ “sai” của từng điểm dữ liệu.
Trong Boosting, ở mỗi vòng lặp, mô hình học từ gradient – đại diện cho mức độ mô hình đang sai ở đâu và sai bao nhiêu.
Nếu dùng toàn bộ dữ liệu để học, mô hình sẽ mất nhiều thời gian, đặc biệt khi dữ liệu lớn.
GOSS giúp giải bài toán này bằng cách:
Nhờ vậy:
LightGBM dùng GOSS theo ba bước chính:
Những mẫu có gradient cao luôn được chọn vào tập huấn luyện. Đây là nơi mô hình cần cải thiện mạnh nhất.
Trong nhóm gradient nhỏ, LightGBM chỉ chọn một phần để giảm tải tính toán.
Do bỏ bớt mẫu “dễ”, mô hình điều chỉnh trọng số của chúng để giữ cân bằng khi tính toán độ lợi (Gain).
Giả sử bạn có:
GOSS sẽ:
Kết quả:
Thay vì xử lý 1 triệu điểm, mô hình chỉ xử lý khoảng 300–350 nghìn điểm nhưng vẫn mang đủ “thông tin quan trọng” để tạo ra các nhánh cây hiệu quả.
Khi làm việc với dữ liệu lớn hoặc hệ thống thời gian thực (đặc biệt trong ML áp dụng cho tabular data):
GOSS giúp LightGBM:
Đây là lý do LightGBM thường được dùng trong các pipeline ML truyền thống (Module ML cơ bản → MLOps), nơi tốc độ và hiệu quả phải cân bằng với nhau.
Bạn có thể bắt đầu bằng việc:
tắt GOSSbật GOSSGOSS có thay đổi bản chất của LightGBM không?
Không. Nó chỉ thay đổi cách lấy mẫu để tăng tốc.
GOSS có làm giảm chất lượng mô hình không?
Giảm rất ít, vì các điểm quan trọng nhất vẫn được giữ lại.
Có thể tắt GOSS không?
Có. LightGBM cho phép bật/tắt tùy mục đích.
GOSS có phù hợp cho dữ liệu nhỏ không?
Không bắt buộc. Với dữ liệu nhỏ, dùng toàn bộ mẫu cũng đủ nhanh.
Q: Mình con số 0 thì học nổi không?
A: Chỉ cần có thời gian học mỗi ngày. Kiến thức và tài liệu team admin lo.
Q: Ai dạy AIO?
A: Toàn bộ admin AIO trực tiếp dạy và hỗ trợ trong suốt hành trình.
Q: Admin có “xịn” không?
A: Admin đều là người làm nghề thật. Không dám nói xịn, chỉ dạy bằng hết sức mình.
Q: AIO có trụ sở ở đâu?
A: Team làm việc tại Ninh Thuận để tập trung xây dựng chương trình tốt nhất.