Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: DPO, Preference Optimization, LLM Fine‑tuning
Khi bắt đầu tìm hiểu về cách tinh chỉnh LLM sao cho phù hợp với mục đích sử dụng, không ít người gặp khó ở bước: “Làm sao để mô hình hiểu được câu trả lời nào phù hợp hơn, trong khi không có điểm số rõ ràng?”.
Đây là nơi DPO (Direct Preference Optimization) xuất hiện. Phương pháp này được dùng khá nhiều trong lĩnh vực LLM vì nó hoạt động trực tiếp trên sở thích thay vì yêu cầu nhãn phức tạp.
DPO được xây dựng dựa trên một nguyên tắc khá đơn giản:
Khi đã có hai câu trả lời cho cùng một câu hỏi – một tốt, một chưa phù hợp – mô hình chỉ cần học để ưu tiên câu tốt hơn.
Cặp dữ liệu chuẩn thường gồm:
Thay vì huấn luyện mô hình theo dạng phần thưởng như RLHF truyền thống, DPO dựa vào tỉ lệ xác suất mô hình gán cho từng câu trả lời.
Mục tiêu: xác suất của A_pos cần cao hơn A_neg theo một mức chênh lệch được điều chỉnh bằng một hệ số β.
Trong các tài liệu học thuật, người ta trình bày dạng tối ưu hóa như sau (mình viết lại theo dạng mô tả thay vì công thức toán):
Điểm mấu chốt: DPO không cần bước tính reward model như RLHF. Điều này làm pipeline ngắn hơn và dễ triển khai hơn trong thực tế.
Giả sử prompt là:
“Giải thích hiện tượng cầu vồng cho học sinh cấp 2.”
Bộ dữ liệu cung cấp:
DPO sẽ học rằng câu trả lời thứ nhất là lựa chọn ưu tiên.
Trong quá trình tối ưu, mô hình được cập nhật sao cho khi gặp các prompt tương tự, mô hình tự nghiêng về kiểu giải thích giống A_pos.
Khi đưa DPO vào pipeline, nhóm phát triển thường quan tâm:
Những bước này liên quan đến workflow MLOps cơ bản – một chủ đề thường được nhắc trong các phần MLOps Series ở nhiều chương về ML/DL.
DPO không đứng một mình. Hiểu vững các phần nền như:
Những khối nền này giúp việc tinh chỉnh LLM trở nên dễ hình dung hơn khi chuyển sang những chủ đề nâng cao như GenAI & LLMs.
Bạn có thể bắt đầu bằng việc thử tạo một bộ dữ liệu nhỏ gồm vài cặp câu trả lời.
Việc làm thử và so sánh trước – sau tinh chỉnh giúp hình dung rõ tác động của DPO lên mô hình.
Sau khi quen, có thể mở rộng sang các chủ đề mang tính ứng dụng hơn như tóm tắt văn bản, xử lý câu hỏi đa bước hoặc hướng dẫn hội thoại.
1. DPO có cần reward model không?
Không, DPO hoạt động mà không cần huấn luyện reward model.
2. DPO có thay thế RLHF hoàn toàn không?
Không, nó chỉ là một lựa chọn đơn giản hơn tùy mục đích.
3. DPO có yêu cầu mô hình gốc (reference model) không?
Có, cần mô hình tham chiếu để giữ ổn định hành vi.
4. Có thể dùng DPO cho mô hình nhỏ không?
Có, miễn là đủ dữ liệu và tài nguyên huấn luyện phù hợp.
Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.
Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.
Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.
Q4. AIO có gì khác những nơi khác?
Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: Cùng nhau học – cùng nhau khổ – cùng nhau lớn. Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.