Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: Contrastive Learning, SimCLR, Positive Pair, Augment, Embedding
Khi bắt đầu tìm hiểu về Contrastive Learning, nhiều người thường gặp một câu hỏi quen thuộc: “Tại sao chỉ cần biến đổi một bức ảnh bằng các phép augment như crop, color jitter hay blur, rồi xem chúng là một cặp Positive?” Nhìn bề ngoài, hai ảnh này trông khá khác nhau, nhưng trong cách học biểu diễn của mô hình, chúng lại được xem như cùng một thực thể. Việc hiểu rõ lý do này giúp nắm chắc cách các mô hình tự học đặc trưng mà không cần nhãn.
Contrastive Learning hướng đến việc học một không gian biểu diễn trong đó những mẫu mô tả cùng một đối tượng phải có vị trí gần nhau, còn những mẫu mô tả các đối tượng khác nhau thì xa nhau.
Trong SimCLR, một bức ảnh gốc được tạo ra hai phiên bản mới thông qua augment. Hai ảnh này tuy khác hình thức, nhưng vẫn biểu diễn nội dung gốc. Vì thế chúng được xem là “Positive Pair”.
Ý nghĩa của việc này:
• Mô hình học cách nhận ra bản chất của đối tượng, thay vì bị ảnh hưởng bởi các biến đổi bề mặt.
• Không gian đặc trưng trở nên ổn định trước nhiễu, ánh sáng, góc nhìn…
• Dù không có nhãn, mô hình vẫn tự hình thành khái niệm “đây là một đối tượng”.
Trong học thuật, cách tiếp cận này được xem như nền tảng của các mô hình không giám sát trong Module 8 (unsupervised learning), nơi mô hình phải tự tìm quy luật từ dữ liệu thô.
Giả sử bạn có một bức ảnh con mèo. Một phiên bản có thể bị crop, một phiên bản khác bị thay đổi màu sắc.
Mắt người dễ dàng nhận ra cả hai đều là con mèo.
Đối với mô hình, nếu không có hướng dẫn, hai hình khác nhau quá mức có thể bị xem là hai đối tượng không liên quan.
Khi được đặt làm Positive Pair, mô hình buộc phải tìm điểm chung sâu hơn như:
• biên dạng cơ bản,
• họa tiết,
• cấu trúc hình học,
thay vì tập trung vào yếu tố biến đổi bề mặt.
Trong các dự án thực tế, dữ liệu hiếm khi sạch hoặc đồng nhất.
Ảnh từ camera an ninh, ảnh sản phẩm, hoặc ảnh hiện trường đều có:
• góc chụp khác nhau,
• ánh sáng khác nhau,
• chất lượng không đồng nhất.
Contrastive Learning giúp mô hình ổn định hơn khi triển khai ngoài đời thực, đặc biệt trong các pipeline xử lý ảnh (liên quan kiến thức Module 9 về Computer Vision).
Đây cũng là bước quan trọng trước khi sử dụng các mô hình downstream như classification hoặc retrieval.
Để hiểu rõ hơn cơ chế này, người học AI thường đi qua:
• vector hóa dữ liệu (Module 1–2),
• cách mô hình tạo embedding (Module 7 về Deep Learning căn bản),
• cơ chế so sánh khoảng cách vector trong không gian đặc trưng (Module 4 về Machine Learning cơ bản).
Phối hợp những nền tảng này giúp dễ hình dung vì sao hai phiên bản augment lại đại diện cho “cùng một ý nghĩa”.
• Bạn có thể thử tự tạo một ảnh và áp dụng nhiều augment khác nhau để xem mức độ biến đổi.
• Tiếp theo, quan sát embedding từ một mô hình đơn giản để thấy cách hai ảnh được đưa lại gần nhau trong không gian đặc trưng.
• Bạn có thể bắt đầu bằng các bài toán nhỏ để hiểu rõ hơn về khái niệm này.
Contrastive Learning có cần nhãn dữ liệu không?
Không.
Hai ảnh bị augment mạnh vẫn là Positive Pair chứ?
Đúng, miễn nội dung cốt lõi vẫn giữ nguyên.
Negative Pair có phải luôn là ảnh của hai đối tượng khác nhau?
Đúng.
SimCLR dùng mục tiêu tối ưu hóa để kéo Positive lại gần và đẩy Negative ra xa đúng không?
Đúng.
Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.
Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.
Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.
Q4. AIO có gì khác những nơi khác?
Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: Cùng nhau học – cùng nhau khổ – cùng nhau lớn. Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.