Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: Vision Language Model, Encoder Ảnh, Encoder Text, Biểu Diễn Không Gian Chung, Multimodal AI
Khi tìm hiểu về các mô hình đa phương thức như Vision Language Model (VLM), nhiều người thường gặp một câu hỏi quan trọng: làm sao ảnh và văn bản – hai dạng dữ liệu hoàn toàn khác nhau – lại có thể được mô hình “hiểu” chung trong cùng một không gian biểu diễn? Ở mức trực giác, ảnh là ma trận điểm ảnh, còn văn bản là chuỗi ký tự. Việc “đưa chúng về chung một không gian” nghe có vẻ trừu tượng, nhưng thực ra đây là ý tưởng cốt lõi giúp VLM hoạt động.
Ý tưởng nền tảng của VLM dựa trên khái niệm biểu diễn dạng vector. Thay vì để máy xử lý ảnh hay câu chữ theo định dạng gốc, mô hình sẽ chuyển mỗi đầu vào thành một vector trong không gian số chiều cao. Hai vector này càng giống nhau nếu chúng mang cùng ý nghĩa.
VLM thường sử dụng hai bộ mã hóa riêng:
Điểm quan trọng là cả hai vector đều được đẩy vào cùng một không gian biểu diễn thông qua các bước:
Các encoder được huấn luyện để tạo vector sao cho các cặp ảnh – mô tả phù hợp có khoảng cách nhỏ trong không gian vector, còn các cặp không liên quan thì cách xa.
Trong giai đoạn training, mô hình được học với các cặp dữ liệu song song. Một hàm mất mát dạng đối chiếu (contrastive) giúp mô hình hiểu rằng:
Cả hai encoder đều được điều chỉnh để đảm bảo vector đầu ra có kích thước giống nhau, phù hợp để đặt vào cùng một không gian.
Giả sử mô hình nhận được:
Image Encoder sẽ tạo vector chứa các đặc trưng như hình dạng, màu sắc, bố cục. Text Encoder sẽ tạo vector chứa ngữ nghĩa: “cat”, “sitting”, “chair”.
Trong quá trình học, mô hình được điều chỉnh để hai vector này nằm gần nhau trong không gian n chiều. Kết quả là VLM có thể:
Trong các dự án đa phương thức (multimodal), việc đồng nhất không gian biểu diễn giúp:
Quá trình này liên quan đến khâu tiền xử lý, tối ưu hóa, tinh chỉnh và đánh giá, tương tự những gì thường gặp trong ML/DL.
Cách VLM dùng vector hóa ảnh và text dựa trên các nhóm kiến thức trong hành trình học AI, ví dụ:
Đây đều là các bước thường gặp khi nghiên cứu VLM hoặc mô hình đa phương thức nói chung.
Bạn có thể bắt đầu bằng:
Những bài toán nhỏ như vậy giúp hiểu rõ khái niệm ""không gian chung"" trước khi đi sâu vào mô hình lớn.
VLM luôn dùng hai encoder tách biệt cho ảnh và văn bản không? Có, đa số mô hình hiện nay làm như vậy.
Hai vector ảnh và text có luôn giống kích thước? Có, để đặt vào cùng không gian biểu diễn.
VLM có cần dữ liệu cặp ảnh – text khi huấn luyện? Có, đây là cấu phần quan trọng để căn chỉnh không gian.
Mô hình có thể suy luận text dựa trên ảnh nhờ việc chia sẻ không gian không? Có, vì hai dạng dữ liệu đã học tương quan ngữ nghĩa.
Q1. Con số 0 thì học nổi không? Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.
Q2. Ai dạy AIO? Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.
Q3. Admin có “xịn” không? Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.
Q4. AIO có gì khác những nơi khác? Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: Cùng nhau học – cùng nhau khổ – cùng nhau lớn. Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.