Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: VQA, đa phương thức, hợp nhất ảnh và văn bản
Khi bước vào các bài toán AI đa phương thức, nhiều người thường thấy bối rối ở câu hỏi:
Làm sao mô hình có thể hiểu được cả ảnh và câu hỏi dạng văn bản, rồi đưa ra câu trả lời thống nhất?
VQA là ví dụ tiêu biểu cho việc phải xử lý hai loại tín hiệu khác nhau:
Do đó, việc mô hình phải “nối” hai nguồn thông tin thành một dòng biểu diễn thống nhất thường gây khó hình dung.
Trong VQA, mô hình sâu thường đi qua ba giai đoạn chính.
Ảnh được đưa vào một backbone thị giác, thường là CNN hoặc Vision Transformer. Kết quả thu được là các vector biểu diễn cho đặc trưng ảnh.
Câu hỏi văn bản được token hóa và đưa qua RNN, LSTM, Transformer hoặc BERT.
Kết quả cuối là một vector hoặc chuỗi embedding thể hiện ý nghĩa của câu hỏi.
Đây là bước quan trọng, quyết định mô hình hiểu câu hỏi dựa trên phần nào của ảnh. Các cách hợp nhất thường gặp:
Sau khi hợp nhất, mô hình dự đoán câu trả lời dưới dạng phân loại hoặc sinh văn bản.
Giả sử ảnh chứa một chú mèo đang nằm trên ghế sofa và câu hỏi là: “Con vật trong ảnh đang ở đâu?”.
Cách làm này giúp mô hình “ghép” thông tin giữa nội dung câu hỏi và nội dung ảnh theo đúng ngữ cảnh.
Khi triển khai VQA trong thực tế, một số yếu tố ảnh hưởng trực tiếp đến hiệu quả:
Với đội ngũ xây dựng hệ thống thực tế, sự ổn định của pipeline (lưu trữ dữ liệu, versioning, logging) cũng rất quan trọng, giống như các nội dung được đề cập trong mạch MLOps.
Để hiểu rõ hơn cơ chế VQA, người học AI thường đi qua các nhóm kiến thức:
VQA chính là điểm giao giữa CV và NLP nên yêu cầu kết hợp các nền tảng này.
Bạn có thể bắt đầu bằng cách thử các mô hình đơn giản như ghép đặc trưng ảnh và văn bản, sau đó dần chuyển sang mô hình chú ý hoặc Transformer đa phương thức.
Thử nghiệm trên các bộ dữ liệu nhỏ như VQA v1 hoặc CLEVR để nhìn rõ quá trình mô hình hợp nhất thông tin.
VQA có cần mô hình mã hóa ảnh riêng không?
Có, vì ảnh cần được trích xuất đặc trưng trước khi dùng chung với văn bản.
VQA có thể dùng LLM làm bộ mã hóa câu hỏi không?
Có, nếu dùng kiến trúc hỗ trợ xử lý văn bản.
VQA có phải luôn cần attention đa phương thức?
Không, có thể dùng phương pháp ghép đặc trưng đơn giản.
VQA có dùng được cho video không?
Có, khi mở rộng backbone ảnh thành backbone video.
Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.
Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.
Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.
Q4. AIO có gì khác những nơi khác?
Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: Cùng nhau học – cùng nhau khổ – cùng nhau lớn. Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.