Visual Question Answering (VQA) Kết Hợp Thông Tin Từ Ảnh Và Câu Hỏi Văn Bản

Mở đầu: Vì sao VQA khiến người học thấy “khó nắm cấu trúc”?

Khi bước vào các bài toán AI đa phương thức, nhiều người thường thấy bối rối ở câu hỏi:
Làm sao mô hình có thể hiểu được cả ảnh và câu hỏi dạng văn bản, rồi đưa ra câu trả lời thống nhất?
VQA là ví dụ tiêu biểu cho việc phải xử lý hai loại tín hiệu khác nhau:

Ảnh (dạng pixel, ma trận)
Câu hỏi (dạng chuỗi token)

Do đó, việc mô hình phải “nối” hai nguồn thông tin thành một dòng biểu diễn thống nhất thường gây khó hình dung.

Giải thích rõ ràng bản chất: Mô hình sâu hợp nhất thông tin thế nào?

Trong VQA, mô hình sâu thường đi qua ba giai đoạn chính.

Mã hóa ảnh

Ảnh được đưa vào một backbone thị giác, thường là CNN hoặc Vision Transformer. Kết quả thu được là các vector biểu diễn cho đặc trưng ảnh.

CNN tạo ra ma trận đặc trưng
ViT tạo ra chuỗi patch embedding

Mã hóa câu hỏi

Câu hỏi văn bản được token hóa và đưa qua RNN, LSTM, Transformer hoặc BERT.
Kết quả cuối là một vector hoặc chuỗi embedding thể hiện ý nghĩa của câu hỏi.

Hợp nhất (Fusion)

Đây là bước quan trọng, quyết định mô hình hiểu câu hỏi dựa trên phần nào của ảnh. Các cách hợp nhất thường gặp:

Concatenation: ghép vector ảnh và vector câu hỏi rồi đưa vào một mạng phân loại.
Attention: câu hỏi định hướng mô hình chú ý vào vùng ảnh liên quan.
Cross-attention: ảnh và văn bản “trao đổi thông tin” qua nhiều lớp Transformer.
Co-attention: ảnh chú ý vào câu hỏi và ngược lại.

Sau khi hợp nhất, mô hình dự đoán câu trả lời dưới dạng phân loại hoặc sinh văn bản.

Ví dụ thực tế minh họa

Giả sử ảnh chứa một chú mèo đang nằm trên ghế sofa và câu hỏi là: “Con vật trong ảnh đang ở đâu?”.

Bộ mã hóa ảnh trích ra các đặc trưng: mèo, sofa, màu sắc, vị trí.
Bộ mã hóa văn bản chuyển câu hỏi thành embedding nhấn mạnh từ “địa điểm”.
Trong bước hợp nhất, mô hình tập trung vào vùng ảnh chứa sofa.
Kết quả: mô hình dự đoán “trên ghế sofa”.

Cách làm này giúp mô hình “ghép” thông tin giữa nội dung câu hỏi và nội dung ảnh theo đúng ngữ cảnh.

Góc nhìn làm dự án AI/ML

Khi triển khai VQA trong thực tế, một số yếu tố ảnh hưởng trực tiếp đến hiệu quả:

Chất lượng backbone ảnh
Chất lượng mô hình ngôn ngữ
Cách thiết kế bước hợp nhất đa phương thức
Kích thước và độ đa dạng của tập dữ liệu
Cách đánh giá: thường cần kết hợp accuracy, BLEU, hoặc các metric đặc thù

Với đội ngũ xây dựng hệ thống thực tế, sự ổn định của pipeline (lưu trữ dữ liệu, versioning, logging) cũng rất quan trọng, giống như các nội dung được đề cập trong mạch MLOps.

Liên hệ đến kiến thức nền tảng

Để hiểu rõ hơn cơ chế VQA, người học AI thường đi qua các nhóm kiến thức:

Machine Learning cơ bản (Module 4): cách mô hình phân loại hoạt động
Deep Learning nền tảng (Module 7): biểu diễn ảnh, cấu trúc mạng sâu
NLP và xử lý văn bản (Module 10): tokenization và embedding
Computer Vision (Module 9): mô hình trích xuất đặc trưng từ ảnh
GenAI/LLMs (Module 11–12): các kiến trúc đa phương thức hiện đại

VQA chính là điểm giao giữa CV và NLP nên yêu cầu kết hợp các nền tảng này.

Lời khuyên cho người bắt đầu

Bạn có thể bắt đầu bằng cách thử các mô hình đơn giản như ghép đặc trưng ảnh và văn bản, sau đó dần chuyển sang mô hình chú ý hoặc Transformer đa phương thức.

Thử nghiệm trên các bộ dữ liệu nhỏ như VQA v1 hoặc CLEVR để nhìn rõ quá trình mô hình hợp nhất thông tin.

Hỏi – đáp nhanh (4 câu Yes/No)

VQA có cần mô hình mã hóa ảnh riêng không?
Có, vì ảnh cần được trích xuất đặc trưng trước khi dùng chung với văn bản.

VQA có thể dùng LLM làm bộ mã hóa câu hỏi không?
Có, nếu dùng kiến trúc hỗ trợ xử lý văn bản.

VQA có phải luôn cần attention đa phương thức?
Không, có thể dùng phương pháp ghép đặc trưng đơn giản.

VQA có dùng được cho video không?
Có, khi mở rộng backbone ảnh thành backbone video.

FAQ về chương trình AIO

Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.

Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.

Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.

Q4. AIO có gì khác những nơi khác?
Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: Cùng nhau học – cùng nhau khổ – cùng nhau lớn. Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.