Visual Agentic AI dùng VLM để “hiểu ảnh” rồi đưa cho LLM lên kế hoạch hành động ra sao?

Tác giả: AI VIET NAM (AI VIET NAM)

Keywords: Visual Agentic AI, VLM, LLM, Multimodal AI, Planning

Mở đầu

Khi làm việc với các mô hình đa phương thức, rất nhiều người gặp câu hỏi: mô hình hiểu ảnh như thế nào, và làm sao để từ một bức ảnh, hệ thống AI có thể suy luận thành chuỗi hành động hợp lý. Đây chính là cơ chế phối hợp giữa VLM (Vision-Language Model) và LLM trong các hệ Visual Agentic AI.

Visual Agentic AI hoạt động dựa trên hai bước chính

Các hệ thống agent nhìn vào ảnh, diễn giải nội dung, rồi tự đưa ra kế hoạch. Toàn bộ quá trình thường xoay quanh hai mô‑đun quan trọng:

VLM – Vision-Language Model

  • Nhận ảnh làm đầu vào
  • Chuyển thông tin thị giác thành dạng ngôn ngữ mô tả hoặc embedding giàu ngữ nghĩa
  • Thường dùng các kiến thức nền tương tự module Computer Vision trong chương trình DL: feature extractor, backbone, attention thị giác

LLM – Large Language Model

  • Nhận mô tả hoặc embedding từ VLM
  • Diễn giải thành trạng thái bài toán (problem state)
  • Lên kế hoạch (planning) và chuỗi hành động (action chain) phù hợp bối cảnh

Sự kết hợp này tạo nên khả năng “quan sát – suy luận – hành động” trong môi trường hình ảnh.

Quy trình “hiểu ảnh → lập kế hoạch” được làm như thế nào?

Bước 1: VLM phân tích ảnh

VLM không chỉ trả về vài dòng mô tả; nó trích xuất các thông tin có cấu trúc, ví dụ:

  • Vật thể xuất hiện
  • Quan hệ giữa các vật thể
  • Vị trí tương đối
  • Ràng buộc của bối cảnh (ví dụ: vật A đang chắn vật B)

Về mặt học thuật, phần này liên quan tới module Computer Vision và cách backbone trích đặc trưng trong các mô hình CNN/Transformer.

Bước 2: Chuẩn hóa thông tin thành dạng LLM hiểu được

Kết quả từ VLM thường được chuyển sang dạng:

  • văn bản mô tả ngắn
  • JSON mô tả cấu trúc
  • embedding liên kết giữa thị giác và ngôn ngữ

Các kỹ thuật này khá giống kiến thức ở module NLP – khi cần biểu diễn thông tin bằng token hoặc embedding.

Bước 3: LLM phân tích ngữ cảnh và suy luận

LLM nhận đầu vào từ VLM và xây dựng hiểu biết về tình huống.
Trong nhiều hệ agent, LLM đóng vai trò:

  • suy luận dạng “nếu – thì”
  • lập kế hoạch gồm nhiều bước
  • xác định hành động kế tiếp (next action)
  • dự đoán hiệu quả của hành động đó

Cách lập kế hoạch này liên quan đến các nhánh reasoning, thường được mở rộng thêm bằng kỹ thuật như tool-use hoặc prompting tầng.

Bước 4: Agent triển khai hành động

Kế hoạch từ LLM có thể là:

  • thao tác ảnh (crop, detect, highlight)
  • thực hiện hành động trong môi trường (robot, giao diện máy tính)
  • sinh báo cáo phân tích

Quá trình thực thi có thể quay lại VLM để quan sát trạng thái mới, tạo thành vòng lặp perception → reasoning → action.

Ví dụ thực tế

Một hệ thống AI quan sát ảnh bàn làm việc:

  • VLM nhận ảnh và mô tả: “Có một laptop mở, một cốc nước đặt cạnh bên phải, và dây cáp rối phía sau.”
  • LLM nhận mô tả, phân tích và lập kế hoạch:
    • Bước 1: Khoanh vùng khu vực dây cáp
    • Bước 2: Đề xuất phương án sắp xếp
    • Bước 3: Xuất hướng dẫn thành từng bước rõ ràng

Nhiều hệ agent trong robot thị giác sử dụng vòng lặp như vậy để thực hiện nhiệm vụ trong môi trường thật.

Khi làm dự án AI/ML, cách tiếp cận thường dùng

Trong các dự án agent đa phương thức, nhóm phát triển thường chia thành ba phần:

  • pipeline tiền xử lý ảnh (gần với kiến thức module Data Engineering/Data Analysis)
  • tích hợp VLM → LLM (thường dùng API hoặc mô hình nội bộ)
  • logic xử lý hành động và kiểm tra lỗi (liên quan đến MLOps ở nhiều module)

Việc phân tách rõ ràng giúp hệ thống dễ quản lý và dễ tinh chỉnh khi nâng cấp.

Liên hệ kiến thức nền

Để hiểu trọn vẹn quy trình này, người học AI thường có nền tảng từ:

  • Python và xử lý dữ liệu (module 1–3)
  • Machine Learning cơ bản (module 4)
  • Deep Learning nền tảng: optimization, losses, regularization (module 5–7)
  • Computer Vision, NLP và đa phương thức (module 9–10)
  • GenAI và LLMs (module 11–12)

Những phần này giúp giải thích rõ tại sao VLM và LLM phối hợp được với nhau.

Gợi ý học thuật

Bạn có thể bắt đầu bằng việc thử nghiệm một VLM đơn giản để quan sát cách nó mô tả ảnh, rồi chuyển kết quả sang LLM để phân tích. Việc tách từng phần nhỏ giúp hiểu rõ cơ chế liên kết giữa thị giác và ngôn ngữ.

Hỏi đáp nhanh về chủ đề Visual Agentic AI

Q1. Visual Agentic AI có cần cả VLM và LLM không?
Có, vì chúng phục vụ hai mục đích khác nhau: nhìn và suy luận.

Q2. LLM có tự hiểu ảnh mà không cần VLM không?
Không, trừ khi mô hình đã được huấn luyện đa phương thức từ đầu.

Q3. VLM có thể tự lập kế hoạch không?
Không, VLM chủ yếu xử lý thị giác.

Q4. Visual Agentic AI có phải lúc nào cũng chạy vòng lặp perception → reasoning → action không?
Không, tùy thiết kế hệ thống.

FAQ về chương trình AIO

Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.

Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.

Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.

Q4. AIO có gì khác những nơi khác?
Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: Cùng nhau học – cùng nhau khổ – cùng nhau lớn. Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.


Tài nguyên học AI: