Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: Visual Agentic AI, VLM, LLM, Multimodal AI, Planning
Khi làm việc với các mô hình đa phương thức, rất nhiều người gặp câu hỏi: mô hình hiểu ảnh như thế nào, và làm sao để từ một bức ảnh, hệ thống AI có thể suy luận thành chuỗi hành động hợp lý. Đây chính là cơ chế phối hợp giữa VLM (Vision-Language Model) và LLM trong các hệ Visual Agentic AI.
Các hệ thống agent nhìn vào ảnh, diễn giải nội dung, rồi tự đưa ra kế hoạch. Toàn bộ quá trình thường xoay quanh hai mô‑đun quan trọng:
Sự kết hợp này tạo nên khả năng “quan sát – suy luận – hành động” trong môi trường hình ảnh.
VLM không chỉ trả về vài dòng mô tả; nó trích xuất các thông tin có cấu trúc, ví dụ:
Về mặt học thuật, phần này liên quan tới module Computer Vision và cách backbone trích đặc trưng trong các mô hình CNN/Transformer.
Kết quả từ VLM thường được chuyển sang dạng:
Các kỹ thuật này khá giống kiến thức ở module NLP – khi cần biểu diễn thông tin bằng token hoặc embedding.
LLM nhận đầu vào từ VLM và xây dựng hiểu biết về tình huống.
Trong nhiều hệ agent, LLM đóng vai trò:
Cách lập kế hoạch này liên quan đến các nhánh reasoning, thường được mở rộng thêm bằng kỹ thuật như tool-use hoặc prompting tầng.
Kế hoạch từ LLM có thể là:
Quá trình thực thi có thể quay lại VLM để quan sát trạng thái mới, tạo thành vòng lặp perception → reasoning → action.
Một hệ thống AI quan sát ảnh bàn làm việc:
Nhiều hệ agent trong robot thị giác sử dụng vòng lặp như vậy để thực hiện nhiệm vụ trong môi trường thật.
Trong các dự án agent đa phương thức, nhóm phát triển thường chia thành ba phần:
Việc phân tách rõ ràng giúp hệ thống dễ quản lý và dễ tinh chỉnh khi nâng cấp.
Để hiểu trọn vẹn quy trình này, người học AI thường có nền tảng từ:
Những phần này giúp giải thích rõ tại sao VLM và LLM phối hợp được với nhau.
Bạn có thể bắt đầu bằng việc thử nghiệm một VLM đơn giản để quan sát cách nó mô tả ảnh, rồi chuyển kết quả sang LLM để phân tích. Việc tách từng phần nhỏ giúp hiểu rõ cơ chế liên kết giữa thị giác và ngôn ngữ.
Q1. Visual Agentic AI có cần cả VLM và LLM không?
Có, vì chúng phục vụ hai mục đích khác nhau: nhìn và suy luận.
Q2. LLM có tự hiểu ảnh mà không cần VLM không?
Không, trừ khi mô hình đã được huấn luyện đa phương thức từ đầu.
Q3. VLM có thể tự lập kế hoạch không?
Không, VLM chủ yếu xử lý thị giác.
Q4. Visual Agentic AI có phải lúc nào cũng chạy vòng lặp perception → reasoning → action không?
Không, tùy thiết kế hệ thống.
Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.
Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.
Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.
Q4. AIO có gì khác những nơi khác?
Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: Cùng nhau học – cùng nhau khổ – cùng nhau lớn. Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.