Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: Action Recognition, Video Model, CNN 3D, Two-Stream, Video Transformer
Khi tìm hiểu về Action Recognition (nhận diện hành động) trong video, nhiều bạn thường gặp một thắc mắc: hình ảnh thì có thể dùng CNN, nhưng video lại có yếu tố thời gian, vậy mô hình nào xử lý được cả hai loại thông tin này? Đây là câu hỏi khá phổ biến khi chuyển từ bài toán ảnh tĩnh sang bài toán video.
Video là chuỗi nhiều khung hình liên tiếp. Mỗi khung hình chứa thông tin không gian (đối tượng, màu sắc, texture), còn sự thay đổi giữa các khung lại tạo ra thông tin thời gian (chuyển động, hướng đi, tốc độ).
Vì vậy, các hướng tiếp cận chính trong Action Recognition thường rơi vào ba nhóm mô hình.
Một hệ thống nhận diện hành động “đánh tennis” thường cần cả hai phần:
Nếu chỉ nhìn một khung hình, mô hình không thể phân biệt “chuẩn bị đánh” với “đang đánh”. Đây là lý do thông tin thời gian quan trọng.
Trong thực tế triển khai, một số yếu tố thường được cân nhắc:
Các nhóm Data Engineer/ML Engineer thường chuẩn bị pipeline tiền xử lý video (liên quan đến kiến thức ETL và hệ thống dữ liệu của module 3). Khi bước vào mô hình hóa, kiến thức nền về CNN trong bài toán Computer Vision (module 9), cơ chế Attention và mô hình Transformer (module 11–12) giúp hiểu rõ cách video model hoạt động.
Bạn có thể bắt đầu bằng việc thử nghiệm trên các video ngắn và mô hình nhỏ để quan sát sự khác biệt giữa CNN 2D, 3D CNN và mô hình kết hợp CNN + LSTM. Sau đó mở rộng dần với các mô hình Transformer cho video.
Action Recognition có cần xử lý cả không gian và thời gian không?
Có, vì hành động được tạo ra từ nội dung hình ảnh và sự thay đổi giữa các frame.
Có thể dùng CNN 2D để nhận diện hành động không?
Có thể, nhưng thường cần thêm mô hình xử lý thời gian như RNN/LSTM.
Video Transformer có thay thế CNN 3D không?
Không hoàn toàn, mỗi loại phù hợp với từng yêu cầu bài toán.
Optical Flow có bắt buộc trong mô hình Two‑Stream không?
Có, vì luồng chuyển động là thành phần chính của kiến trúc này.
Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.
Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.
Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.
Q4. AIO có gì khác những nơi khác?
Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: Cùng nhau học – cùng nhau khổ – cùng nhau lớn. Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.