Action Recognition Trong Video Sử Dụng Thông Tin Không Gian Và Thời Gian Bằng Những Loại Mạng Nào?

Mở đầu

Khi tìm hiểu về Action Recognition (nhận diện hành động) trong video, nhiều bạn thường gặp một thắc mắc: hình ảnh thì có thể dùng CNN, nhưng video lại có yếu tố thời gian, vậy mô hình nào xử lý được cả hai loại thông tin này? Đây là câu hỏi khá phổ biến khi chuyển từ bài toán ảnh tĩnh sang bài toán video.

Giải thích rõ ràng

Video là chuỗi nhiều khung hình liên tiếp. Mỗi khung hình chứa thông tin không gian (đối tượng, màu sắc, texture), còn sự thay đổi giữa các khung lại tạo ra thông tin thời gian (chuyển động, hướng đi, tốc độ).

Vì vậy, các hướng tiếp cận chính trong Action Recognition thường rơi vào ba nhóm mô hình.

Mạng CNN 3D (3D Convolutional Networks)

Thay vì quét theo chiều rộng và chiều cao như CNN 2D, CNN 3D thêm trục thời gian.
Kernel 3D giúp bắt được chuyển động ngắn hạn qua nhiều frame liền kề.
Ví dụ thường gặp: C3D, I3D.

Mạng Two‑Stream (Dòng RGB + Dòng Optical Flow)

Hai luồng riêng biệt:
• Luồng RGB xử lý đặc trưng không gian.
• Luồng Optical Flow xử lý đặc trưng chuyển động.
Hai kết quả được trộn lại để mô hình hiểu đủ cả không gian lẫn thời gian.

Mạng Kết Hợp CNN + RNN/LSTM/GRU

CNN dùng để trích xuất đặc trưng từ từng frame.
RNN/LSTM/GRU dùng để học cấu trúc thời gian của chuỗi đặc trưng.
Kiểu kết hợp này từng rất phổ biến trước khi 3D CNN và Transformer xuất hiện.

Video Transformer (TimeSformer, ViViT, Mamba‑Based Models)

Dựa trên cơ chế Attention để học sự phụ thuộc không gian và thời gian.
Được nghiên cứu mạnh trong các mô hình gần đây vì khả năng mở rộng tốt.

Ví dụ thực tế 🎬

Một hệ thống nhận diện hành động “đánh tennis” thường cần cả hai phần:

Không gian: nhận ra người, vợt, sân.
Thời gian: sự chuyển động của tay, quỹ đạo vung vợt.

Nếu chỉ nhìn một khung hình, mô hình không thể phân biệt “chuẩn bị đánh” với “đang đánh”. Đây là lý do thông tin thời gian quan trọng.

Góc nhìn khi làm dự án AI/ML

Trong thực tế triển khai, một số yếu tố thường được cân nhắc:

Độ dài video model cần xử lý.
Tính toán GPU cho các mô hình lớn như 3D CNN hoặc Transformer.
Cách tạo tập dữ liệu: sampling frame, trích optical flow, tiền xử lý để giảm tải.
Độ ổn định khi inference thời gian thực.

Các nhóm Data Engineer/ML Engineer thường chuẩn bị pipeline tiền xử lý video (liên quan đến kiến thức ETL và hệ thống dữ liệu của module 3). Khi bước vào mô hình hóa, kiến thức nền về CNN trong bài toán Computer Vision (module 9), cơ chế Attention và mô hình Transformer (module 11–12) giúp hiểu rõ cách video model hoạt động.

Liên hệ kiến thức nền

CNN 3D liên quan đến kiến trúc deep learning cơ bản (module 7).
RNN/LSTM/GRU thuộc nhóm mô hình xử lý chuỗi (module 10).
Video Transformer kết nối với kiến trúc Attention và các mô hình GenAI/LLM (module 11–12).

Lời khuyên học thuật cho người bắt đầu

Bạn có thể bắt đầu bằng việc thử nghiệm trên các video ngắn và mô hình nhỏ để quan sát sự khác biệt giữa CNN 2D, 3D CNN và mô hình kết hợp CNN + LSTM. Sau đó mở rộng dần với các mô hình Transformer cho video.

Hỏi đáp nhanh về Action Recognition

Action Recognition có cần xử lý cả không gian và thời gian không?
Có, vì hành động được tạo ra từ nội dung hình ảnh và sự thay đổi giữa các frame.

Có thể dùng CNN 2D để nhận diện hành động không?
Có thể, nhưng thường cần thêm mô hình xử lý thời gian như RNN/LSTM.

Video Transformer có thay thế CNN 3D không?
Không hoàn toàn, mỗi loại phù hợp với từng yêu cầu bài toán.

Optical Flow có bắt buộc trong mô hình Two‑Stream không?
Có, vì luồng chuyển động là thành phần chính của kiến trúc này.

FAQ về chương trình AIO

Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.

Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.

Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.

Q4. AIO có gì khác những nơi khác?
Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: Cùng nhau học – cùng nhau khổ – cùng nhau lớn. Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.