OCR (Nhận dạng ký tự quang học) được dùng để làm gì trong dự án Computer Vision?

Mở đầu – Vì sao OCR thường xuất hiện trong nhiều dự án CV?

Khi làm các bài toán Computer Vision, nhiều bạn quen với phân loại ảnh, phát hiện vật thể, hay segmentation. Nhưng khi đối mặt với văn bản nằm trong ảnh, mô hình chỉ “nhìn” hình chưa đủ, mà cần thêm khả năng “đọc” chữ.

Đây là lúc OCR (Optical Character Recognition) trở thành thành phần quan trọng.
OCR giúp chuyển nội dung chữ trong ảnh thành văn bản số, phục vụ cho rất nhiều loại dự án thực tế.

Nhiều bạn thường đặt câu hỏi:

“Text trong ảnh không phải chỉ là pixel? Làm sao trích xuất để đưa vào pipeline NLP hoặc xử lý dữ liệu?”

OCR chính là cầu nối giữa Computer Vision và NLP, biến dữ liệu thị giác thành dữ liệu chữ có thể xử lý bằng ML/DL.

OCR là gì?

OCR là kỹ thuật nhận dạng ký tự trong ảnh, giúp:

Phát hiện vùng chứa chữ,
Nhận dạng từng ký tự hoặc từng dòng,
Chuyển thành text có thể xử lý bằng máy tính.

Quá trình này xuất hiện nhiều trong nội dung học thuật ở Module 9 – Computer Vision và có liên quan đến Module 10 – NLP, vì nó biến hình ảnh chứa chữ thành input của pipeline văn bản.

OCR được dùng để làm gì trong dự án Computer Vision?

Trích xuất văn bản từ ảnh

Đây là mục tiêu phổ biến nhất.

Ứng dụng:

Đọc biển số xe
Trích nội dung tài liệu giấy (PDF scan, hóa đơn, biên lai)
Đọc chữ trong ảnh chụp điện thoại
Nhận dạng số điện kế, số công tơ, chỉ số thiết bị
Đọc text khi số hóa văn bản

OCR biến ảnh → text, giúp lưu trữ, tìm kiếm hoặc phân tích dễ dàng hơn.

Tự động hóa quy trình nghiệp vụ (Automation)

Trong nhiều doanh nghiệp, nhiều thông tin chỉ tồn tại dưới dạng ảnh hoặc scan giấy.

Ví dụ:

Hệ thống kiểm kê hóa đơn
Đối soát chứng từ
Đọc đơn hàng viết tay
Xử lý form hành chính

OCR giúp chuyển các dữ liệu này thành văn bản để hệ thống tự động xử lý.
Điều này liên quan đến luồng kiến thức Module 3 – Data Engineer & ETL.

Kết hợp với NLP để hiểu nội dung trong ảnh

OCR chỉ đọc chữ; để hiểu chữ đó nghĩa là gì, bạn cần NLP.

Ví dụ:

Ảnh chụp bản hợp đồng → OCR đọc chữ → NLP phân tích tên khách hàng, điều khoản, số tiền
Ảnh thực đơn → OCR đọc món ăn → NLP phân loại món

OCR + NLP tạo thành một pipeline mạnh mẽ giúp hiểu toàn bộ nội dung của ảnh chứa chữ.

Phục vụ các hệ thống tìm kiếm thông minh

Một số nền tảng cần tìm kiếm cả hình lẫn chữ trong ảnh.

Ứng dụng:

Tìm kiếm hóa đơn theo nội dung
Tìm ảnh biển báo giao thông dựa trên chữ
Tìm trang sách theo từ khóa

OCR trích text → Vector hóa → Search
Kết hợp với kiến thức ở Module 10 – Embedding và LLM/RAG (Module 12) nếu hệ thống lớn.

Kiểm tra chất lượng hoặc phát hiện lỗi

Nhiều nhà máy sản xuất in date, in mã số lên sản phẩm.

OCR thường được dùng để:

Kiểm tra xem date có in đúng không
Nhận diện số lô bị lỗi
Phát hiện nhòe, mất nét

Với các hệ thống real-time, OCR chạy trên camera để kiểm tra liên tục.

Phân tích video có chứa chữ

OCR không chỉ dùng cho ảnh tĩnh; nó còn được dùng trong video:

Trích subtitle từ video
Đọc biển số xe trong camera giao thông
Phân tích chữ xuất hiện trong livestream

Ứng dụng thường nằm trong nhóm CV nâng cao của Module 9.

Ví dụ thực tế: Xây hệ thống đọc hóa đơn tự động

Một dự án tiêu biểu:

Nhận ảnh hóa đơn
Dùng mô hình CV (như EAST, CRAFT) để xác định vùng có chữ
OCR đọc nội dung từng vùng
NLP phân tích thông tin như:
- Ngày
- Mã số thuế
- Tổng tiền

Sau đó lưu vào database hoặc đưa vào hệ thống kế toán.
OCR ở đây đóng vai trò cốt lõi trong việc số hóa thông tin.

Góc nhìn khi làm dự án AI/ML

OCR thường nằm ở đầu pipeline, nên chất lượng OCR ảnh hưởng trực tiếp đến bước xử lý sau đó.

Bạn cần chú ý:

Độ phân giải ảnh
Góc chụp, ánh sáng
Ngôn ngữ và font chữ
Có chữ viết tay hay không
Nhiễu, bóng, lóa

Những yếu tố này quyết định bạn dùng:

OCR truyền thống (Tesseract)
OCR dựa trên DL (CRNN, TrOCR, Donut…)

Trong các dự án thực tế, OCR thường kết hợp cả CV, NLP và đôi khi có cả MLOps.

Liên hệ kiến thức nền AIO

OCR không đứng một mình; nó liên quan tới nhiều module:

Module 9 (Computer Vision) – Mô hình phát hiện vùng chữ, nhận dạng ký tự
Module 10 (NLP) – Xử lý text sau khi OCR đọc xong
Module 3 (ETL) – Đưa text OCR vào pipeline phân tích dữ liệu
Module 7–8 (DL cơ bản) – Khối CNN và sequence model trong OCR
Module 11–12 (GenAI / LLMs) – OCR kết hợp LLM để hiểu tài liệu, xây document AI

Lời khuyên cho người mới

Bắt đầu bằng OCR cơ bản (Tesseract) để hiểu pipeline.
Sau đó thử OCR bằng DL như CRNN hoặc TrOCR để thấy sự khác biệt.
Thử một dự án nhỏ như đọc hóa đơn, nhãn sản phẩm, hoặc biển số xe.

Bạn có thể thử nghiệm thêm để thấy rõ OCR biến ảnh thành dữ liệu chữ như thế nào.

Hỏi đáp nhanh về chủ đề

Q1: OCR có đọc được chữ viết tay không?
A: Có, nhưng cần mô hình OCR chuyên cho handwriting.

Q2: OCR có cần mô hình CV phát hiện vùng chữ trước không?
A: Nhiều hệ thống cần, nhất là khi ảnh phức tạp.

Q3: OCR có hoạt động tốt khi ảnh bị nghiêng không?
A: Cần tiền xử lý hoặc mô hình robust hơn.

Q4: OCR có dùng trong video không?
A: Có, bằng cách áp dụng cho từng frame.

FAQ về chương trình AIO

Q: Mình con số 0 thì học nổi không?
A: Chỉ cần có thời gian học mỗi ngày. Kiến thức và tài liệu team admin lo.

Q: Ai dạy AIO?
A: Toàn bộ admin AIO trực tiếp dạy và hỗ trợ trong suốt hành trình.

Q: Admin có “xịn” không?
A: Admin đều là người làm nghề thật. Không dám nói xịn, chỉ dạy bằng hết sức mình.

Q: AIO khác gì trung tâm khác?
A: AIO không phải trung tâm. Đây là dự án học tập cộng đồng với tinh thần “Cùng nhau học – cùng nhau khổ – cùng nhau lớn”.