Tokenizer trong Transformer có nhiệm vụ gì trước khi đưa văn bản vào mô hình?

Tác giả: AI VIET NAM (AI VIET NAM)

Keywords: Tokenizer, Transformer, NLP, Token ID, Subword

Tokenizer là gì?

Tokenizer là công cụ chia văn bản thành những đơn vị nhỏ gọi là token. Các token này sau đó được ánh xạ thành chỉ số số hóa, giúp Transformer xử lý dễ dàng.

Tokenizer thực hiện ba nhiệm vụ chính:

  • 1.1. Tách câu thành token theo nguyên tắc ngôn ngữ hoặc thống kê.
  • 2.2. Chuyển token thành ID nằm trong vocabulary của mô hình.
  • 3.3. Chuẩn hóa văn bản (lowercase, xử lý ký tự đặc biệt, ký tự Unicode… tùy loại tokenizer).

Trong hệ sinh thái Transformer, Tokenizer là phần đứng giữa dữ liệu thô và mô hình, giữ vai trò đảm bảo mô hình nhận đúng thông tin ngay từ đầu.


Vì sao cần Tokenizer?

Transformer không hiểu chữ. Transformer chỉ xử lý chuỗi số.

Tokenizer là cầu nối giúp:

  • Giảm độ dài chuỗi để mô hình xử lý hiệu quả hơn.
  • Giữ lại cấu trúc và ngữ nghĩa chính của văn bản.
  • Tránh các lỗi phân tách tự do có thể khiến nghĩa câu bị méo.

Khi học về NLP trong nhóm kiến thức như tokenization và embedding (liên hệ module NLP trong các nền tảng học thuật), Tokenizer là bước mở đầu trước mọi mô hình hóa.


Ví dụ minh họa

Giả sử câu: “Đi học AI ở đâu?”

Các loại tokenizer có thể xử lý khác nhau:

  • Word-level: “Đi”, “học”, “AI”, “ở”, “đâu”, “?”
  • Subword-level (BPE, SentencePiece): “Đi”, “học”, “A”, “I”, “ở”, “đâu”, “?”
  • Character-level: từng ký tự một.

Sau khi tách, tokenizer sẽ biến các token đó thành:

  • Đi → 1032
  • học → 501
  • AI → 78

Mô hình Transformer chỉ nhận những con số này.


Tokenizer dưới góc nhìn làm dự án NLP

Khi triển khai ứng dụng:

  • Tokenizer ảnh hưởng đến tốc độ xử lý và độ dài chuỗi input.
  • Bộ từ vựng khác nhau dẫn đến embedding khác nhau, ảnh hưởng trực tiếp đến chất lượng mô hình.
  • Với tiếng Việt, subword tokenizer thường được dùng để tránh lỗi tách sai do không có dấu cách phân định từ như tiếng Anh.
  • Khi làm inference trong hệ thống MLOps, cần cố định Tokenizer vì thay đổi vocabulary sẽ làm mô hình hoạt động sai.

Trong thực tế triển khai từ dữ liệu thô → mô hình NLP, Tokenizer nằm trong pipeline xử lý đầu tiên, khá giống tư duy xây dựng pipeline trong các module nền như ETL, Data Pre-processing hay chuỗi NLP trong các nội dung học thuật.


Liên hệ kiến thức nền

  • Khi học Python/NLP (liên hệ Module 1–2 và Module 10), Tokenizer là bước đầu để chuyển văn bản thành dạng số.
  • Khi học embedding, attention hay sequence modeling (Module 7–10), bạn sẽ thấy token ID chính là input cho mọi bước bên trong Transformer.
  • Trong các dự án GenAI/LLM (Module 11–12), chất lượng tokenizer ảnh hưởng cả quá trình sinh dữ liệu.

Gợi ý định hướng học thuật

  • Bạn có thể thử tạo tokenizer đơn giản rồi quan sát cách token thay đổi.
  • Bạn có thể thực nghiệm với các loại tokenizer khác nhau để thấy sự khác biệt về độ dài chuỗi.
  • Bạn có thể bắt đầu từ câu ngắn để hiểu rõ cách ánh xạ token → ID.

Hỏi đáp nhanh về Tokenizer (4 câu Yes/No)

1.1. Tokenizer có bắt buộc trong Transformer không? → Có, vì Transformer chỉ nhận số.

2.2. Tokenizer có phải lúc nào cũng tách theo từ không? → Không, có loại tách theo subword hoặc ký tự.

3.3. Tokenizer có ảnh hưởng độ dài input không? → Có, vì cách tách token quyết định số lượng phần tử.

4.4. Có thể tự tạo tokenizer riêng không? → Có, miễn là xây được bộ từ vựng phù hợp.


FAQ về chương trình AIO

Q1. Con số 0 thì học nổi không? Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.

Q2. Ai dạy AIO? Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.

Q3. Admin có “xịn” không? Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.

Q4. AIO có gì khác những nơi khác? Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: Cùng nhau học – cùng nhau khổ – cùng nhau lớn. Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.


Tài nguyên học AI: