Attention Mask trong Transformer được dùng để che (mask) những token nào?

Mở đầu

Khi bắt đầu tìm hiểu Transformer, nhiều người thường gặp vướng mắc: mô hình “nhìn” toàn bộ câu như thế nào, và làm sao nó tránh việc sử dụng thông tin tương lai trong bài toán sinh chuỗi. Việc này liên quan trực tiếp đến Attention Mask – một thành phần quan trọng nhưng đôi khi bị xem nhẹ. Hiểu đúng Attention Mask giúp nắm rõ cách Transformer vận hành, nhất là khi bước vào các bài toán thực tế như sinh văn bản, dịch máy, tóm tắt hoặc phân loại.

Attention Mask là gì?

Attention Mask là ma trận cho biết vị trí nào được mô hình “nhìn thấy” và vị trí nào cần ẩn đi trong lúc tính attention. Mục tiêu của nó là đảm bảo mô hình chỉ xử lý thông tin phù hợp với từng loại tác vụ.

Có hai dạng mask thường gặp:

Padding Mask: che những token đệm (PAD) để mô hình không tính attention vào chúng.
Causal Mask (Look-Ahead Mask): che những token đứng sau vị trí đang dự đoán để mô hình không “nhìn trước tương lai”.

Về bản chất, mask hoạt động bằng cách gán giá trị rất nhỏ (ví dụ: −∞ trước khi softmax) tại các vị trí cần che lại để attention không “chảy” vào đó.

Vậy Attention Mask dùng để che token nào?

Tùy mục đích, Attention Mask có thể che:

Các token PAD trong câu để mô hình không học từ dữ liệu trống.
Các token nằm ở tương lai trong mô hình sinh chuỗi (causal mask), giúp mỗi bước dự đoán chỉ dựa trên những token trước nó.
Các token đặc biệt cần hạn chế trong một số kiến trúc tuỳ chỉnh (ví dụ: che nhãn trong mô hình seq2seq).

Trong phần lớn ứng dụng thực tế, câu trả lời ngắn gọn là: Attention Mask được dùng để che token PAD và che các token tương lai trong bài toán sinh chuỗi.

Ví dụ minh họa

Giả sử câu đầu vào là: ""Tôi thích học AI PAD PAD""

Trong bài toán phân loại, mô hình chỉ cần hiểu cả câu → mask sẽ che hai token PAD.
Trong bài toán sinh chuỗi, ví dụ khi sinh chữ thứ 4, mô hình sẽ được xem ba chữ đầu và bị che toàn bộ các token phía sau.

Cách hoạt động này giúp mô hình ổn định hơn, giảm nhiễu từ dữ liệu trống và đảm bảo đúng logic thời gian.

Góc nhìn khi làm dự án AI/ML

Trong dự án thực tế:

Padding mask dùng nhiều trong xử lý dữ liệu batch, khi độ dài câu không đồng đều.
Causal mask dùng trong các mô hình sinh văn bản như GPT.
Nếu mask sai, mô hình có thể dùng nhầm thông tin tương lai, dẫn đến sai lệch trong quá trình học.
Trong pipeline MLOps, mask nằm trong bước tiền xử lý và phải được version hóa cùng dữ liệu để tránh lỗi khi huấn luyện lại.

Liên hệ kiến thức nền

Khi học theo lộ trình AI, Attention Mask thường xuất hiện ở:

Kiến thức nền tảng về tensor và thao tác dữ liệu từ Module 1–2.
Nguyên lý attention và cơ chế tự chú ý thuộc Deep Learning 1 – Module 7.
Ứng dụng NLP chuyên sâu trong Module 10, nơi tokenizer, embedding và masking được giải thích trong các mô hình dựa trên Transformer.
Khi đi sang Module 12 – LLMs, việc hiểu rõ mask là điều gần như bắt buộc để làm việc với mô hình sinh văn bản.

Lời khuyên cho người bắt đầu

Bạn có thể thử phân tích một ví dụ nhỏ với câu ngắn, tự tạo mask và quan sát cách mô hình xử lý để hiểu cơ chế này rõ hơn.

Hỏi đáp nhanh về Attention Mask

Attention Mask có dùng để che token PAD không? Có.

Attention Mask có che token tương lai trong mô hình sinh văn bản không? Có.

Attention Mask có thay đổi nội dung token không? Không.

Attention Mask có áp dụng cho toàn bộ kiến trúc Transformer không? Có, tùy vị trí self-attention hoặc cross-attention.

FAQ về chương trình AIO

Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.

Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.

Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.

Q5. Trụ sở AIO ở đâu?
Ans: Ad ở Ninh Thuận và làm việc tại quê cho yên tĩnh, dễ tập trung. Team chọn cách làm đơn giản, ưu tiên chất lượng học hơn mô hình văn phòng.