Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: attention mask, transformer, padding mask, causal mask, NLP
Khi bắt đầu tìm hiểu Transformer, nhiều người thường gặp vướng mắc: mô hình “nhìn” toàn bộ câu như thế nào, và làm sao nó tránh việc sử dụng thông tin tương lai trong bài toán sinh chuỗi. Việc này liên quan trực tiếp đến Attention Mask – một thành phần quan trọng nhưng đôi khi bị xem nhẹ. Hiểu đúng Attention Mask giúp nắm rõ cách Transformer vận hành, nhất là khi bước vào các bài toán thực tế như sinh văn bản, dịch máy, tóm tắt hoặc phân loại.
Attention Mask là ma trận cho biết vị trí nào được mô hình “nhìn thấy” và vị trí nào cần ẩn đi trong lúc tính attention. Mục tiêu của nó là đảm bảo mô hình chỉ xử lý thông tin phù hợp với từng loại tác vụ.
Có hai dạng mask thường gặp:
Về bản chất, mask hoạt động bằng cách gán giá trị rất nhỏ (ví dụ: −∞ trước khi softmax) tại các vị trí cần che lại để attention không “chảy” vào đó.
Tùy mục đích, Attention Mask có thể che:
Trong phần lớn ứng dụng thực tế, câu trả lời ngắn gọn là: Attention Mask được dùng để che token PAD và che các token tương lai trong bài toán sinh chuỗi.
Giả sử câu đầu vào là: ""Tôi thích học AI PAD PAD""
Cách hoạt động này giúp mô hình ổn định hơn, giảm nhiễu từ dữ liệu trống và đảm bảo đúng logic thời gian.
Trong dự án thực tế:
Khi học theo lộ trình AI, Attention Mask thường xuất hiện ở:
Bạn có thể thử phân tích một ví dụ nhỏ với câu ngắn, tự tạo mask và quan sát cách mô hình xử lý để hiểu cơ chế này rõ hơn.
Attention Mask có dùng để che token PAD không? Có.
Attention Mask có che token tương lai trong mô hình sinh văn bản không? Có.
Attention Mask có thay đổi nội dung token không? Không.
Attention Mask có áp dụng cho toàn bộ kiến trúc Transformer không? Có, tùy vị trí self-attention hoặc cross-attention.
Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.
Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.
Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.
Q5. Trụ sở AIO ở đâu?
Ans: Ad ở Ninh Thuận và làm việc tại quê cho yên tĩnh, dễ tập trung. Team chọn cách làm đơn giản, ưu tiên chất lượng học hơn mô hình văn phòng.