Nội dung bài viết
© 2026 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: text preprocessing, NLP, text classification, RT URL removal
Khi bắt đầu với NLP hoặc thử xây dựng một mô hình phân loại văn bản (text classification), nhiều bạn nhận ra rằng dữ liệu thực tế không hề sạch sẽ như trong sách. Đặc biệt là dữ liệu mạng xã hội với: RT, hashtag, URL, emoji, ký tự kéo dài, câu không dấu…
Điều này khiến một câu hỏi tưởng đơn giản trở nên khó xử:
“Tiền xử lý văn bản cần làm những bước nào? Làm sao để loại bỏ RT, URL và dấu câu mà không làm mất thông tin quan trọng?”
Bài viết dưới đây giúp bạn nhìn rõ bản chất các bước tiền xử lý — mạch lạc, dễ hiểu và sát thực tế.
Trong nhiều bài toán NLP (thuộc Module 10 – NLP của AIO), dữ liệu thô chứa nhiều yếu tố không phục vụ mục tiêu phân loại.
Tiền xử lý giúp:
Trong pipeline NLP, bước này nằm sau ETL (Module 3) và trước tokenization & embedding.
Dưới đây là ba bước phổ biến khi xây dựng một text classifier:
Trong dữ liệu Twitter, “RT” chỉ mang nghĩa hành vi retweet, không chứa nội dung.
Với sentiment hoặc phân loại chủ đề, RT hoàn toàn không cần thiết.
Chỉ giữ khi bài toán liên quan đến hành vi người dùng.
URL như “https://example.com” hiếm khi mang ngữ nghĩa cho bài toán phân loại nhưng lại:
Cách xử lý đúng trong dự án: thay URL bằng placeholder ngắn:
Giữ được thông tin có link, tránh làm nổ từ vựng.
Trong các bài toán classification cơ bản, dấu câu thường không quan trọng.
Ví dụ:
“Hay quá!!!”
“Hay quá.”
Hai câu mang ý nghĩa rất gần nhau, nhưng chuỗi “!!!” có thể làm nhiễu mô hình.
Tuy nhiên, trong bài toán liên quan ngữ pháp hoặc seq-to-seq (Module 6 & 7), dấu câu có thể quan trọng.
→ Quyết định giữ hay bỏ phụ thuộc vào mục tiêu.
Câu gốc:
RT Wow!!! Sản phẩm này tốt quá 😍😍 Link: https://example.com
Sau tiền xử lý:
wow sản phẩm này tốt quá
Thấy rõ:
Không có công thức tiền xử lý chung cho mọi bài toán. Bạn cần xem xét:
Ví dụ:
Tiền xử lý là một phần của tư duy pipeline — trọng tâm của MLOps (modules 4–7).
Giữ emoji hoặc dấu câu khi làm các bài toán như:
Vì emoji hoặc “!!!” là tín hiệu cảm xúc mạnh.
Những thử nghiệm nhỏ giúp bạn xây dựng trực giác NLP rất nhanh.
Có cần xóa RT không?
Không — chỉ khi RT không liên quan đến nhãn bài toán.
Có nên giữ URL không?
Không — trừ khi URL mang thông tin quan trọng.
Có nên bỏ emoji không?
Không — nếu bài toán liên quan cảm xúc.
Tokenizer của Transformer có xử lý dấu câu không?
Có — nhưng hiệu quả tùy tokenizer và mô hình.
Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.
Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.
Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.
Q4. AIO có gì khác những nơi khác?
Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: “Cùng nhau học – cùng nhau khổ – cùng nhau lớn.” Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.