Các bước tiền xử lý cơ bản cho Text Classification (loại bỏ RT, URL, dấu câu)

Vì sao bước tiền xử lý văn bản lại dễ gây rối cho người mới?

Khi bắt đầu với NLP hoặc thử xây dựng một mô hình phân loại văn bản (text classification), nhiều bạn nhận ra rằng dữ liệu thực tế không hề sạch sẽ như trong sách. Đặc biệt là dữ liệu mạng xã hội với: RT, hashtag, URL, emoji, ký tự kéo dài, câu không dấu…

Điều này khiến một câu hỏi tưởng đơn giản trở nên khó xử:

“Tiền xử lý văn bản cần làm những bước nào? Làm sao để loại bỏ RT, URL và dấu câu mà không làm mất thông tin quan trọng?”

Bài viết dưới đây giúp bạn nhìn rõ bản chất các bước tiền xử lý — mạch lạc, dễ hiểu và sát thực tế.

Bản chất của tiền xử lý trong Text Classification

Trong nhiều bài toán NLP (thuộc Module 10 – NLP của AIO), dữ liệu thô chứa nhiều yếu tố không phục vụ mục tiêu phân loại.

Tiền xử lý giúp:

Làm văn bản thống nhất
Giảm nhiễu
Giúp mô hình tập trung đúng trọng tâm
Tránh việc mô hình học sai từ ký tự lạ

Trong pipeline NLP, bước này nằm sau ETL (Module 3) và trước tokenization & embedding.

Các bước tiền xử lý cơ bản nhất (theo tinh thần dự án thực tế)

Dưới đây là ba bước phổ biến khi xây dựng một text classifier:

Loại bỏ RT (retweet indicators)

Trong dữ liệu Twitter, “RT” chỉ mang nghĩa hành vi retweet, không chứa nội dung.
Với sentiment hoặc phân loại chủ đề, RT hoàn toàn không cần thiết.

Chỉ giữ khi bài toán liên quan đến hành vi người dùng.

Loại bỏ URL

URL như “https://example.com” hiếm khi mang ngữ nghĩa cho bài toán phân loại nhưng lại:

Gây nhiễu tokenization
Tăng kích thước từ vựng
Khiến embedding khó học vì mỗi URL là một token riêng

Cách xử lý đúng trong dự án: thay URL bằng placeholder ngắn:

Giữ được thông tin có link, tránh làm nổ từ vựng.

Loại bỏ dấu câu

Trong các bài toán classification cơ bản, dấu câu thường không quan trọng.

Ví dụ:
“Hay quá!!!”
“Hay quá.”

Hai câu mang ý nghĩa rất gần nhau, nhưng chuỗi “!!!” có thể làm nhiễu mô hình.

Tuy nhiên, trong bài toán liên quan ngữ pháp hoặc seq-to-seq (Module 6 & 7), dấu câu có thể quan trọng.
→ Quyết định giữ hay bỏ phụ thuộc vào mục tiêu.

Ví dụ minh họa trước – sau tiền xử lý

Câu gốc:
RT Wow!!! Sản phẩm này tốt quá 😍😍 Link: https://example.com

Sau tiền xử lý:
wow sản phẩm này tốt quá

Thấy rõ:

RT bị loại bỏ
URL →
Dấu câu được rút gọn
Ý nghĩa chính giữ nguyên

Góc nhìn khi làm dự án NLP thật

Không có công thức tiền xử lý chung cho mọi bài toán. Bạn cần xem xét:

Mục tiêu mô hình
Việc bỏ thông tin có làm mất ý nghĩa không
Mô hình là TF-IDF, Bag-of-Words hay Transformer
Dữ liệu lớn hay nhỏ

Ví dụ:

Transformer lớn → ít tiền xử lý, tokenizer làm tốt phần còn lại
TF-IDF / BoW → cần làm sạch kỹ để tránh từ vựng bùng nổ

Tiền xử lý là một phần của tư duy pipeline — trọng tâm của MLOps (modules 4–7).

Khi nào nên linh hoạt hơn?

Giữ emoji hoặc dấu câu khi làm các bài toán như:

Sentiment analysis
Phân tích cảm xúc mạng xã hội
Toxic comment classification
Hành vi người dùng

Vì emoji hoặc “!!!” là tín hiệu cảm xúc mạnh.

Gợi ý học thuật cho người mới bắt đầu

Thử nhiều mức độ tiền xử lý khác nhau
Huấn luyện Logistic Regression hoặc Naive Bayes để so sánh
Quan sát ảnh hưởng của việc giữ/bỏ emoji, dấu câu

Những thử nghiệm nhỏ giúp bạn xây dựng trực giác NLP rất nhanh.

Hỏi đáp nhanh về chủ đề

Có cần xóa RT không?
Không — chỉ khi RT không liên quan đến nhãn bài toán.

Có nên giữ URL không?
Không — trừ khi URL mang thông tin quan trọng.

Có nên bỏ emoji không?
Không — nếu bài toán liên quan cảm xúc.

Tokenizer của Transformer có xử lý dấu câu không?
Có — nhưng hiệu quả tùy tokenizer và mô hình.

FAQ về chương trình AIO

Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.

Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.

Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.

Q4. AIO có gì khác những nơi khác?
Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: “Cùng nhau học – cùng nhau khổ – cùng nhau lớn.” Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.

Tài nguyên học AI

Chương trình AIO: https://aivietnam.edu.vn/course
Bài viết & tài liệu học AI: https://aioconquer.aivietnam.edu.vn/
Tutorial: https://tutorial.aivietnam.edu.vn/