Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: text preprocessing, NLP, text classification, RT URL removal
Khi bắt đầu với NLP hoặc thử xây dựng một mô hình phân loại văn bản (text classification), nhiều bạn thường gặp một cảm giác khá giống nhau: văn bản thực tế “không sạch” như ví dụ trên sách. Đặc biệt là dữ liệu mạng xã hội: RT, dấu #, link URL, icon lạ, ký tự kéo dài, hoặc câu viết không dấu. Điều đó khiến câu hỏi tưởng chừng đơn giản trở nên khó: “Tiền xử lý văn bản cần làm những bước nào? Làm sao để loại bỏ RT, URL và dấu câu mà không làm mất thông tin quan trọng?” Bài viết dưới đây giúp bạn nhìn rõ bản chất của các bước này — mạch lạc, dễ hiểu, và gắn với thực tế khi làm dự án.
Ở nhiều bài toán NLP (thuộc nhóm kiến thức quan trọng trong Module 10 – NLP của AIO), dữ liệu thô thường chứa nhiều thành phần không phục vụ cho mục tiêu phân loại.
Tiền xử lý giúp:
Trong các pipeline NLP, bước này thường đi sau thao tác dữ liệu (Module 3 – ETL) và trước phần trích xuất đặc trưng như tokenization & embedding.
Dưới đây là ba nhóm xử lý thường gặp nhất khi xây dựng text classifier đơn giản:
Trong dữ liệu Twitter hoặc mạng xã hội, “RT” chỉ là ký hiệu retweet, không có giá trị ngữ nghĩa trong nội dung cần phân loại. Việc loại bỏ “RT” giúp câu văn gọn lại mà không ảnh hưởng đến meaning.
Trường hợp cần giữ lại? Khi bạn phân loại hành vi người dùng như “retweet hay không”, “tương tác hay không”. Còn với sentiment hoặc phân loại chủ đề, “RT” hầu như không cần thiết.
Link như “https://…” hầu như không đóng góp vào chủ đề của câu (topic).
Trong dự án thực tế, URL thường gây:
Thông thường, URL được thay bằng placeholder như:
<URL>Cách này giúp giữ lại thông tin “có link” mà không duy trì toàn bộ chuỗi dài.
Dấu câu có thể không quan trọng trong các tác vụ classification cơ bản như sentiment hoặc spam detection.
Ví dụ:
Hai câu này khác nhau ở mức độ,… nhưng với mô hình classification đơn giản, dấu “!!!” có thể được coi là nhiễu.
Tuy nhiên, khi làm các tác vụ liên quan đến ngữ pháp, hoặc các mô hình seq-to-seq (liên hệ Module 6 & 7 – mô hình tiền DL và DL cơ bản), dấu câu có thể chứa thông tin cần thiết.
Do đó, quyết định giữ hay bỏ cần dựa trên mục tiêu.
Giả sử câu thô:
RT Wow!!! Sản phẩm này tốt quá 😍😍 Link: https://example.com
Sau tiền xử lý có thể thành:
wow sản phẩm này tốt quá
<URL>Bạn có thể thấy:
<URL>Đây là trạng thái dễ để mô hình NLP xử lý hơn.
Trong các dự án thực tế, việc tiền xử lý không có công thức cố định.
Mỗi bài toán cần đặt câu hỏi:
Ví dụ:
Tiền xử lý vì thế trở thành một phần của tư duy pipeline — điều quen thuộc trong MLOps Series (modules 4–7 của AIO).
Bạn có thể cân nhắc giữ lại dấu câu hoặc emoji khi:
Emoji hoặc “!!!” đôi khi chính là tín hiệu cảm xúc mạnh.
Nếu bạn đang bắt đầu tìm hiểu về NLP:
Những thử nghiệm nhỏ này giúp bạn hiểu rõ hơn bản chất của dữ liệu và tác động của xử lý văn bản.