Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: TF-IDF, mã hóa văn bản, từ hiếm, trọng số từ, NLP cơ bản, vector hóa văn bản
Trong phân loại văn bản, nhiều bạn gặp chung một băn khoăn:
“Làm sao để mô hình bớt bị ảnh hưởng bởi những từ xuất hiện liên tục như ‘the’, ‘và’, ‘là’, mà lại chú ý hơn tới các từ hiếm nhưng quan trọng?”
Đây là vấn đề cơ bản trong NLP, đặc biệt khi làm việc với các mô hình truyền thống như Logistic Regression, SVM hoặc Naive Bayes. Những mô hình này phụ thuộc trực tiếp vào cách biểu diễn văn bản — tức vector hóa văn bản.
Và câu trả lời nằm ở một kỹ thuật rất quen thuộc trong NLP.
Tên đầy đủ của TF-IDF là:
Term Frequency – Inverse Document Frequency
Ý tưởng chính:
TF (Term Frequency): từ xuất hiện nhiều trong tài liệu → trọng số cao hơn trong phạm vi tài liệu đó.
IDF (Inverse Document Frequency): từ xuất hiện ở nhiều tài liệu → giảm trọng số;
từ xuất hiện ít tài liệu → tăng trọng số.
Kết hợp hai thành phần này tạo ra một biểu diễn giúp mô hình:
Đây là lý do TF-IDF phù hợp với các bài toán classification truyền thống.
Ví dụ trong phân loại bài báo:
Từ “economy”, “currency” mang ý nghĩa rõ ràng hơn “the”, “is”, “and”.
TF-IDF giúp các từ hiếm như vậy nổi bật.
Nếu dùng Bag-of-Words thuần túy, từ “the” xuất hiện 1000 lần sẽ tạo ra độ lệch lớn.
TF-IDF cân bằng lại bằng cách giảm trọng số của các từ xuất hiện ở nhiều văn bản.
Những mô hình như SVM, Linear Regression, Naive Bayes hoạt động rất tốt với vector TF-IDF.
Điều này gắn với kiến thức trong Module 10 – NLP: Tokenization & Embedding, nơi TF-IDF được xem như bước vector hóa nền tảng.
Vì vậy, hai văn bản khác nhau sẽ có vector TF-IDF phân biệt rõ ràng hơn so với Bag-of-Words.
TF-IDF nằm giữa nhóm kiến thức:
Việc hiểu đúng TF-IDF tạo nền cho việc chuyển sang các kỹ thuật hiện đại như word embedding, contextual embedding (BERT, GPT).
Ngoài ra, TF-IDF vẫn được dùng nhiều trong hệ thống search nội bộ và retrieval đơn giản.
Nếu bạn đang bắt đầu làm phân loại văn bản:
Những bước nhỏ này giúp bạn hiểu rõ hơn về vai trò của phương pháp mã hóa trong NLP.