Nội dung bài viết
© 2026 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: TF-IDF, mã hóa văn bản, từ hiếm, trọng số từ, NLP cơ bản, vector hóa văn bản
Trong phân loại văn bản, nhiều bạn gặp chung một băn khoăn:
“Làm sao để mô hình bớt bị ảnh hưởng bởi những từ xuất hiện liên tục như ‘the’, ‘và’, ‘là’, mà lại chú ý hơn tới các từ hiếm nhưng quan trọng?”
Đây là vấn đề cơ bản trong NLP, đặc biệt khi làm việc với các mô hình truyền thống như Logistic Regression, SVM hoặc Naive Bayes. Những mô hình này phụ thuộc trực tiếp vào cách biểu diễn văn bản — tức vector hóa văn bản.
Và câu trả lời nằm ở một kỹ thuật rất quen thuộc trong NLP.
Tên đầy đủ của TF-IDF là:
Term Frequency – Inverse Document Frequency
Ý tưởng chính:
Kết hợp hai thành phần này tạo ra một biểu diễn giúp mô hình:
Trong phân loại bài báo, các từ như “economy”, “currency” mang nội dung rõ ràng hơn hẳn “the”, “is”, “and”.
TF-IDF làm những từ hiếm trở nên nổi bật.
Với Bag-of-Words thuần túy, từ “the” có thể xuất hiện 1000 lần và làm lệch trọng số.
TF-IDF cân bằng lại bằng cách giảm tầm ảnh hưởng của các từ chung chung.
Những mô hình như SVM, Logistic Regression và Naive Bayes hoạt động rất tốt khi đầu vào là vector TF-IDF.
Đây là kiến thức gắn liền với Module 10 – NLP cơ bản (Tokenization & Embedding truyền thống).
Điều này giúp vector TF-IDF phân tách văn bản rõ hơn so với Bag-of-Words.
TF-IDF nằm trong giao điểm của:
Nắm vững TF-IDF tạo nền tốt để chuyển sang embedding hiện đại như Word2Vec, GloVe, BERT.
TF-IDF cũng được dùng nhiều trong các hệ thống tìm kiếm đơn giản hoặc search nội bộ.
Nếu bạn đang bắt đầu với phân loại văn bản:
Những bước nhỏ như vậy giúp xây nền vững chắc trước khi tiến vào mô hình sâu hơn.