Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: prior probability, p(c) naive bayes, xác suất tiên nghiệm, naive bayes classification
Khi mới học Machine Learning, đặc biệt là phần phân loại bằng Naive Bayes, rất nhiều bạn thường thắc mắc:
“P(c) là gì? Tính kiểu gì? Tại sao lại gọi là xác suất tiên nghiệm?”
Sự nhầm lẫn xuất phát từ việc Naive Bayes dựa trên tư duy xác suất – thống kê, một phần kiến thức trong nhóm nền tảng (Module 1–2 của chương trình học thuật AIO). Nếu chưa quen với xác suất có điều kiện, thuật toán sẽ trở nên khó hiểu dù bản chất lại khá đơn giản.
P(c) là xác suất xuất hiện của một lớp (class) trong toàn bộ dữ liệu, trước khi nhìn thấy bất kỳ đặc trưng nào.
Nói cách khác:
Đây là mức “tin tưởng ban đầu” rằng một mẫu bất kỳ sẽ thuộc lớp c.
Nó được tính dựa trên tần suất lớp đó xuất hiện trong tập huấn luyện.
Ví dụ:
P(spam) = 0.3
P(ham) = 0.7
Không cần xem nội dung email, ta đã có mức xác suất ban đầu này.
Vì đây là xác suất được tính trước khi quan sát đặc trưng (prior to seeing features).
Trong Naive Bayes, mô hình sẽ:
P(c) giúp mô hình có một “bức tranh tổng thể” trước khi xem xét chi tiết mẫu dữ liệu.
Không cần công thức phức tạp, bạn chỉ cần hiểu:
P(c) = (số mẫu thuộc lớp c) / (tổng số mẫu)
Đây là cách tính xác suất cơ bản, xuất hiện nhiều trong các bài học thống kê nền (Module 1–2) và được sử dụng xuyên suốt trong các thuật toán ML cổ điển (Module 4).
Giả sử bạn phân loại bài viết theo chủ đề:
Tổng cộng 100 bài.
Ta có:
Nếu một bài viết mới xuất hiện, trước khi đọc nội dung, mô hình đã “nghiêng nhẹ” về việc nó thuộc nhóm AI.
Trong thực tế, xác suất tiên nghiệm ảnh hưởng mạnh đến:
Nếu dữ liệu mất cân bằng, P(c) của lớp phổ biến sẽ rất cao → mô hình dễ thiên vị.
Vì vậy, trong pipeline ML (Module 3 – ETL và Module 4 – ML cơ bản), các kỹ thuật như undersampling, oversampling hoặc trọng số lớp (class weight) thường được dùng để điều chỉnh P(c).
Khi học Naive Bayes, bạn sẽ đồng thời gặp:
Nhờ nắm các nhóm kiến thức này, việc hiểu P(c) trở nên tự nhiên và trực quan hơn.
Bạn có thể thử:
Đây là cách tốt nhất để hiểu Naive Bayes từ gốc thay vì ghi nhớ công thức.
Xác suất tiên nghiệm P(c) là xác suất xuất hiện của một lớp trong dữ liệu trước khi xem xét đặc trưng.
Nó phản ánh tần suất lớp trong tập huấn luyện và đóng vai trò nền tảng trong cách Naive Bayes dự đoán nhãn cho mẫu mới.
Bạn có thể thử nghiệm với tập dữ liệu nhỏ để quan sát sự thay đổi của P(c) — đây là cách tự nhiên nhất để hiểu vững khái niệm này.