Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: prior probability, p(c) naive bayes, xác suất tiên nghiệm, naive bayes classification
Khi mới học Machine Learning, đặc biệt là phần phân loại bằng Naive Bayes, rất nhiều bạn thường thắc mắc:
“P(c) là gì? Tính kiểu gì? Tại sao lại gọi là xác suất tiên nghiệm?”
Sự nhầm lẫn xuất phát từ việc Naive Bayes dựa trên tư duy xác suất – thống kê, một phần kiến thức trong nhóm nền tảng (Module 1–2 của chương trình học thuật AIO). Nếu chưa quen với xác suất có điều kiện, thuật toán sẽ trở nên khó hiểu dù bản chất lại khá đơn giản.
👉 Trả lời ngắn gọn:
P(c) là xác suất xuất hiện của một lớp (class) trong toàn bộ dữ liệu, trước khi nhìn thấy bất kỳ đặc trưng nào.
Nói cách khác:
Đây là mức “tin tưởng ban đầu” rằng một mẫu bất kỳ sẽ thuộc lớp c.
Nó được tính dựa trên tần suất lớp đó xuất hiện trong tập huấn luyện.
Ví dụ:
Trong một tập email, nếu 30% email là thư quảng cáo và 70% là thư bình thường, thì:
P(spam) = 0.3P(ham) = 0.7Không cần xem nội dung email, ta đã có mức xác suất ban đầu này.
Vì đây là xác suất được tính trước khi quan sát đặc trưng (
prior to seeing featuresTrong Naive Bayes, mô hình sẽ:
P(c|x)P(c) giúp mô hình có một “bức tranh tổng thể” trước khi xem xét chi tiết mẫu mới.
Điều này phản ánh cách con người thường đánh giá tình huống: trước tiên nhìn vào bối cảnh tổng quan, sau đó xem xét thông tin cụ thể.
Không cần công thức phức tạp, bạn chỉ cần hiểu:
P(c) được tính bằng tỷ lệ số mẫu thuộc lớp c chia cho tổng số mẫu.
Đây là cách tính xác suất cơ bản xuất hiện rất nhiều trong các bài học thống kê nền (Module 1–2) và được sử dụng rộng rãi trong các thuật toán ML cơ bản (Module 4).
Giả sử bạn phân loại bài viết theo chủ đề:
Tổng cộng 100 bài.
Ta có:
P(AI) = 40 / 100 = 0.40P(Khoa học dữ liệu) = 0.30P(Lập trình) = 0.30Nếu một bài viết mới xuất hiện, trước khi đọc nội dung, mô hình “nghiêng” về khả năng nó thuộc nhóm AI cao hơn hai nhóm còn lại.
Trong thực tế, xác suất tiên nghiệm ảnh hưởng mạnh đến:
Nếu dữ liệu có sự chênh lệch lớn, P(c) của lớp phổ biến sẽ cao hơn nhiều → mô hình dễ thiên vị.
Do đó, trong pipeline ML (Module 3 – ETL và Module 4 – ML cơ bản), các bước cân bằng dữ liệu như undersampling, oversampling hoặc sử dụng trọng số lớp sẽ giúp cải thiện P(c) để mô hình công bằng hơn.
Người học AI khi tiếp cận Naive Bayes thường đồng thời gặp các khái niệm:
Nhờ kết hợp các nhóm kiến thức này, việc hiểu P(c) trở nên nhẹ nhàng và trực quan hơn.
Bạn có thể thử:
Đây là cách đơn giản để hiểu Naive Bayes từ gốc thay vì ghi nhớ công thức.
Xác suất tiên nghiệm P(c) là xác suất xuất hiện của một lớp trong dữ liệu, được tính trước khi xem xét đặc trưng.
Nó phản ánh tần suất lớp trong tập huấn luyện và đóng vai trò nền tảng trong cách Naive Bayes dự đoán nhãn cho một mẫu mới.
Bạn có thể thử nghiệm với các tập dữ liệu nhỏ để quan sát sự thay đổi của P(c) — đây là cách tự nhiên nhất để nắm vững khái niệm này.