Xác suất tiên nghiệm (Prior Probability) P(c) trong Naive Bayes là gì?

Tác giả: AI VIET NAM (AI VIET NAM)

Keywords: prior probability, p(c) naive bayes, xác suất tiên nghiệm, naive bayes classification

Mở đầu – Vì sao nhiều bạn dễ nhầm P(c) khi học Naive Bayes?

Khi mới học Machine Learning, đặc biệt là phần phân loại bằng Naive Bayes, rất nhiều bạn thường thắc mắc:

“P(c) là gì? Tính kiểu gì? Tại sao lại gọi là xác suất tiên nghiệm?”

Sự nhầm lẫn xuất phát từ việc Naive Bayes dựa trên tư duy xác suất – thống kê, một phần kiến thức trong nhóm nền tảng (Module 1–2 của chương trình học thuật AIO). Nếu chưa quen với xác suất có điều kiện, thuật toán sẽ trở nên khó hiểu dù bản chất lại khá đơn giản.

P(c) trong Naive Bayes là gì?

👉 Trả lời ngắn gọn:

P(c) là xác suất xuất hiện của một lớp (class) trong toàn bộ dữ liệu, trước khi nhìn thấy bất kỳ đặc trưng nào.

Nói cách khác:

Đây là mức “tin tưởng ban đầu” rằng một mẫu bất kỳ sẽ thuộc lớp c.

Nó được tính dựa trên tần suất lớp đó xuất hiện trong tập huấn luyện.

Ví dụ:

Trong một tập email, nếu 30% email là thư quảng cáo và 70% là thư bình thường, thì:

P(spam) = 0.3

P(ham) = 0.7

Không cần xem nội dung email, ta đã có mức xác suất ban đầu này.

Tại sao lại gọi là “tiên nghiệm”?

Vì đây là xác suất được tính trước khi quan sát đặc trưng (

prior to seeing features
).

Trong Naive Bayes, mô hình sẽ:

  • Nhìn vào P(c) – xác suất tiên nghiệm.
  • Kết hợp thêm thông tin từ đặc trưng (likelihood).
  • Tính ra xác suất hậu nghiệm
    P(c|x)
    .

P(c) giúp mô hình có một “bức tranh tổng thể” trước khi xem xét chi tiết mẫu mới.

Điều này phản ánh cách con người thường đánh giá tình huống: trước tiên nhìn vào bối cảnh tổng quan, sau đó xem xét thông tin cụ thể.

P(c) được tính như thế nào?

Không cần công thức phức tạp, bạn chỉ cần hiểu:

P(c) được tính bằng tỷ lệ số mẫu thuộc lớp c chia cho tổng số mẫu.

Đây là cách tính xác suất cơ bản xuất hiện rất nhiều trong các bài học thống kê nền (Module 1–2) và được sử dụng rộng rãi trong các thuật toán ML cơ bản (Module 4).

Ví dụ thực tế để dễ hình dung

Giả sử bạn phân loại bài viết theo chủ đề:

  • 40 bài về “AI”
  • 30 bài về “Khoa học dữ liệu”
  • 30 bài về “Lập trình”

Tổng cộng 100 bài.

Ta có:

P(AI) = 40 / 100 = 0.40

P(Khoa học dữ liệu) = 0.30

P(Lập trình) = 0.30

Nếu một bài viết mới xuất hiện, trước khi đọc nội dung, mô hình “nghiêng” về khả năng nó thuộc nhóm AI cao hơn hai nhóm còn lại.

Góc nhìn khi làm dự án AI/ML

Trong thực tế, xác suất tiên nghiệm ảnh hưởng mạnh đến:

  • các bài toán dữ liệu lệch lớp (imbalance)
  • hệ thống phân loại văn bản hoặc email
  • mô hình phân loại y tế, nơi một lớp rất hiếm
  • hệ thống phân tích cảm xúc, phân loại review…

Nếu dữ liệu có sự chênh lệch lớn, P(c) của lớp phổ biến sẽ cao hơn nhiều → mô hình dễ thiên vị.

Do đó, trong pipeline ML (Module 3 – ETL và Module 4 – ML cơ bản), các bước cân bằng dữ liệu như undersampling, oversampling hoặc sử dụng trọng số lớp sẽ giúp cải thiện P(c) để mô hình công bằng hơn.

Liên hệ kiến thức nền

Người học AI khi tiếp cận Naive Bayes thường đồng thời gặp các khái niệm:

  • xác suất có điều kiện – nền tảng toán học (Module 1–2)
  • phân phối xác suất trong ML cổ điển (Module 4)
  • biểu diễn văn bản Bag-of-Words, TF-IDF trong NLP cơ bản (Module 10)

Nhờ kết hợp các nhóm kiến thức này, việc hiểu P(c) trở nên nhẹ nhàng và trực quan hơn.

Lời khuyên nhẹ cho người mới bắt đầu

Bạn có thể thử:

  • tạo một tập dữ liệu nhỏ và tự tính P(c)
  • quan sát xem P(c) thay đổi thế nào khi dữ liệu bị lệch lớp
  • thử phân loại email hoặc bình luận theo cách thủ công để thấy rõ vai trò của P(c)

Đây là cách đơn giản để hiểu Naive Bayes từ gốc thay vì ghi nhớ công thức.

Kết luận

Xác suất tiên nghiệm P(c) là xác suất xuất hiện của một lớp trong dữ liệu, được tính trước khi xem xét đặc trưng.

Nó phản ánh tần suất lớp trong tập huấn luyện và đóng vai trò nền tảng trong cách Naive Bayes dự đoán nhãn cho một mẫu mới.

Bạn có thể thử nghiệm với các tập dữ liệu nhỏ để quan sát sự thay đổi của P(c) — đây là cách tự nhiên nhất để nắm vững khái niệm này.

Tài nguyên học AI: