Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: naive bayes, conditional independence, giả định độc lập, phân loại, machine learning
Khi bắt đầu học phân loại (classification), nhiều bạn thường gặp Naive Bayes rất sớm và đôi khi thấy một cụm từ gây thắc mắc:
“Giả định độc lập có điều kiện”
Nó có nghĩa là gì? Tại sao một mô hình lại có thể đơn giản đến mức xem các đặc trưng gần như… không liên quan với nhau?
Thắc mắc này khá phổ biến, đặc biệt ở những bạn mới tiếp cận ML cơ bản (nhóm kiến thức thường xuất hiện trong mảng Regression–Classification). Bài viết dưới đây sẽ lý giải dễ hiểu từ gốc.
Hiểu ngắn gọn:
Trong Naive Bayes, mọi đặc trưng (feature) được xem là độc lập với nhau khi đã biết nhãn (label).
Nghĩa là: nếu biết lớp C, thì đặc trưng
X₁X₂X₃Nói cách khác:
Mô hình cho rằng mỗi feature đóng góp vào xác suất của lớp theo từng phần riêng lẻ.
Đây chính là lý do nó được gọi là naive – “giả định đơn giản hóa”.
Giả sử bạn muốn phân loại email “spam” hay “không spam”.
Bạn có các đặc trưng:
Naive Bayes giả định rằng:
Cả hai được xử lý như các “gợi ý riêng lẻ”.
Trong thực tế, nhiều đặc trưng có liên quan, nhưng Naive Bayes vẫn hoạt động tốt ở nhiều bài toán.
Nếu không có giả định này, việc tính xác suất
P(X₁, X₂, …, Xₙ | C)Naive Bayes đơn giản hóa bằng cách viết lại xác suất:
P(X₁, X₂, ..., Xₙ | C) = P(X₁ | C) × P(X₂ | C) × ... × P(Xₙ | C)Nhờ đó mô hình:
Bạn có các đặc trưng:
Khi đã biết bình luận là tích cực hay tiêu cực, mô hình coi mỗi đặc trưng đóng góp độc lập vào quyết định phân loại.
Dù thực tế có thể hai từ “tuyệt vời” và “!!!” đi kèm nhau thường xuyên, Naive Bayes vẫn xem chúng như các tín hiệu riêng.
Ở góc nhìn dự án, Naive Bayes phù hợp khi:
Nhưng cũng cần chú ý:
Giả định độc lập có điều kiện được học trong nhóm:
Những nhóm kiến thức này giúp hiểu rõ xác suất, phân phối, và cách đặc trưng ảnh hưởng đến mô hình.
Bạn có thể thử chạy Naive Bayes trên dữ liệu văn bản nhỏ để tự quan sát mô hình hoạt động.
So sánh kết quả khi thêm/bớt một số đặc trưng để hiểu rõ “độc lập có điều kiện” giúp mô hình đơn giản hóa như thế nào.
Nếu muốn mở rộng, có thể thử nghiệm các mô hình classification khác để thấy sự khác biệt trong cách chúng xử lý đặc trưng.