Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: Accuracy, Dữ liệu mất cân bằng, Machine Learning, F1, Confusion Matrix
Nhiều bạn khi mới học Machine Learning thường thấy mô hình đạt Accuracy rất cao, thậm chí 95–99%, nhưng khi kiểm tra trên dữ liệu thật thì mô hình lại dự đoán kém. Điều này thường xuất hiện ở bài toán có dữ liệu mất cân bằng. Không ít người nhầm lẫn rằng Accuracy cao nghĩa là mô hình tốt, dẫn đến đánh giá sai năng lực mô hình.
Accuracy được hiểu đơn giản là tỉ lệ dự đoán đúng trên tổng dữ liệu. Khi số lượng của một lớp (class) chiếm ưu thế rất lớn so với lớp còn lại, Accuracy trở nên thiếu hiệu quả vì:
Trong các module Machine Learning (thuộc nhóm kiến thức thường gặp ở giai đoạn ML cơ bản), phần đánh giá mô hình luôn nhấn mạnh rằng không được chỉ nhìn vào Accuracy mà bỏ qua Precision–Recall, F1, hay Confusion Matrix.
Giả sử một bài toán phát hiện gian lận giao dịch:
Nếu mô hình “chọn an toàn” bằng cách luôn dự đoán tất cả giao dịch là bình thường, Accuracy vẫn đạt 99%. Nhưng mô hình này lại không phát hiện bất kỳ giao dịch gian lận nào. Các chỉ số như Recall cho lớp gian lận sẽ là 0. Vì vậy, Accuracy trở nên ít ý nghĩa trong bối cảnh này.
Trong dự án thực tế:
Những phần này liên quan đến kiến thức thường được học trong các module Machine Learning 1–2: cách đánh giá mô hình, phân tích lỗi, và các nhóm bài toán classification.
Khi đi qua nhóm kiến thức từ toán – Python – NumPy (modules nền), sau đó đến ML cơ bản, rồi lên Deep Learning, bạn sẽ gặp lại vấn đề dữ liệu mất cân bằng ở nhiều dạng khác nhau, kể cả trong Computer Vision hay NLP. Khái niệm Accuracy lúc này chỉ là một trong nhiều chỉ số nằm trong bộ đánh giá toàn diện hơn.
Bạn có thể thử:
Việc tự mình quan sát sự khác biệt này giúp hiểu bản chất của vấn đề.
1. Accuracy có phù hợp cho dữ liệu mất cân bằng không?
Không, vì thường không phản ánh khả năng mô hình phát hiện lớp thiểu số.
2. Có nên dùng thêm F1-score khi dữ liệu lệch nhiều?
Có, vì F1 thể hiện tốt hơn sự cân bằng giữa Precision và Recall.
3. Mất cân bằng nghiêm trọng có làm mô hình học sai lệch không?
Có, vì mô hình có xu hướng ưu tiên lớp chiếm đa số.
4. Oversampling có giúp giảm hiểu nhầm từ Accuracy không?
Có, vì giúp mô hình học tốt hơn lớp thiểu số, làm các chỉ số đánh giá ổn định hơn.
Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.
Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.
Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.
Q4. AIO có gì khác những nơi khác?
Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: Cùng nhau học – cùng nhau khổ – cùng nhau lớn. Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.