Tại sao EDA (phân tích dữ liệu khám phá) lại là bước quan trọng trước khi xây mô hình?

“Tại sao phải làm EDA, không nhảy thẳng vào train model luôn được à?”
Câu trả lời ngắn: bỏ EDA = train model trên dữ liệu bẩn, sai hoặc lệch → mọi kết quả đều đáng ngờ.

Trong bài này, bạn sẽ hiểu:

EDA là gì theo cách đời thường nhất
Chuyện gì xảy ra nếu bạn “bỏ qua” EDA
EDA giúp bạn trả lời những câu hỏi nào trước khi dám xây mô hình
EDA được rèn thế nào trong AIO – chương trình AI & Data Science 1 năm dành cho Newbie & Non-Tech

EDA là gì nếu nói theo kiểu đời thường?

Không phải “vẽ vài cái chart cho đẹp slide”

Rất nhiều bạn nghĩ EDA = plot vài cái biểu đồ… cho đúng thủ tục.

Thực ra EDA là:

👉 “Làm quen với dữ liệu như làm quen với một con người.”
Trước khi nhờ nó giúp mình (train model), bạn phải biết:

Nó gồm những gì (schema, số dòng, số cột, kiểu dữ liệu)
Nó đang có vấn đề gì (thiếu, sai, nhiễu, bất thường)
Nó kể câu chuyện gì (phân phối, pattern, trend, outlier)

EDA bao gồm:

Nhìn tổng quan dataset
Kiểm tra missing value, outlier, duplicate
Kiểm tra phân phối feature & target
Tìm mối quan hệ feature ↔ feature, feature ↔ target
Đặt giả thuyết trước khi modeling

Sau EDA, bạn phải trả lời được:

👉 “Dữ liệu này đã sẵn sàng để đưa vào model chưa?”

Nếu bỏ qua EDA và nhảy thẳng vào model thì sao?

Những “tai nạn nghề” cực phổ biến:

Dữ liệu bẩn → mô hình học rác

Missing value hàng loạt
Dòng trùng lặp
Giá trị bất thường (giá nhà = 0, tuổi = 200…)

Data leakage (rò rỉ dữ liệu)

Ví dụ kinh điển: dùng cột "ngày thanh toán" để dự đoán “khả năng thanh toán”.

→ Accuracy 99% nhưng… vô dụng khi triển khai thật.

Phân phối train/test lệch nhau

Train 2020–2022, test tháng 1/2023 hành vi rất khác → model vỡ trận.

Target mất cân bằng

95% class 0 → model đoán toàn 0, accuracy 95% → tưởng ngon, nhưng sai bản chất.

Hiểu sai bài toán business

Không làm EDA → chọn sai metric, sai hướng giải, sai kỳ vọng.

➡️ EDA giúp bạn phát hiện tất cả các lỗi trên trước khi mất hàng giờ train model.

EDA giúp trả lời những câu hỏi quan trọng nào?

Dữ liệu sạch chưa? Có đủ xài không?

Bạn sẽ kiểm tra:

Cột nào thiếu nhiều, thiếu theo pattern?
Outlier nào là “lỗi nhập liệu”, cái nào là tín hiệu thật?
Dữ liệu có trùng không?

Nếu không biết dữ liệu bẩn ở đâu → mô hình học cả lỗi.

Bài toán ML mình đang làm có hợp lý không?

EDA giúp bạn xác định:

Target có phân phối ổn không?
Bài toán classification có bị lệch lớp quá nặng không?
Feature có chứa đủ thông tin không?

Có những lúc EDA cho bạn câu trả lời bất ngờ:

“Dataset này không đủ để dự báo, chỉ đủ để mô tả.”

Mối quan hệ sơ bộ giữa các biến trông ra sao?

EDA giúp bạn:

Phát hiện feature có tín hiệu
Phát hiện feature noise
Kiểm tra multicollinearity
Đưa ra vài giả thuyết sơ bộ

Ví dụ:

“Nhà gần trung tâm giá cao hơn rõ.”
“Khách từ kênh A churn nhiều hơn.”

Đây là trực giác dữ liệu, cực quan trọng để giải thích model sau này.

Dữ liệu này đã giống bối cảnh triển khai thật chưa?

Bạn cần biết:

Data thu thập thế nào?
Có đại diện cho tương lai không?
Train/test nên chia theo thời gian hay random?

EDA giúp bạn xác định mức độ generalization của mô hình.

EDA là “tư duy cẩn thận với dữ liệu”, không chỉ là kỹ thuật

Người mới hay mắc 2 lỗi:

❌ Bỏ qua EDA

“Em train model luôn cho nhanh.”

→ Kết quả đẹp nhưng mô hình hoàn toàn… hên xui.

❌ Làm EDA quá nhiều

Vẽ 20 biểu đồ, 50 bảng thống kê → nhưng không biết để làm gì.

EDA vừa đủ cho người mới:

Kiểm tra tổng quan
Missing/outlier/duplicate
Histogram, barplot, boxplot
Scatter hoặc correlation basic
Viết lại 4–6 nhận xét rõ ràng

EDA không phải luận văn, mà là “khám sức khỏe tổng quát” cho dữ liệu.

Người mới cần làm EDA đến mức nào?

Đủ trả lời:

“Dữ liệu có sạch không?”
“Target có ổn không?”
“Có hypothesis nào đáng test không?”
“Có vấn đề gì nghiêm trọng trước khi train?”

Không cần:

100 biểu đồ
Phân tích thống kê nâng cao
Báo cáo dày 40 trang

Một EDA chuẩn Newbie chỉ cần code + vài nhận xét ngắn, rõ, đúng trọng tâm.

EDA trong AIO – được rèn như thế nào?

AIO2026 (1 năm – AI & Data Science cho Newbie & Non-Tech) dạy EDA theo cách:

Không dạy lý thuyết rời rạc

Thay vì:

“Đây là histogram. Đây là bar chart.”

AIO cho bạn trực tiếp:

EDA trên dữ liệu thật: Airbnb, ô nhiễm, khách hàng…
Viết nhận xét
Đặt giả thuyết
Thảo luận với mentor:
- Cột nào giữ?
- Cột nào bỏ?
- Feature nào nên tạo thêm?

EDA xuyên suốt toàn lộ trình:

Mức Data & Pandas
ML cơ bản
Time-Series
CV/NLP (ở mức phù hợp)
Tất cả 22+ dự án

Học viên phải:

Thực sự làm
Thực sự viết
Thực sự hiểu

Không “chạy code cho có”.

AIO yêu cầu cam kết ≥ 28h/tuần → đủ thời gian để EDA trở thành kỹ năng thật.

FAQ – Câu hỏi thường gặp về EDA

Dataset Kaggle đã sạch, có cần EDA không?

Có.
Dataset sạch ≠ bạn hiểu dataset.

EDA nên kéo dài bao lâu?

Newbie:

Mini-project: 1–2 buổi
Project vừa: ~1 tuần

Nếu làm EDA 1 tháng → bạn đang quá sa đà.

Có thể làm EDA bằng Excel/BI không?

Có ở mức cơ bản.
Nhưng để đi xa với ML → cần Pandas + Python.

EDA có cần Toán cao siêu không?

Không.
Chỉ cần thống kê mô tả đơn giản + tư duy phân tích.

Team khác đã xử lý dữ liệu rồi, mình có thể bỏ qua EDA không?

Không.
Bạn vẫn phải EDA dataset mà bạn feed vào model.