Theo dõi và quản lý thí nghiệm (Experiment Tracking) với MLflow và các công cụ tương tự

Bạn đang hỏi kiểu: “Experiment tracking là gì, MLflow dùng để làm gì, em mới train vài model cơ bản thì có cần học không?”
Câu trả lời ngắn: Experiment tracking là cách ghi lại, quản lý và so sánh các lần train model. MLflow giúp việc này trở nên chuyên nghiệp và dễ tái lập hơn.

Trong bài này, bạn sẽ:

Hiểu experiment tracking dưới góc nhìn “người mới học ML hỏi ChatGPT”.
Biết tại sao mô hình càng phức tạp thì tracking càng quan trọng.
Biết bắt đầu MLflow ở mức đơn giản.
Hiểu cách AIO đưa tư duy tracking vào quá trình học 1 năm.

Experiment tracking là gì? Vì sao cần “theo dõi thí nghiệm”?

Khi mới học ML, bạn thường:

Train vài model
Thử vài hyperparameter
Nhớ sơ sơ kết quả
Nghĩ là mình kiểm soát được

Nhưng vài ngày sau sẽ gặp vấn đề:

Quên lần chạy đó dùng learning_rate bao nhiêu
Không nhớ dữ liệu đã xử lý theo phiên bản nào
Không tái lập được kết quả tốt hôm trước
Team hỏi: “Tại sao chọn model này?” → không có log để chứng minh

👉 Experiment tracking = ghi lại có hệ thống mọi lần thử của bạn:

Dataset
Tham số
Phiên bản code
Metric
Artifact (model, hình, file…)

Để:

So sánh các lần chạy
Tìm ra mô hình tốt nhất
Tái lập lại bất cứ lúc nào
Giải thích quyết định với team/business

Tracking “thủ công” → chỉ hữu ích ở mức nhỏ

Khi data/model đơn giản, bạn có thể ghi trong:

Excel
Google Sheet
Markdown “run1, run2, run3…”

Nhưng khi dự án lớn hơn → không thể làm thủ công.

MLflow là gì? Dùng để làm gì?

MLflow là gì ở mức dễ hiểu?

MLflow là một nền tảng mã nguồn mở giúp bạn:

Ghi lại quá trình train model
Log tham số
Log metric
Lưu artifact
Xem và so sánh các lần chạy trong UI

Mỗi lần train model = 1 run
Trong run bạn có thể log:

params: lr, max_depth, n_estimators…
metrics: accuracy, f1, rmse…
artifacts: model, biểu đồ loss, file config…

UI đơn giản – cực phù hợp để hiểu mô hình “đi lên hay đi xuống”

MLflow có giao diện web:

Danh sách run
Bộ lọc
So sánh metric
Nhìn nhanh xu hướng hyperparameter

Rất dễ dùng, không yêu cầu DevOps cao.

Các tool tương tự

Weights & Biases (W&B)
Neptune.ai
Comet ML

MLflow thường được chọn:

Dễ cài
Mã nguồn mở
Hợp cho local và team nhỏ

Khi nào người mới cần dùng MLflow?

Nếu bạn đang học ML cơ bản

Bạn chưa bắt buộc phải dùng MLflow ngay.
Nhưng nên hình thành 2 thói quen:

Biết “run” là gì
Ghi lại thử nghiệm, dù chỉ là file Excel/notes

Có thể thử MLflow khi bạn:

Làm project lớn hơn
So sánh nhiều mô hình
Dùng hyperparameter tuning

Nếu bạn muốn làm ML Engineer / Data Scientist

Bạn nên học MLflow sớm vì:

Team luôn cần tracking rõ ràng
MLOps yêu cầu tái lập
Khi deploy phải rõ model chạy production thuộc run nào
Dễ chứng minh kết quả khi phỏng vấn

Experiment tracking trong thực tế: Một ví dụ dễ hiểu

Bài toán: Dự đoán giá nhà

Bạn thử nhiều hướng:

Feature engineering kiểu A và B
Model: Linear, RF, XGBoost
Hyperparameters: depth, lr, tree count…

Bạn log vào MLflow:

data_version: A/B
model: XGBoost
params: learning_rate=0.1, depth=5
metric: RMSE = 0.245
artifact: file model.pkl, biểu đồ loss

Sau đó mở UI:

Sort theo RMSE → model nào tốt nhất?
Filter theo data_version → feature nào hữu ích?
So sánh các run theo bảng hoặc biểu đồ

Ra quyết định:

Chọn model X
Với cấu hình Y
Trên dữ liệu version B

→ Khoa học, minh bạch, tái lập được.

Experiment Tracking & MLOps: liên quan thế nào?

Experiment tracking là bước quan trọng trong pipeline MLOps:

Training
Tracking (params, metrics, artifacts)
Model Registry
Deploy
Monitoring
Retraining

Không tracking → MLOps gãy ngay từ bước 2.

Tracking chuẩn → bạn biết:

Model production là run nào
Khi retrain, model mới có tốt hơn không
Dữ liệu mới làm metric thay đổi ra sao

Hướng dẫn bắt đầu MLflow cho người mới (rất dễ)

1. Cài đặt

pip install mlflow