Theo dõi và quản lý thí nghiệm (Experiment Tracking) với MLflow và các công cụ tương tự

Tác giả: AI VIET NAM (ML engineer)

Keywords: ML engineer

Bạn đang hỏi kiểu: “Experiment tracking là gì, MLflow dùng để làm gì, em mới train vài model cơ bản thì có cần học không?”
Câu trả lời ngắn: Experiment tracking là cách ghi lại, quản lý và so sánh các lần train model. MLflow giúp việc này trở nên chuyên nghiệp và dễ tái lập hơn.

Trong bài này, bạn sẽ:

  • Hiểu experiment tracking dưới góc nhìn “người mới học ML hỏi ChatGPT”.
  • Biết tại sao mô hình càng phức tạp thì tracking càng quan trọng.
  • Biết bắt đầu MLflow ở mức đơn giản.
  • Hiểu cách AIO đưa tư duy tracking vào quá trình học 1 năm.

Experiment tracking là gì? Vì sao cần “theo dõi thí nghiệm”?

Khi mới học ML, bạn thường:

  • Train vài model
  • Thử vài hyperparameter
  • Nhớ sơ sơ kết quả
  • Nghĩ là mình kiểm soát được

Nhưng vài ngày sau sẽ gặp vấn đề:

  • Quên lần chạy đó dùng learning_rate bao nhiêu
  • Không nhớ dữ liệu đã xử lý theo phiên bản nào
  • Không tái lập được kết quả tốt hôm trước
  • Team hỏi: “Tại sao chọn model này?” → không có log để chứng minh

👉 Experiment tracking = ghi lại có hệ thống mọi lần thử của bạn:

  • Dataset
  • Tham số
  • Phiên bản code
  • Metric
  • Artifact (model, hình, file…)

Để:

  • So sánh các lần chạy
  • Tìm ra mô hình tốt nhất
  • Tái lập lại bất cứ lúc nào
  • Giải thích quyết định với team/business

Tracking “thủ công” → chỉ hữu ích ở mức nhỏ

Khi data/model đơn giản, bạn có thể ghi trong:

  • Excel
  • Google Sheet
  • Markdown “run1, run2, run3…”

Nhưng khi dự án lớn hơn → không thể làm thủ công.


MLflow là gì? Dùng để làm gì?

MLflow là gì ở mức dễ hiểu?

MLflow là một nền tảng mã nguồn mở giúp bạn:

  • Ghi lại quá trình train model
  • Log tham số
  • Log metric
  • Lưu artifact
  • Xem và so sánh các lần chạy trong UI

Mỗi lần train model = 1 run
Trong run bạn có thể log:

  • params: lr, max_depth, n_estimators…
  • metrics: accuracy, f1, rmse…
  • artifacts: model, biểu đồ loss, file config…

UI đơn giản – cực phù hợp để hiểu mô hình “đi lên hay đi xuống”

MLflow có giao diện web:

  • Danh sách run
  • Bộ lọc
  • So sánh metric
  • Nhìn nhanh xu hướng hyperparameter

Rất dễ dùng, không yêu cầu DevOps cao.

Các tool tương tự

  • Weights & Biases (W&B)
  • Neptune.ai
  • Comet ML

MLflow thường được chọn:

  • Dễ cài
  • Mã nguồn mở
  • Hợp cho local và team nhỏ

Khi nào người mới cần dùng MLflow?

Nếu bạn đang học ML cơ bản

Bạn chưa bắt buộc phải dùng MLflow ngay.
Nhưng nên hình thành 2 thói quen:

  • Biết “run” là gì
  • Ghi lại thử nghiệm, dù chỉ là file Excel/notes

Có thể thử MLflow khi bạn:

  • Làm project lớn hơn
  • So sánh nhiều mô hình
  • Dùng hyperparameter tuning

Nếu bạn muốn làm ML Engineer / Data Scientist

Bạn nên học MLflow sớm vì:

  • Team luôn cần tracking rõ ràng
  • MLOps yêu cầu tái lập
  • Khi deploy phải rõ model chạy production thuộc run nào
  • Dễ chứng minh kết quả khi phỏng vấn

Experiment tracking trong thực tế: Một ví dụ dễ hiểu

Bài toán: Dự đoán giá nhà

Bạn thử nhiều hướng:

  • Feature engineering kiểu A và B
  • Model: Linear, RF, XGBoost
  • Hyperparameters: depth, lr, tree count…

Bạn log vào MLflow:

  • data_version: A/B
  • model: XGBoost
  • params: learning_rate=0.1, depth=5
  • metric: RMSE = 0.245
  • artifact: file model.pkl, biểu đồ loss

Sau đó mở UI:

  • Sort theo RMSE → model nào tốt nhất?
  • Filter theo data_version → feature nào hữu ích?
  • So sánh các run theo bảng hoặc biểu đồ

Ra quyết định:

  • Chọn model X
  • Với cấu hình Y
  • Trên dữ liệu version B

Khoa học, minh bạch, tái lập được.


Experiment Tracking & MLOps: liên quan thế nào?

Experiment tracking là bước quan trọng trong pipeline MLOps:

  1. Training
  2. Tracking (params, metrics, artifacts)
  3. Model Registry
  4. Deploy
  5. Monitoring
  6. Retraining

Không tracking → MLOps gãy ngay từ bước 2.

Tracking chuẩn → bạn biết:

  • Model production là run nào
  • Khi retrain, model mới có tốt hơn không
  • Dữ liệu mới làm metric thay đổi ra sao

Hướng dẫn bắt đầu MLflow cho người mới (rất dễ)

1. Cài đặt

pip install mlflow