Nội dung bài viết

1. Dự án dự đoán ô nhiễm môi trường là gì?
1.1. Một bài toán cụ thể – không nói cho “oách”
2. Vì sao dự án ô nhiễm là bài toán phù hợp cho Newbie?
3. Cần chuẩn bị kiến thức gì trước khi bắt đầu?
4. Bước 1: Hiểu bài toán & chọn chỉ số cần dự đoán
4.1. Bạn cần làm rõ:
5. Bước 2: Thu thập dữ liệu ô nhiễm
5.1. Với Newbie, nên bắt đầu từ nguồn:
5.2. Mục tiêu:
6. Bước 3: Làm sạch dữ liệu Time-Series
6.1. Việc bạn cần làm:
7. Bước 4: EDA cho chuỗi thời gian
7.1. Hãy trả lời:
7.2. Công cụ:
8. Bước 5: Xây các mô hình baseline đơn giản
8.1. Một số baseline cực quan trọng:
8.2. Vì sao baseline quan trọng?
9. Bước 6: Thử các mô hình Time-Series “kinh điển”
9.1. Nếu bạn mới:
9.2. Nếu đã quen ML:
9.3. Nếu muốn thử Deep Learning:
10. Bước 7: Đánh giá mô hình & trình bày kết quả
10.1. Metric phù hợp:
10.2. Bạn nên:
11. Dự án ô nhiễm nằm ở đâu trong lộ trình AIO?
11.1. AIO2026 – chương trình AI & DS 1 năm cho Newbie & Non-Tech
11.2. Case ô nhiễm dành cho:
11.3. Học viên được mentor:
12. Học thế nào nếu bạn ở từng level?
12.1. Nếu bạn là Newbie:
12.2. Nếu đã biết ML:
12.3. Nếu bạn đi làm full-time:
13. FAQ về dự án ô nhiễm & AIO
13.1. 1. Người hoàn toàn mới có làm dự án này được không?
13.2. 2. Time-Series có cần nhiều Toán không?
13.3. 3. Học xong AIO có làm trong ngành môi trường được không?
13.4. 4. Có cần GPU không?
13.5. 5. Dự án ô nhiễm có dùng được trong ngành khác không?
14. Tài nguyên học thêm

© 2025 AI VIET NAM. All rights reserved.

Làm dự án dự đoán ô nhiễm môi trường: từ dữ liệu thô đến mô hình Time-Series

Tác giả: AI VIET NAM (học Data Science từ 0)

Keywords: học Data Science từ 0

“Làm dự án dự đoán ô nhiễm môi trường có quá sức với người mới không?”
Không, nếu bạn biết chia nhỏ bài toán, chọn công cụ phù hợp và làm theo quy trình từng bước.

Trong bài này, bạn sẽ:

  • Hiểu bài toán dự đoán ô nhiễm môi trường là gì
  • Nắm quy trình 7 bước từ dữ liệu thô → mô hình → báo cáo
  • Thấy cách AIO thiết kế case study ô nhiễm cho Newbie & Non-Tech

Dự án dự đoán ô nhiễm môi trường là gì?

Một bài toán cụ thể – không nói cho “oách”

Bạn cần dự đoán các chỉ số như:

  • PM2.5, PM10, AQI vài giờ hoặc vài ngày tới
  • Hoặc dự đoán xu hướng tăng/giảm thay vì dự đoán giá trị chính xác

Ví dụ bài toán:

  • Dự báo AQI ngày mai dựa trên 7–30 ngày gần nhất
  • Dự báo PM2.5 của giờ tiếp theo dựa trên vài chục giờ trước đó

Điều quan trọng không phải mô hình “xịn”, mà là:

  • Hiểu dữ liệu
  • Làm pipeline rõ ràng
  • Giải thích được “tại sao mô hình này hữu ích”

Vì sao dự án ô nhiễm là bài toán phù hợp cho Newbie?

Mặc dù nghe “vĩ mô”, nhưng thực tế rất vừa sức vì:

  • Dữ liệu dễ hiểu: ai cũng hiểu ô nhiễm cao/thấp
  • Time-series: áp dụng cho nhiều bài toán thực tế (dự báo doanh thu, thời tiết, traffic…)
  • Linh hoạt độ khó:
    • Mức dễ: EDA + baseline
    • Mức trung bình: ARIMA, Prophet
    • Mức nâng cao: LSTM, TCN, Transformer

Trong AIO, bài này được dạy sau khi học viên đã có:

  • Python cơ bản
  • Kỹ năng Pandas + EDA
  • Hiểu ML và vài dự án tabular

Cần chuẩn bị kiến thức gì trước khi bắt đầu?

Bạn nên có:

  • Python cơ bản: list, dict, loop, function
  • Pandas: đọc CSV, xử lý cột, groupby
  • Vẽ biểu đồ: line chart, bar chart
  • Toán nhẹ: mean, variance, moving average

Trong AIO, phần Pre-AIO giúp bạn:

  • Ôn Python
  • Ôn Toán
  • Học nền CS vừa đủ để bắt đầu xử lý dữ liệu thật

Bước 1: Hiểu bài toán & chọn chỉ số cần dự đoán

Câu hỏi đúng giúp bạn tiết kiệm 50% thời gian.

Bạn cần làm rõ:

  • Dự đoán AQI, PM2.5, PM10, hay ozone?
  • Dự đoán bao lâu: 1 giờ? 6 giờ? 1 ngày?
  • Mục tiêu ứng dụng:
    • Cảnh báo người dân
    • Hỗ trợ quy hoạch môi trường
    • Làm portfolio

Lựa chọn này quyết định:

  • Loại dữ liệu
  • Độ phân giải thời gian (giờ/ngày/tuần)
  • Loại mô hình

Bước 2: Thu thập dữ liệu ô nhiễm

Với Newbie, nên bắt đầu từ nguồn:

  • File CSV có sẵn từ open data
  • Dataset trên Kaggle, UCI
  • Dữ liệu gồm:
    timestamp, PM2.5, PM10, AQI, temperature, humidity

Mục tiêu:

  • Có dataset nhỏ, rõ ràng
  • Có timestamp sạch và liên tục

Bước 3: Làm sạch dữ liệu Time-Series

Time-series thường “xấu xí”:

  • Missing value
  • Outlier
  • Timestamp không đều

Việc bạn cần làm:

  • Chuyển
    timestamp
    → datetime
  • Sort theo thời gian
  • Resample (nếu cần):
    • Phút → giờ
    • Giờ → ngày
  • Xử lý missing:
    • Forward fill
    • Interpolation
    • Bỏ mẫu (nếu ít)

Đây là phần luyện Pandas cực tốt cho Newbie.


Bước 4: EDA cho chuỗi thời gian

Trước khi dự báo, hãy “lắng nghe câu chuyện” của dữ liệu.

Hãy trả lời:

  • Xu hướng (trend) thay đổi ra sao?
  • Có mùa vụ (seasonality) không?
  • Giờ cao điểm khác gì giờ đêm?
  • Ngày thường vs cuối tuần khác nhau không?

Công cụ:

  • Line chart
  • Group theo giờ/ngày/tháng
  • Thống kê: mean, median, quantile

EDA là nền tảng để chọn mô hình phù hợp.


Bước 5: Xây các mô hình baseline đơn giản

Đừng lao vào Deep Learning.

Một số baseline cực quan trọng:

  • Naive Forecast: giá trị sau bằng giá trị hiện tại
  • Moving Average
  • Seasonal Naive (nếu có chu kỳ)

Vì sao baseline quan trọng?

  • Mô hình cao cấp phải better than baseline
  • Giúp bạn hiểu độ khó của bài toán
  • Hoàn toàn làm được bằng Pandas

Bước 6: Thử các mô hình Time-Series “kinh điển”

Tùy nền tảng của bạn:

Nếu bạn mới:

  • ARIMA, SARIMA
    → đủ để hiểu Time-Series cơ bản

Nếu đã quen ML:

  • Chuyển time-series → supervised learning
  • Dùng:
    • Random Forest
    • XGBoost

Nếu muốn thử Deep Learning:

  • LSTM / GRU
  • 1D-CNN
  • Transformer cho Time-Series

Trong AIO, các mô hình nâng cao được giới thiệu sau khi học viên vững ML tabular.


Bước 7: Đánh giá mô hình & trình bày kết quả

Metric phù hợp:

  • MAE – sai số dễ hiểu nhất
  • RMSE – phạt nặng sai số lớn
  • MAPE – sai số theo % (tránh khi có giá trị = 0)

Bạn nên:

  • Vẽ prediction vs real
  • Zoom vào 7–14 ngày để xem mô hình bám trend
  • Viết README gồm:
    • Bài toán
    • Dữ liệu
    • Pipeline
    • Kết quả
    • Hạn chế

Trong AIO, mentor hướng dẫn cách viết báo cáo đúng chuẩn portfolio.


Dự án ô nhiễm nằm ở đâu trong lộ trình AIO?

AIO2026 – chương trình AI & DS 1 năm cho Newbie & Non-Tech

  • Học live online buổi tối
  • Yêu cầu cam kết ≥ 28h/tuần
  • Không hứa việc làm, nhưng cam kết kiến thức thật
  • Portfolio 20+ dự án

Case ô nhiễm dành cho:

  • Học viên đã qua:
    • Python
    • Toán
    • SQL, EDA
    • ML tabular
  • Bắt đầu học Time-Series

Học viên được mentor:

  • Gợi ý phạm vi
  • Review code
  • Góp ý biểu đồ
  • Hướng dẫn viết báo cáo

Học thế nào nếu bạn ở từng level?

Nếu bạn là Newbie:

  • Làm đến baseline + EDA là đủ
  • Chưa cần LSTM/ARIMA phức tạp

Nếu đã biết ML:

  • Thử XGBoost cho forecasting
  • So sánh với ARIMA/Prophet

Nếu bạn đi làm full-time:

  • Chia dự án theo tuần:
    • Tuần 1: Data
    • Tuần 2: EDA
    • Tuần 3: Model
    • Tuần 4: Báo cáo

FAQ về dự án ô nhiễm & AIO

1. Người hoàn toàn mới có làm dự án này được không?

Có — nếu đi đúng lộ trình (Pre-AIO → ML → Time-Series).

2. Time-Series có cần nhiều Toán không?

Không ở mức Newbie. Chỉ cần thống kê cơ bản.

3. Học xong AIO có làm trong ngành môi trường được không?

AIO không hứa việc làm, nhưng bạn sẽ có portfolio mạnh để ứng tuyển.

4. Có cần GPU không?

Không — trừ khi chạy Deep Learning nặng.

5. Dự án ô nhiễm có dùng được trong ngành khác không?

Có — quy trình tương tự dự báo doanh thu, web traffic, demand…


Tài nguyên học thêm