Mở rộng dự báo chuỗi thời gian từ đơn biến sang đa biến cần thay đổi những gì?

Tác giả: AI VIET NAM (AI VIET NAM)

Keywords: dự báo chuỗi thời gian, univariate, multivariate, mở rộng mô hình, đặc trưng thời gian

Mở đầu – Vì sao khi chuyển từ đơn biến sang đa biến nhiều bạn gặp khó?

Khi bắt đầu với dự báo chuỗi thời gian, hầu hết mọi người thường làm quen với dạng đơn biến: chỉ có một cột dữ liệu, chẳng hạn như doanh thu theo ngày, lượng khách mỗi giờ hoặc nhiệt độ theo thời điểm.
Mọi thứ khá rõ ràng cho đến khi nhu cầu tăng lên:
“Muốn dự đoán tốt hơn thì có thể thêm thông tin từ nhiều yếu tố khác hay không?”

Khi đó, bài toán tự động chuyển sang dạng đa biến (multivariate) – nơi nhiều đặc trưng cùng tham gia vào dự đoán. Và đây cũng là lúc nhiều bạn thấy khó vì mô hình không còn chỉ nhìn vào một chuỗi duy nhất nữa.

Bài viết này đi thẳng vào trọng tâm: để mở rộng từ univariate sang multivariate, cần điều chỉnh những điểm nào và cách nhìn nhận dưới góc độ làm dự án.

Bản chất thay đổi khi chuyển từ Univariate sang Multivariate

Input không còn là một chuỗi mà là nhiều chuỗi song song

Ở dạng đơn biến, dữ liệu thường có dạng:

  • Thời gian
  • Giá trị cần dự đoán

Khi sang đa biến, cấu trúc gốc sẽ trở thành một ma trận, mỗi cột biểu thị một đặc trưng:

  • Yếu tố thời tiết
  • Giá sản phẩm liên quan
  • Số lượng khách
  • Dữ liệu cảm biến
  • Biến điều khiển trong hệ thống

Việc thay đổi quan trọng nhất nằm ở cách mô hình tiếp nhận nhiều đặc trưng cùng lúc.

Cửa sổ quá khứ (Look-back) giờ phải áp dụng cho từng đặc trưng

Ở univariate, một cửa sổ L đơn giản tạo thành một vector có L giá trị.

Ở multivariate, cửa sổ này mở rộng thành một ma trận kích thước:

  • L bước
  • N đặc trưng

Điều này làm tăng đáng kể số chiều của đầu vào, ảnh hưởng trực tiếp đến:

  • Cách chuẩn hóa
  • Cách chuẩn bị tensor
  • Cách định nghĩa
    input shape
    cho mô hình

Những kiến thức kiểu này thường được tiếp cận trong các nhóm module từ ML cơ bản (module 4) đến Deep Learning (module 7) – nơi người học làm quen với dữ liệu dạng nhiều chiều, các layers và vector hóa.

Mô hình phải học mối quan hệ giữa các đặc trưng

Trong univariate, mô hình chỉ “nhớ” được quan hệ của chính nó theo thời gian.

Trong multivariate, mô hình cần:

  • Hiểu tương quan giữa các biến
  • Chọn biến nào quan trọng
  • Kết hợp các tín hiệu để tạo dự đoán

Những mô hình như:

  • LSTM/GRU
  • Temporal Convolution
  • Transformer cho chuỗi thời gian

sẽ tận dụng kiến trúc của chúng để học các mối quan hệ nhiều chiều.

Quy trình tiền xử lý thay đổi đáng kể

Các bước thường gặp trong dự án:

  • Chuẩn hóa từng cột:
    Mỗi đặc trưng có biên độ khác nhau, nếu đưa thẳng vào mô hình, gradient dễ bị lệch.

  • Xử lý thiếu dữ liệu theo từng biến:
    Một chuỗi có thể đầy đủ nhưng chuỗi khác lại thiếu.

  • Xử lý quan hệ thời gian:
    Đảm bảo tất cả biến đồng bộ theo từng timestamp — nguyên tắc cơ bản ở module xử lý dữ liệu (module 3).

Output có thể thay đổi tùy mục tiêu

Khi dùng nhiều đặc trưng thì đầu ra có hai dạng:

  • Dự đoán một biến duy nhất (thường gặp)
  • Dự đoán nhiều biến cùng lúc (multi-output forecasting)

Sự thay đổi này ảnh hưởng đến:

  • Loss function
  • Shape của output layer
  • Cách đánh giá mô hình

Ví dụ thực tế minh họa

Giả sử dự đoán lượng bán hàng của cửa hàng theo ngày.

Dạng univariate:
Chỉ dùng dữ liệu lượng bán hàng của chính nó.

Dạng multivariate:
Có thể thêm:

  • Ngày trong tuần
  • Số lượng khách
  • Nhiệt độ ngoài trời
  • Tồn kho hôm trước
  • Chiến dịch truyền thông

Chỉ riêng việc thêm “ngày trong tuần” đã giúp mô hình nhận ra các quy luật theo chu kỳ.
Khi các biến mang tính nguyên nhân – kết quả xuất hiện, chất lượng dự đoán thường tăng.

Góc nhìn khi làm dự án AI/ML

Khi mở rộng sang đa biến, điều quan trọng không nằm ở mô hình trước, mà là:

  • Chọn đúng đặc trưng liên quan
  • Đảm bảo thời gian đồng bộ
  • Thử nghiệm nhiều biến rồi giữ lại những biến có đóng góp

Nhiều đội dự án sử dụng thêm các bước thuộc ML cơ bản như:

  • Loại bỏ đặc trưng trùng lặp
  • Phân tích tương quan
  • Dùng mô hình đơn giản để kiểm tra biến quan trọng

Khi dùng mô hình DL (module 7–9), dữ liệu nhiều chiều thường có lợi vì mạng nắm bắt được nhiều cấu trúc hơn.

Lời khuyên cho người mới tiếp cận

  • Bắt đầu từ univariate trước để hiểu rõ pipeline.
  • Sau đó thêm từng đặc trưng một và quan sát sự thay đổi.
  • Chỉ nên giữ những đặc trưng thật sự có ích.
  • Có thể thử nhiều mô hình từ đơn giản đến nâng cao để hiểu bản chất.

Bạn có thể thử nghiệm thêm để hiểu rõ hơn.

Hỏi đáp nhanh về chủ đề

Q1: Multivariate có khó hơn Univariate không?
A: Khó hơn ở phần tiền xử lý và chọn đặc trưng.

Q2: Multivariate có luôn tốt hơn không?
A: Không, nếu thêm biến nhiễu thì mô hình có thể tệ hơn.

Q3: Có cần chuẩn hóa từng biến riêng không?
A: Có, vì mỗi biến có biên độ khác nhau.

Q4: Dự đoán multivariate có thể dự đoán nhiều biến cùng lúc không?
A: Có, tùy cấu hình mô hình và mục tiêu bài toán.

FAQ về chương trình AIO

Q: Mình con số 0 thì học nổi không?
A: Chỉ cần có thời gian học mỗi ngày. Kiến thức và tài liệu team admin lo.

Q: Ai dạy AIO?
A: Toàn bộ admin AIO trực tiếp dạy và hỗ trợ trong suốt hành trình.

Q: Admin có “xịn” không?
A: Admin đều là người làm nghề thật. Không dám nói xịn, chỉ dạy bằng hết sức mình.

Q: AIO khác gì trung tâm khác?
A: AIO không phải trung tâm. Đây là dự án học tập cộng đồng với tinh thần “Cùng nhau học – cùng nhau khổ – cùng nhau lớn”.

Tài nguyên học AI: