Z-score Scaling (Standardization) khác gì Min-Max Scaling?

Giới thiệu

Khi bắt đầu làm Machine Learning, nhiều bạn thường bối rối ở bước tiền xử lý dữ liệu:
“Nên dùng Z-score hay Min-Max? Chúng khác gì nhau? Khi nào nên dùng cái nào?”

Sự lúng túng này rất phổ biến vì scaling là kỹ thuật thuộc nhóm kiến thức nền trong ML, nhưng lại ảnh hưởng trực tiếp đến chất lượng mô hình. Bài viết dưới đây giúp bạn phân biệt hai phương pháp này theo cách gọn, dễ hiểu và gắn với thực tế dự án.

Vì sao cần chuẩn hóa dữ liệu?

Các thuật toán ML như Logistic Regression, KNN, SVM, PCA… đều hoạt động trong không gian nhiều chiều.
Nếu các đặc trưng có đơn vị đo quá khác nhau:

Đặc trưng lớn sẽ áp đảo đặc trưng nhỏ
Gradient khó hội tụ
Mô hình học sai trọng số và quan hệ

Vì vậy, chuẩn hóa là bước quan trọng trong pipeline — một kỹ năng quen thuộc trong ML cơ bản, ETL và feature engineering.

Min-Max Scaling là gì?

Min-Max Scaling biến dữ liệu về khoảng cố định, phổ biến nhất là từ 0 đến 1.

Cách hiểu đơn giản:

-Giá trị nhỏ nhất → 0

Giá trị lớn nhất → 1
Các giá trị còn lại được “co giãn” theo tỉ lệ

Min-Max giữ hình dạng phân phối, nhưng thay đổi phạm vi.

Z-score Scaling (Standardization) là gì?

Z-score đưa dữ liệu về dạng:

Trung bình = 0
Độ lệch chuẩn = 1

Cách hình dung:

Không ép vào khoảng cố định
Đặt dữ liệu về tâm → xem mỗi điểm lệch trung bình bao nhiêu độ lệch chuẩn
Phù hợp khi dữ liệu có phân phối bất định hoặc chứa outlier nhẹ

Khác nhau ở bản chất

Khía cạnh	Min-Max Scaling	Z-score Scaling
Phạm vi sau chuẩn hóa	Cố định (0–1 hoặc 0–a)	Không cố định
Ảnh hưởng của outlier	Nhạy, dễ bị kéo giãn	Ổn định hơn
Giữ nguyên phân phối	Có	Có nhưng dịch tâm & thay đổi độ trải
Phù hợp cho	Dữ liệu sạch, mô hình cần đầu vào cố định	Mô hình dùng khoảng cách, gradient

Ví dụ dễ hình dung

Giả sử có 2 đặc trưng:

“Diện tích”: 30 → 200
“Số phòng”: 1 → 4

Nếu không scaling → diện tích có biên độ quá lớn và áp đảo mô hình.

Min-Max → đưa cả hai về 0–1 → giữ hình dạng dữ liệu
Z-score → chuẩn hóa theo độ lệch chuẩn → phù hợp khi dữ liệu không sạch

Khi làm dự án AI/ML, nên dùng cái nào?

Khi nào nên dùng Min-Max?

Neural Networks dùng sigmoid/tanh
Cần dữ liệu nằm trong range cố định
Dữ liệu không có outlier mạnh
Muốn giữ nguyên hình dạng phân phối

Khi nào nên dùng Z-score?

Các mô hình dựa trên khoảng cách: KNN, K-means
Thuật toán tối ưu hóa gradient: Linear/Logistic Regression
Dữ liệu có phân phối bất định hoặc hơi nhiễu
Xử lý dữ liệu nhiều chiều (Pre-DL, DL1–DL2)

Liên hệ đến kiến thức trong lộ trình AI

ETL – Data Engineering: chuẩn hóa nằm trong quy trình làm sạch dữ liệu
Feature engineering: scaling giúp mô hình ổn định
ML1–ML2: nhiều thuật toán rất nhạy với độ lớn feature
Deep Learning: normalization giúp gradient ổn định
Vision/NLP: nhiều pipeline dùng normalization trước khi training

Những kiến thức này kết nối với nhau, giúp bạn thấy scaling không phải “bước phụ”, mà là phần lõi của quy trình ML.

Lời khuyên cho người mới bắt đầu

Thử áp dụng cả hai phương pháp trên dataset nhỏ để thấy sự khác biệt
Quan sát phân phối feature trước khi chọn cách scaling
Trải nghiệm với nhiều mô hình để cảm nhận ảnh hưởng của scaling đến quá trình học

Những thử nghiệm đơn giản này giúp xây dựng trực giác ML rất tốt.

Hỏi đáp nhanh về chủ đề

Min-Max có phù hợp với dữ liệu có outlier không?
Không — outlier sẽ kéo giãn toàn bộ thang đo.

Z-score có đưa dữ liệu về khoảng cố định không?
Không — giá trị có thể vượt ngoài ±3.

Min-Max có giữ nguyên phân phối không?
Có — chỉ thay đổi phạm vi.

KNN có cần scaling không?
Có — vì dựa hoàn toàn vào khoảng cách.

FAQ về chương trình AIO

Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.

Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.

Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.

Q4. AIO có gì khác những nơi khác?
Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: Cùng nhau học – cùng nhau khổ – cùng nhau lớn. Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.