Centroid (tâm cụm) trong K-Means được tính như thế nào?

Mở đầu – Vì sao nhiều bạn hay nhầm khi học K-Means?

Khi mới làm quen với Machine Learning, đặc biệt là các thuật toán phân cụm như K-Means, rất nhiều bạn thường hỏi:

“Centroid là điểm gì? Tính bằng cách nào? Có phải lấy điểm gần đúng hay dùng công thức đặc biệt không?”

Sự nhầm lẫn thường đến từ việc K-Means là thuật toán học không giám sát, không có nhãn, nên người học dễ cảm thấy mọi thứ trừu tượng. Nếu chỉ nhớ công thức, bạn rất dễ quên; nhưng nếu hiểu bản chất, bạn sẽ thấy thuật toán rất trực quan — đúng tinh thần của nhóm kiến thức Unsupervised trong Module 8 của chương trình AIO.

Centroid trong K-Means là gì?

Centroid (tâm cụm) là điểm đại diện cho một cụm dữ liệu.

Bạn có thể hình dung centroid như “tâm khối” của các điểm đang thuộc cùng một nhóm.

Những điểm quan trọng nhất:

Centroid không phải là một điểm có sẵn trong dữ liệu.
Nó được tính toán lại liên tục sau mỗi vòng lặp.

Vậy centroid trong K-Means được tính như thế nào?

Centroid được tính bằng trung bình cộng của tất cả các điểm thuộc cụm đó.

Đây là nguyên tắc cốt lõi của K-Means:
Thuật toán “kéo” các tâm cụm về vị trí trung bình của những điểm gần nó nhất.

Cách hiểu đơn giản

Gom tất cả các điểm thuộc cùng một cụm.
Tính trung bình cho từng chiều (x, y, z… hoặc n chiều).
Điểm trung bình chính là centroid mới của cụm.

Không có công thức phức tạp — chỉ là tính trung bình.

Ví dụ thực tế để dễ hình dung

Giả sử cụm có ba điểm 2D:

(2, 4)
(4, 6)
(6, 8)

Centroid mới sẽ được tính bằng:

Trung bình trục x
Trung bình trục y

Kết quả là một điểm nằm “giữa” ba điểm ban đầu, đại diện tốt hơn cho toàn bộ cụm.

Thuật toán tiếp tục cập nhật như vậy cho đến khi centroid gần như không thay đổi nữa (hội tụ).

Góc nhìn thực tế khi làm dự án AI/ML

Trong pipeline Unsupervised Learning (Module 8 + Module 4 – ML cơ bản), việc tính centroid chính xác ảnh hưởng lớn đến:

Chất lượng phân cụm
Tốc độ hội tụ
Độ ổn định mô hình
Khả năng giải thích kết quả

Một số tình huống thực tế:

Có outlier → centroid bị kéo lệch
Dữ liệu nhiều chiều → khó hình dung sự dịch chuyển
Ứng dụng: phân cụm khách hàng, phân đoạn thị trường, phân cụm ảnh…

Trong các trường hợp này, các bước tiền xử lý như chuẩn hóa dữ liệu (Module 3 – ETL) cực kỳ quan trọng vì giúp centroid đại diện chính xác hơn.

Liên hệ kiến thức nền

Để hiểu rõ K-Means và centroid, người học thường tiếp cận song song với các kiến thức:

Vector & không gian nhiều chiều (Module 1–2)
Euclidean distance trong ML cơ bản (Module 4)
Phân cụm trong NLP/CV (Module 9–10)
Embedding cho GenAI, RAG, vector search (Module 11)

Nhờ đó, việc hiểu centroid trở nên tự nhiên và dễ áp dụng hơn.

Lời khuyên cho người mới bắt đầu

Bạn có thể thử:

Tạo vài điểm nhỏ và tự tính centroid
Quan sát thuật toán thay đổi centroid sau mỗi vòng lặp
So sánh K-Means với K-Medoids để thấy sự khác biệt giữa “trung bình” và “điểm đại diện thật”

Những thử nghiệm này giúp hiểu bản chất mà không cần ghi nhớ công thức máy móc.

Kết luận

Centroid trong K-Means đơn giản là điểm trung bình của tất cả các điểm trong cùng một cụm, được cập nhật liên tục sau mỗi vòng lặp.

Hãy thử với một dataset nhỏ và quan sát sự dịch chuyển của centroid — đây là cách nhanh nhất để hiểu sâu thuật toán.

Hỏi đáp nhanh về chủ đề

Centroid có phải là một điểm thật trong dữ liệu không?
Không — đó là điểm trung bình, có thể không xuất hiện trong dataset.

Centroid có thay đổi liên tục không?
Có — mỗi vòng lặp K-Means đều cập nhật lại centroid.

Outlier có ảnh hưởng đến centroid không?
Có — đôi khi ảnh hưởng mạnh và làm cụm bị lệch.

K-Means có dùng công thức đặc biệt để tính centroid không?
Không — chỉ dùng trung bình cộng theo từng chiều.

FAQ về chương trình AIO

Q1. Con số 0 thì học nổi không?
Ans: Chỉ cần bạn có thời gian học. Điều quan trọng nhất không phải giỏi hay không, mà là có học đều mỗi ngày. Kiến thức – tài liệu – môi trường đã có team lo. Nếu bạn không có thời gian thì nên cân nhắc.

Q2. Ai dạy AIO?
Ans: Đội admin dạy toàn bộ. Admin trực tiếp hướng dẫn và hỗ trợ mọi câu hỏi của bạn trong suốt quá trình học.

Q3. Admin có “xịn” không?
Ans: Admin đều là người làm nghề thật, mỗi người một cách dạy. Quan trọng là bạn cảm thấy hợp cách truyền đạt. Admin không dám nói xịn, chỉ dạy bằng hết sức.

Q4. AIO có gì khác những nơi khác?
Ans: AIO không phải trung tâm. Đây là dự án học tập cộng đồng, được cải tiến qua từng khóa. Tinh thần của AIO: “Cùng nhau học – cùng nhau khổ – cùng nhau lớn.” Nếu hợp tinh thần đó, bạn sẽ thấy phù hợp.