Centroid (tâm cụm) trong K-Means được tính như thế nào?

Tác giả: AI VIET NAM (AI VIET NAM)

Keywords: centroid kmeans, tâm cụm kmeans, tính centroid, kmeans clustering

Mở đầu – Vì sao nhiều bạn hay nhầm khi học K-Means?

Khi mới làm quen với Machine Learning, đặc biệt là các thuật toán phân cụm như K-Means, rất nhiều bạn thường hỏi:

“Centroid là điểm gì? Tính bằng cách nào? Có phải lấy điểm gần đúng hay dùng công thức đặc biệt không?”

Sự nhầm lẫn chủ yếu xuất phát từ việc K-Means là thuật toán học không giám sát, không có nhãn, nên người học dễ cảm thấy mọi thứ trừu tượng. Nếu chỉ nhớ công thức, bạn rất dễ quên, nhưng nếu hiểu bản chất thì sẽ thấy mọi thứ khá trực quan — đúng tinh thần của các nhóm kiến thức Unsupervised trong Module 8 của chương trình học thuật AIO.

Centroid trong K-Means là gì?

Centroid (tâm cụm) là điểm đại diện cho một cụm dữ liệu.

Bạn có thể hình dung centroid như “tâm khối” của các điểm đang thuộc cùng một nhóm.

Điểm quan trọng nhất:

  • Centroid không phải là một điểm có sẵn trong dữ liệu.
  • Nó được tính toán lại liên tục trong từng vòng lặp.

Vậy centroid trong K-Means được tính như thế nào?

👉 Trả lời ngắn gọn:

Centroid được tính bằng cách lấy trung bình cộng của tất cả các điểm thuộc cụm đó.

Đây là nguyên tắc cơ bản nhất của K-Means — một thuật toán tối ưu dựa trên việc “kéo” các tâm cụm về vị trí trung bình của những điểm gần nó nhất.

Cách hiểu đơn giản

  • Gom tất cả các điểm thuộc cùng một cụm lại.
  • Tính giá trị trung bình theo từng chiều (
    x
    ,
    y
    ,
    z
    … hoặc
    n
    chiều).
  • Điểm trung bình này chính là centroid mới.

Ví dụ thực tế để dễ hình dung

Giả sử bạn có một cụm gồm ba điểm 2D:

(2, 4)

(4, 6)

(6, 8)

Centroid mới của cụm này đơn giản là:

  • trung bình của các giá trị trục x
  • trung bình của các giá trị trục y

Kết quả là một điểm nằm ở giữa ba điểm ban đầu.

Điều này giúp tâm cụm “đại diện” tốt hơn cho dữ liệu của cụm, và thuật toán tiếp tục chạy đến khi các tâm cụm gần như không thay đổi nữa.

Góc nhìn thực tế khi làm dự án AI/ML

Trong pipeline Unsupervised Learning (liên quan đến Module 8 – Semi/Unsupervised Learning và Module 4 – ML cơ bản), việc tính centroid chính xác có ảnh hưởng lớn đến:

  • chất lượng phân cụm
  • độ hội tụ
  • tốc độ thuật toán
  • độ ổn định của mô hình

Khi làm dự án thực tế, bạn thường gặp:

  • dữ liệu có outlier → centroid bị kéo lệch
  • dữ liệu nhiều chiều → việc tính trung bình khó hình dung
  • phân cụm khách hàng, phân cụm hình ảnh, phân đoạn thị trường…

Trong các trường hợp này, một số kỹ thuật như chuẩn hóa dữ liệu (kiến thức thuộc Module 3 – ETL & tiền xử lý) giúp centroid đại diện tốt hơn cho cấu trúc dữ liệu thật.

Liên hệ kiến thức nền

Người học AI khi tiếp cận K-Means thường đồng thời làm quen với:

  • các khái niệm vector & không gian nhiều chiều (Module 1–2)
  • distance metrics như Euclidean (trong ML cơ bản – Module 4)
  • nhận diện phân cụm trong NLP/CV (Module 9–10)
  • biểu diễn dữ liệu bằng embedding trong các ứng dụng GenAI (Module 11)

Nhờ kết hợp các nhóm kiến thức này, việc hiểu centroid trở nên tự nhiên và dễ ứng dụng trong nhiều bài toán khác nhau.

Lời khuyên nhẹ cho người mới bắt đầu

Bạn có thể thử:

  • tạo một tập điểm nhỏ và tự tính centroid bằng tay
  • xem thuật toán thay đổi centroid như thế nào sau từng vòng lặp
  • so sánh K-Means với K-Medoids để thấy rõ sự khác biệt giữa “trung bình” và “điểm đại diện thật”

Đây là cách đơn giản để hiểu sâu mà không cần nhớ công thức phức tạp.

Kết luận

Centroid trong K-Means được tính bằng trung bình cộng của tất cả các điểm trong cùng một cụm.

Nó được cập nhật liên tục qua từng vòng lặp để mô hình tìm ra vị trí đại diện tốt nhất.

Bạn có thể thử nghiệm với dữ liệu nhỏ để quan sát sự dịch chuyển của centroid — đây là cách trực quan giúp nắm rõ bản chất mà không cần ghi nhớ máy móc.

Tài nguyên học AI: