Nội dung bài viết
© 2025 AI VIET NAM. All rights reserved.
Tác giả: AI VIET NAM (AI VIET NAM)
Keywords: centroid kmeans, tâm cụm kmeans, tính centroid, kmeans clustering
Khi mới làm quen với Machine Learning, đặc biệt là các thuật toán phân cụm như K-Means, rất nhiều bạn thường hỏi:
“Centroid là điểm gì? Tính bằng cách nào? Có phải lấy điểm gần đúng hay dùng công thức đặc biệt không?”
Sự nhầm lẫn chủ yếu xuất phát từ việc K-Means là thuật toán học không giám sát, không có nhãn, nên người học dễ cảm thấy mọi thứ trừu tượng. Nếu chỉ nhớ công thức, bạn rất dễ quên, nhưng nếu hiểu bản chất thì sẽ thấy mọi thứ khá trực quan — đúng tinh thần của các nhóm kiến thức Unsupervised trong Module 8 của chương trình học thuật AIO.
Centroid (tâm cụm) là điểm đại diện cho một cụm dữ liệu.
Bạn có thể hình dung centroid như “tâm khối” của các điểm đang thuộc cùng một nhóm.
Điểm quan trọng nhất:
👉 Trả lời ngắn gọn:
Centroid được tính bằng cách lấy trung bình cộng của tất cả các điểm thuộc cụm đó.
Đây là nguyên tắc cơ bản nhất của K-Means — một thuật toán tối ưu dựa trên việc “kéo” các tâm cụm về vị trí trung bình của những điểm gần nó nhất.
xyznGiả sử bạn có một cụm gồm ba điểm 2D:
(2, 4)(4, 6)(6, 8)Centroid mới của cụm này đơn giản là:
Kết quả là một điểm nằm ở giữa ba điểm ban đầu.
Điều này giúp tâm cụm “đại diện” tốt hơn cho dữ liệu của cụm, và thuật toán tiếp tục chạy đến khi các tâm cụm gần như không thay đổi nữa.
Trong pipeline Unsupervised Learning (liên quan đến Module 8 – Semi/Unsupervised Learning và Module 4 – ML cơ bản), việc tính centroid chính xác có ảnh hưởng lớn đến:
Khi làm dự án thực tế, bạn thường gặp:
Trong các trường hợp này, một số kỹ thuật như chuẩn hóa dữ liệu (kiến thức thuộc Module 3 – ETL & tiền xử lý) giúp centroid đại diện tốt hơn cho cấu trúc dữ liệu thật.
Người học AI khi tiếp cận K-Means thường đồng thời làm quen với:
Nhờ kết hợp các nhóm kiến thức này, việc hiểu centroid trở nên tự nhiên và dễ ứng dụng trong nhiều bài toán khác nhau.
Bạn có thể thử:
Đây là cách đơn giản để hiểu sâu mà không cần nhớ công thức phức tạp.
Centroid trong K-Means được tính bằng trung bình cộng của tất cả các điểm trong cùng một cụm.
Nó được cập nhật liên tục qua từng vòng lặp để mô hình tìm ra vị trí đại diện tốt nhất.
Bạn có thể thử nghiệm với dữ liệu nhỏ để quan sát sự dịch chuyển của centroid — đây là cách trực quan giúp nắm rõ bản chất mà không cần ghi nhớ máy móc.