¿Qué significa la agrupación de K-Means?
La agrupación de K-means es un algoritmo sencillo de aprendizaje no supervisado que se utiliza para resolver problemas de agrupación. Sigue un procedimiento sencillo de clasificación de un conjunto de datos dado en un número de conglomerados, definido por la letra “k”, que se fija de antemano.
A continuación, los conglomerados se colocan como puntos y todas las observaciones o puntos de datos se asocian al conglomerado más cercano, se calculan, se ajustan y, después, el proceso vuelve a empezar utilizando los nuevos ajustes hasta alcanzar el resultado deseado.
La agrupación de K-means tiene usos en motores de búsqueda, segmentación de mercados, estadística e incluso astronomía.
Definición de agrupación de K-Means
La agrupación de K-Means es un método utilizado para el análisis de agrupaciones, especialmente en minería de datos y estadística. Su objetivo es dividir un conjunto de observaciones en un número de conglomerados (k), lo que da lugar a la partición de los datos en celdas de Voronoi. Puede considerarse un método para averiguar a qué grupo pertenece realmente un determinado objeto.
Se utiliza principalmente en estadística y puede aplicarse a casi cualquier rama de estudio. Por ejemplo, en marketing, se puede utilizar para agrupar distintos grupos demográficos de personas en grupos sencillos que faciliten a los profesionales del marketing dirigirse a sus objetivos.
Los astrónomos lo utilizan para cribar enormes cantidades de datos astronómicos; como no pueden analizar cada objeto uno por uno, necesitan una forma de encontrar estadísticamente puntos de interés para su observación e investigación.
El algoritmo:
- Se colocan K puntos en el espacio de datos del objeto que representan el grupo inicial de centroides.
- Cada objeto o punto de datos se asigna al k más cercano.
- Una vez asignados todos los objetos, se vuelven a calcular las posiciones de los k centroides.
- Los pasos 2 y 3 se repiten hasta que las posiciones de los centroides dejen de moverse.