Principal Otro Análisis de clústeres de K-medias

Análisis de clústeres de K-medias

Descripción general

Software

Descripción

Sitios web

the kings college nueva york

Lecturas

Cursos

Descripción general

El análisis de conglomerados es un conjunto de técnicas de reducción de datos que están diseñadas para agrupar observaciones similares en un conjunto de datos, de modo que las observaciones en el mismo grupo son lo más similares posible entre sí y, de manera similar, las observaciones en diferentes grupos son tan diferentes entre sí como posible. En comparación con otras técnicas de reducción de datos como el análisis factorial (FA) y el análisis de componentes principales (PCA), que tienen como objetivo agrupar por similitudes entre las variables (columnas) de un conjunto de datos, el análisis de conglomerados tiene como objetivo agrupar las observaciones por similitudes entre filas.

Descripción

K-means es un método de análisis de conglomerados que agrupa las observaciones minimizando las distancias euclidianas entre ellas. Las distancias euclidianas son análogas a la medición de la hipotenusa de un triángulo, donde las diferencias entre dos observaciones sobre dos variables (xey) se insertan en la ecuación de Pitágoras para resolver la distancia más corta entre los dos puntos (longitud de la hipotenusa). Las distancias euclidianas pueden extenderse a n dimensiones con cualquier número n, y las distancias se refieren a diferencias numéricas en cualquier variable continua medida, no solo distancias espaciales o geométricas. Esta definición de distancia euclidiana, por lo tanto, requiere que todas las variables utilizadas para determinar la agrupación mediante k-medias deben ser continuas.

Procedimiento

Para realizar la agrupación de k-medias, el algoritmo asigna aleatoriamente k centros iniciales (k especificados por el usuario), ya sea eligiendo puntos al azar en el espacio euclidiano definido por todas las n variables, o muestreando k puntos de todas las observaciones disponibles para servir como centros iniciales. Luego, asigna iterativamente cada observación al centro más cercano. A continuación, calcula el nuevo centro para cada grupo como la media del centroide de las variables de agrupamiento para el nuevo conjunto de observaciones de cada grupo. K-means repite este proceso, asignando observaciones al centro más cercano (algunas observaciones cambiarán de grupo). Este proceso se repite hasta que una nueva iteración ya no reasigna ninguna observación a un nuevo clúster. En este punto, se considera que el algoritmo ha convergido y las asignaciones de clústeres finales constituyen la solución de agrupamiento.

Hay varios algoritmos de k-medias disponibles. El algoritmo estándar es el algoritmo Hartigan-Wong, que tiene como objetivo minimizar las distancias euclidianas de todos los puntos con sus centros de conglomerados más cercanos, minimizando la suma de errores cuadrados dentro del conglomerado (SSE).

Software

K-means se implementa en muchos programas de software estadístico:

En R, en el paquete cluster, use la función: k-means (x, centers, iter.max = 10, nstart = 1). El objeto de datos en el que realizar la agrupación se declara en x. El número de conglomerados k lo especifica el usuario en centres = #. k-means () se repetirá con diferentes centroides iniciales (muestreados aleatoriamente de todo el conjunto de datos) nstart = # veces y elegirá la mejor ejecución (SSE más pequeño). iter.max = # establece un número máximo de iteraciones permitidas (el valor predeterminado es 10) por ejecución.

En STATA, use el comando: cluster kmeans [varlist], k (#) [options]. Utilice [varlist] para declarar las variables de agrupamiento, k (#) para declarar k. Hay otras opciones para especificar medidas de similitud en lugar de distancias euclidianas.

En SAS, use el comando: PROC FASTCLUS maxclusters = k; var [varlist]. Esto requiere especificar ky las variables de agrupamiento en [varlist].

En SPSS, use la función: Analizar -> Clasificar -> Clúster de K-medias. Hay archivos de ayuda adicionales disponibles en línea.

Consideraciones

El agrupamiento de K-medias requiere que todas las variables sean continuas. Otros métodos que no requieren que todas las variables sean continuas, incluidos algunos métodos de agrupación jerárquica, tienen diferentes supuestos y se analizan en la lista de recursos a continuación. La agrupación de K-medias también requiere una especificación a priori del número de agrupaciones, k. Aunque esto se puede hacer empíricamente con los datos (usando un diagrama de pantalla para graficar la SSE dentro del grupo contra cada solución de conglomerado), la decisión debe basarse en la teoría, y las elecciones incorrectas pueden conducir a conglomerados erróneos. Consulte la secuencia de comandos R en línea de R de Peeples para el análisis de clúster de K-medias a continuación para ver ejemplos de cómo elegir soluciones de clúster.

La elección de las variables de agrupación también es de particular importancia. Generalmente, los métodos de análisis de conglomerados requieren la suposición de que las variables elegidas para determinar los conglomerados son una representación completa del constructo de interés subyacente que agrupa observaciones similares. Si bien la elección de variables sigue siendo un tema debatido, el consenso en el campo recomienda agrupar tantas variables como sea posible, siempre que el conjunto se ajuste a esta descripción, y las variables que no describen gran parte de la varianza en las distancias euclidianas entre observaciones contribuirán menos a la asignación de clústeres. Se recomiendan análisis de sensibilidad utilizando diferentes soluciones de agrupación y conjuntos de variables de agrupación para determinar la solidez del algoritmo de agrupación.

diferencia en ejemplo de diferencia

Por defecto, K-means tiene como objetivo minimizar la suma del error cuadrado dentro del grupo según lo medido por las distancias euclidianas, pero esto no siempre se justifica cuando no se cumplen los supuestos de los datos. Consulte los libros de texto y las guías en línea en la sección de recursos a continuación, especialmente el R-blog de Robinson: La agrupación en clústeres de K-medias no es un almuerzo gratuito para obtener ejemplos de los problemas que se encuentran con la agrupación de k-medias cuando se violan las suposiciones.

Por último, los métodos de análisis de conglomerados son similares a otras técnicas de reducción de datos en el sentido de que son en gran medida herramientas exploratorias, por lo que los resultados deben interpretarse con cautela. Existen muchas técnicas para validar los resultados del análisis de conglomerados, incluso internamente con validación cruzada o bootstrapping, validación en grupos conceptuales teorizados a priori o con opinión de expertos, o validación externa con conjuntos de datos separados. Una aplicación común del análisis de conglomerados es como herramienta para predecir la pertenencia a un conglomerado en observaciones futuras utilizando datos existentes, pero no describe por qué las observaciones se agrupan de esa manera. Como tal, el análisis de conglomerados se usa a menudo junto con el análisis de factores, donde el análisis de conglomerados se usa para describir cómo las observaciones son similares y el análisis de factores se usa para describir por qué las observaciones son similares. En última instancia, la validez de los resultados del análisis de conglomerados debe estar determinada por la teoría y la utilidad de las descripciones de conglomerados.

Lecturas

Libros de texto y capítulos

  1. Aldenderfer MS y Blashfield RK (1984). Análisis de conglomerados. Serie de artículos de Sage University sobre aplicaciones cuantitativas en las ciencias sociales, serie no. 07-044. Newbury Park, California: Publicaciones Sage. El libro verde de análisis de conglomerados es un texto de referencia clásico sobre teoría y métodos de análisis de conglomerados, así como directrices para informar los resultados.

  2. Everitt BS, Landau S, Leese M, Stahl D (2011). Análisis de conglomerados, 5ª ed. Serie Wiley. Descripciones profundas y contemporáneas de los diversos tipos de métodos de análisis de conglomerados a medida que se ha desarrollado el campo.

    imperativo categórico de immanuel kant
  3. Lorr M (1983). Análisis de conglomerados para científicos sociales. Serie Jossey-Bass de Ciencias Sociales y del Comportamiento. El texto clásico de Lorr detalla los métodos relacionados con los datos que se encuentran típicamente en las ciencias sociales: las suposiciones de datos de K-medias a menudo son difíciles de cumplir con los datos en las ciencias sociales, y se discuten las alternativas.

Artículos metodológicos

  1. Hauser J y Rybakowski J (1997). Tres grupos de hombres alcohólicos. Depende del Alcohol de Drogas; 48 (3): 243-50. Un ejemplo de agrupación de tipos de comportamiento en la investigación sobre adicciones.

  2. Breuhl S y col. (1999). Uso de análisis de grupos para validar los criterios de diagnóstico de IHS para migraña y cefalea tensional. Dolor de cabeza; 39 (3): 181-9. Un estudio de validación de criterios de diagnóstico utilizando k-medias en patrones de síntomas.

  3. Guthrie E y col. (2003). El análisis de grupos de síntomas y la conducta de búsqueda de salud diferencia a los subgrupos de pacientes con síndrome del intestino irritable severo. Intestino; 52 (11): 1616-22. Los patrones de comportamiento de búsqueda de atención se diferencian por análisis de conglomerados.

Artículos de aplicación

  1. MacQueen J (1967). Algunos métodos de clasificación y análisis de observaciones multivariadas. Actas del 5º Simposio de Berkeley sobre Matemáticas. Estadístico. y Prob., vol. 1. Documento de métodos estadísticos tempranos sobre k-significa el algoritmo de agrupamiento de uno de los primeros desarrolladores.

  2. Salim SZ e Ismail MA. (1984). Algoritmos de tipo K-medias: un teorema de convergencia generalizado y caracterización de la optimalidad local. IEEE Trans Pattern Anal Mach Intell; 6 (1): 81-7. Consideraciones metodológicas y recomendaciones para el uso de clustering de k-medias.

  3. Saeed F y col. (2012). Combinación de agrupaciones de estructuras químicas de K-medias utilizando un algoritmo de partición de similitud basado en agrupaciones. Comunicaciones en informática y ciencias de la información; 322: 304-312. Un artículo reciente sobre cómo mejorar el rendimiento de las soluciones de clúster k-means mediante enfoques de iteración múltiple y combinación.

Sitios web

Varios tutoriales para usar el software R para realizar análisis de conglomerados de k-medias, con ejemplos aplicados y código de muestra.

  1. statmethods.net: Quick-R: Cluster Analysis http://www.statmethods.net/advstats/cluster.html

  2. 2. Blog de R-statistics: agrupación de K-means http://www.r-statistics.com/2013/08/k-means-clustering-from-r-in-action/

  3. 3. Peeples MA (2011). Script de R para análisis de clústeres de K-medias http://www.mattpeeples.net/kmeans.html

  4. 4. Robinson D (2015). R bloggers: la agrupación de K-means no es un almuerzo gratis http://www.r-bloggers.com/k-means-clustering-is-not-a-free-lunch/

Recursos técnicos de R

  1. Universidad de York: comandos R de análisis de conglomerados http://wiki.math.yorku.ca/index.php/R:_Cluster_analysis

  2. Archivo de ayuda de r kmeans () https://stat.ethz.ch/R-manual/R-devel/library/stats/html/kmeans.html

Técnicas de reducción de datos relacionadas

datos interesantes sobre el ébola
  1. Análisis factorial exploratorio (EFA) en epidemiología avanzada

  2. Análisis de componentes principales (PCA) en epidemiología avanzada

Artículos De Interés

La Elección Del Editor

Borbetomagus: Retrospectiva de carrera sobre la nueva música de la tarde
Borbetomagus: Retrospectiva de carrera sobre la nueva música de la tarde
Makino Collection Blog
Makino Collection Blog
Proceso de solicitud
Proceso de solicitud
Su camino hacia un título de J.D. de la Facultad de Derecho de Columbia comienza aquí.
Retenido como rehén durante 444 días: una historia de supervivencia
Retenido como rehén durante 444 días: una historia de supervivencia
Frankie Alduino
Mansour v. Sitio web de Al-Youm Al-Sabea
Mansour v. Sitio web de Al-Youm Al-Sabea
Columbia Global Freedom of Expression busca promover la comprensión de las normas e instituciones nacionales e internacionales que mejor protegen el libre flujo de información y expresión en una comunidad global interconectada con importantes desafíos comunes que abordar. Para lograr su misión, Global Freedom of Expression emprende y encarga proyectos de investigación y políticas, organiza eventos y conferencias, y participa y contribuye a los debates globales sobre la protección de la libertad de expresión e información en el siglo XXI.
NPD v. Ciudad de Zittau
NPD v. Ciudad de Zittau
Columbia Global Freedom of Expression busca promover la comprensión de las normas e instituciones nacionales e internacionales que mejor protegen el libre flujo de información y expresión en una comunidad global interconectada con importantes desafíos comunes que abordar. Para lograr su misión, Global Freedom of Expression emprende y encarga proyectos de investigación y políticas, organiza eventos y conferencias, y participa y contribuye a los debates globales sobre la protección de la libertad de expresión e información en el siglo XXI.
El caso de Mehmet Ali Aydin
El caso de Mehmet Ali Aydin
Columbia Global Freedom of Expression busca promover la comprensión de las normas e instituciones nacionales e internacionales que mejor protegen el libre flujo de información y expresión en una comunidad global interconectada con importantes desafíos comunes que abordar. Para lograr su misión, Global Freedom of Expression emprende y encarga proyectos de investigación y políticas, organiza eventos y conferencias, y participa y contribuye a los debates globales sobre la protección de la libertad de expresión e información en el siglo XXI.