Minería de Datos – Análisis de Cluster

Anuncios

Clúster es un grupo de objetos que pertenece a la misma clase. En otras palabras, los objetos similares se agrupan en un clúster y los objetos diferentes se agrupan en otro clúster.

¿Qué es la agrupación en clústeres?

La agrupación en clústeres es el proceso de convertir un grupo de objetos abstractos en clases de objetos similares.

Puntos para recordar

  • Un clúster de objetos de datos se puede tratar como un grupo.

  • Durante el análisis de clústeres, primero particionamos el conjunto de datos en grupos en función de la similitud de los datos y, a continuación, asignamos las etiquetas a los grupos.

  • La principal ventaja de la agrupación en clústeres sobre la clasificación es que se adapta a los cambios y ayuda a seleccionar características útiles que distinguen diferentes grupos.

Aplicaciones de análisis de clústeres

  • El análisis de clústeres se utiliza ampliamente en muchas aplicaciones, como la investigación de mercado, el reconocimiento de patrones, el análisis de datos y el procesamiento de imágenes.

  • La agrupación en clústeres también puede ayudar a los profesionales del marketing a descubrir grupos distintos en su base de clientes. Y pueden caracterizar a sus grupos de clientes en función de los patrones de compra.

  • En el campo de la biología, se puede utilizar para derivar taxonomías de plantas y animales, categorizar genes con funcionalidades similares y obtener información sobre las estructuras inherentes a las poblaciones.

  • El agrupamiento también ayuda a identificar áreas de uso similar de la tierra en una base de datos de observación de la Tierra. También ayuda en la identificación de grupos de casas en una ciudad de acuerdo con el tipo de casa, el valor y la ubicación geográfica.

  • La agrupación en clústeres también ayuda a clasificar documentos en la web para el descubrimiento de información.

  • La agrupación en clústeres también se utiliza en aplicaciones de detección de valores atípicos, como la detección de fraudes con tarjetas de crédito.

  • Como función de minería de datos, el análisis de clústeres sirve como una herramienta para obtener información sobre la distribución de datos para observar las características de cada clúster.

Requisitos de la agrupación en clústeres en la minería de datos

Los siguientes puntos arrojan luz sobre por qué se requiere la agrupación en clústeres en la minería de datos −Escalabilidad

  • − Necesitamos algoritmos de agrupación en clústeres altamente escalables para hacer frente a grandes bases de datos.

  • Capacidad para tratar con diferentes tipos de atributos: los algoritmos deben ser capaces de aplicarse a cualquier tipo de datos, como datos numéricos basados en intervalos, categóricos y binarios.

  • Descubrimiento de clústeres con forma de atributo: El algoritmo de clústeres debe ser capaz de detectar clústeres de forma arbitraria. No deben estar limitados a solo medidas de distancia que tienden a encontrar cúmulos esféricos de tamaños pequeños.

  • Alta dimensionalidad: El algoritmo de agrupación en clústeres no solo debe ser capaz de manejar datos de baja dimensión, sino también el espacio de alta dimensión.

  • Capacidad para tratar datos ruidosos: las bases de datos contienen datos ruidosos, faltantes o erróneos. Algunos algoritmos son sensibles a estos datos y pueden dar lugar a clústeres de mala calidad.

  • Interpretabilidad-Los resultados del agrupamiento deben ser interpretables, comprensibles y utilizables.

Métodos de agrupación en clústeres

Los métodos de agrupación en clústeres se pueden clasificar en las siguientes categorías:

  • Método de partición
  • Método jerárquico
  • Método basado en densidad
  • Método basado en cuadrícula
  • Método basado en modelos
  • Método basado en restricciones

Método de partición

Supongamos que se nos da una base de datos de objetos ‘n’ y el método de particionamiento construye una partición de datos ‘k’. Cada partición representará un clúster y k ≤ n. Significa que clasificará los datos en grupos k, que satisfacen los siguientes requisitos:

  • Cada grupo contiene al menos un objeto.

  • Cada objeto debe pertenecer a un solo grupo.

Puntos a recordar –

  • Para un número determinado de particiones (por ejemplo, k), el método de particionamiento creará una partición inicial.

  • Luego utiliza la técnica de reubicación iterativa para mejorar la partición moviendo objetos de un grupo a otro.

Métodos Jerárquicos

Este método crea una descomposición jerárquica del conjunto de objetos de datos. Podemos clasificar los métodos jerárquicos sobre la base de cómo se forma la descomposición jerárquica. Hay dos enfoques aquí:

  • Enfoque aglomerativo
  • Enfoque divisivo

Enfoque aglomerativo

Este enfoque también se conoce como enfoque ascendente. En esto, comenzamos con cada objeto formando un grupo separado. Sigue fusionando los objetos o grupos que están cerca el uno del otro. Sigue haciéndolo hasta que todos los grupos se fusionen en uno o hasta que se mantenga la condición de terminación.

Enfoque divisivo

Este enfoque también se conoce como enfoque de arriba hacia abajo. En esto, comenzamos con todos los objetos en el mismo clúster. En la iteración continua, un clúster se divide en grupos más pequeños. Permanece inactivo hasta que se mantiene cada objeto de un clúster o la condición de terminación. Este método es rígido, es decir, una vez que se realiza una fusión o división, nunca se puede deshacer.

Enfoques para Mejorar la Calidad de la agrupación jerárquica

Aquí están los dos enfoques que se utilizan para mejorar la calidad de la agrupación jerárquica:

  • Realice un análisis cuidadoso de los vínculos de objetos en cada partición jerárquica.

  • Integre la aglomeración jerárquica utilizando primero un algoritmo aglomerativo jerárquico para agrupar objetos en micro-clústeres, y luego realizando macro-clústeres en los micro-clústeres.

Método basado en la densidad

Este método se basa en la noción de densidad. La idea básica es continuar creciendo el clúster dado siempre y cuando la densidad en el vecindario supere algún umbral, es decir, para cada punto de datos dentro de un clúster dado, el radio de un clúster dado debe contener al menos un número mínimo de puntos.

Método basado en cuadrícula

En este caso, los objetos juntos forman una cuadrícula. El espacio del objeto está cuantizado en un número finito de celdas que forman una estructura de cuadrícula.

Ventajas

  • La principal ventaja de este método es rápido tiempo de procesamiento.

  • Depende únicamente del número de celdas de cada dimensión en el espacio cuantizado.

Métodos basados en modelos

En este método, se plantea la hipótesis de un modelo para cada clúster para encontrar el mejor ajuste de datos para un modelo determinado. Este método localiza los clústeres agrupando la función de densidad. Refleja la distribución espacial de los puntos de datos.

Este método también proporciona una forma de determinar automáticamente el número de clústeres en función de estadísticas estándar, teniendo en cuenta los valores atípicos o el ruido. Por lo tanto, produce métodos de agrupación sólidos.

Método basado en restricciones

En este método, el agrupamiento se realiza mediante la incorporación de restricciones orientadas al usuario o a la aplicación. Una restricción se refiere a las expectativas del usuario o a las propiedades de los resultados de agrupación en clúster deseados. Las restricciones nos proporcionan una forma interactiva de comunicación con el proceso de agrupación. El usuario o el requisito de la aplicación pueden especificar restricciones.

Anuncios



Deja una respuesta

Tu dirección de correo electrónico no será publicada.