Exploration de données – Analyse de cluster
Le cluster est un groupe d’objets appartenant à la même classe. En d’autres termes, les objets similaires sont regroupés dans un cluster et les objets dissemblables sont regroupés dans un autre cluster.
Qu’est-ce que le clustering ?
Le clustering est le processus de transformation d’un groupe d’objets abstraits en classes d’objets similaires.
Points à retenir
-
Un groupe d’objets de données peut être traité comme un seul groupe.
-
Lors de l’analyse de cluster, nous partitionnons d’abord l’ensemble de données en groupes en fonction de la similitude des données, puis affectons les étiquettes aux groupes.
-
Le principal avantage du regroupement par rapport à la classification est qu’il est adaptable aux changements et aide à distinguer les caractéristiques utiles qui distinguent les différents groupes.
Applications de l’analyse de clusters
-
L’analyse de clusters est largement utilisée dans de nombreuses applications telles que les études de marché, la reconnaissance de formes, l’analyse de données et le traitement d’images.
-
Le clustering peut également aider les marketeurs à découvrir des groupes distincts dans leur base de clients. Et ils peuvent caractériser leurs groupes de clients en fonction des modèles d’achat.
-
Dans le domaine de la biologie, il peut être utilisé pour dériver des taxonomies végétales et animales, classer des gènes avec des fonctionnalités similaires et mieux comprendre les structures inhérentes aux populations.
-
Le regroupement aide également à identifier les zones d’utilisation similaire des terres dans une base de données d’observation de la terre. Il aide également à identifier des groupes de maisons dans une ville en fonction du type de maison, de la valeur et de l’emplacement géographique.
-
Le clustering aide également à classer les documents sur le Web pour la découverte d’informations.
-
Le clustering est également utilisé dans des applications de détection de valeurs aberrantes telles que la détection de fraude par carte de crédit.
-
En tant que fonction d’exploration de données, l’analyse de grappes sert d’outil pour mieux comprendre la distribution des données afin d’observer les caractéristiques de chaque grappe.
Exigences du Clustering dans l’exploration de données
Les points suivants expliquent pourquoi le clustering est nécessaire dans l’exploration de données −
-
Évolutivité – Nous avons besoin d’algorithmes de clustering hautement évolutifs pour traiter les grandes bases de données.
-
Capacité à traiter différents types d’attributs − Les algorithmes doivent pouvoir être appliqués à tout type de données telles que les données (numériques) basées sur des intervalles, les données catégorielles et les données binaires.
-
Découverte de clusters avec une forme d’attribut − L’algorithme de clustering doit être capable de détecter des clusters de forme arbitraire. Ils ne doivent pas être limités aux seules mesures de distance qui ont tendance à trouver des grappes sphériques de petites tailles.
-
Dimensionnalité élevée − L’algorithme de clustering doit non seulement être capable de gérer des données de faible dimension, mais également l’espace de grande dimension.
-
Possibilité de traiter des données bruyantes − Les bases de données contiennent des données bruyantes, manquantes ou erronées. Certains algorithmes sont sensibles à ces données et peuvent conduire à des clusters de mauvaise qualité.
-
Interprétabilité − Les résultats du clustering doivent être interprétables, compréhensibles et utilisables.
Méthodes de clustering
Les méthodes de clustering peuvent être classées dans les catégories suivantes −
- Méthode de partitionnement
- Méthode Hiérarchique
- Méthode basée sur la Densité
- Méthode Basée sur une Grille
- Méthode Basée sur un Modèle
- Méthode basée sur des Contraintes
Méthode de partitionnement
Supposons qu’on nous donne une base de données de ‘n’ objets et que la méthode de partitionnement construit une partition ‘k’ de données. Chaque partition représentera un cluster et k ≤ n. Cela signifie qu’il classera les données en k groupes, qui répondent aux exigences suivantes –
-
Chaque groupe contient au moins un objet.
-
Chaque objet doit appartenir exactement à un groupe.
Points à retenir –
-
Pour un nombre donné de partitions (disons k), la méthode de partitionnement créera un partitionnement initial.
-
Ensuite, il utilise la technique de relocalisation itérative pour améliorer le partitionnement en déplaçant des objets d’un groupe à l’autre.
Méthodes hiérarchiques
Cette méthode crée une décomposition hiérarchique de l’ensemble donné d’objets de données. Nous pouvons classer les méthodes hiérarchiques sur la base de la formation de la décomposition hiérarchique. Il y a deux approches ici −
- Approche agglomérative
- Approche divisive
Approche agglomérative
Cette approche est également connue sous le nom d’approche ascendante. En cela, nous commençons par chaque objet formant un groupe séparé. Il continue à fusionner les objets ou les groupes proches les uns des autres. Il continue de le faire jusqu’à ce que tous les groupes soient fusionnés en un seul ou jusqu’à ce que la condition de terminaison soit maintenue.
Approche de division
Cette approche est également connue sous le nom d’approche descendante. En cela, nous commençons avec tous les objets du même cluster. Dans l’itération continue, un cluster est divisé en clusters plus petits. Il est en panne jusqu’à ce que chaque objet d’un cluster ou que la condition de terminaison soit maintenue. Cette méthode est rigide, c’est-à-dire qu’une fois qu’une fusion ou une division est effectuée, elle ne peut jamais être annulée.
Approches pour améliorer la qualité du Clustering hiérarchique
Voici les deux approches utilisées pour améliorer la qualité du clustering hiérarchique −
-
Effectuez une analyse minutieuse des liens d’objets à chaque partitionnement hiérarchique.
-
Intégrez l’agglomération hiérarchique en utilisant d’abord un algorithme d’agglomération hiérarchique pour regrouper des objets en micro-clusters, puis en effectuant un macro-clustering sur les micro-clusters.
Méthode basée sur la densité
Cette méthode est basée sur la notion de densité. L’idée de base est de continuer à faire croître le cluster donné tant que la densité dans le voisinage dépasse un certain seuil, c’est-à-dire que pour chaque point de données dans un cluster donné, le rayon d’un cluster donné doit contenir au moins un nombre minimum de points.
Méthode basée sur une grille
Dans ce cas, les objets forment ensemble une grille. L’espace objet est quantifié en un nombre fini de cellules qui forment une structure de grille.
Avantages
-
L’avantage majeur de cette méthode est la rapidité du traitement.
-
Elle dépend uniquement du nombre de cellules dans chaque dimension de l’espace quantifié.
Méthodes basées sur des modèles
Dans cette méthode, un modèle est émis pour chaque cluster afin de trouver le meilleur ajustement des données pour un modèle donné. Cette méthode localise les clusters en regroupant la fonction de densité. Il reflète la distribution spatiale des points de données.
Cette méthode permet également de déterminer automatiquement le nombre de clusters sur la base de statistiques standard, en tenant compte des valeurs aberrantes ou du bruit. Il donne donc des méthodes de clustering robustes.
Méthode basée sur des contraintes
Dans cette méthode, le clustering est effectué par l’incorporation de contraintes orientées utilisateur ou application. Une contrainte fait référence à l’attente de l’utilisateur ou aux propriétés des résultats de clustering souhaités. Les contraintes nous fournissent un moyen de communication interactif avec le processus de clustering. Les contraintes peuvent être spécifiées par l’utilisateur ou l’exigence de l’application.