Data Mining – Clusteranalyse

Werbung

Cluster ist eine Gruppe von Objekten, die zur selben Klasse gehören. Mit anderen Worten, ähnliche Objekte werden in einem Cluster gruppiert und unähnliche Objekte werden in einem anderen Cluster gruppiert.

Was ist Clustering?

Clustering ist der Prozess, bei dem eine Gruppe abstrakter Objekte in Klassen ähnlicher Objekte umgewandelt wird.

Zu merkende Punkte

  • Ein Cluster von Datenobjekten kann als eine Gruppe behandelt werden.

  • Bei der Clusteranalyse partitionieren wir zuerst den Datensatz basierend auf der Datenähnlichkeit in Gruppen und weisen dann die Beschriftungen den Gruppen zu.

  • Der Hauptvorteil des Clusters gegenüber der Klassifizierung besteht darin, dass es an Änderungen angepasst werden kann und dabei hilft, nützliche Funktionen herauszugreifen, die verschiedene Gruppen unterscheiden.

Anwendungen der Clusteranalyse

  • Die Clusteranalyse wird in vielen Anwendungen wie Marktforschung, Mustererkennung, Datenanalyse und Bildverarbeitung eingesetzt.

  • Clustering kann Marketern auch dabei helfen, unterschiedliche Gruppen in ihrem Kundenstamm zu entdecken. Und sie können ihre Kundengruppen anhand des Kaufverhaltens charakterisieren.

  • Auf dem Gebiet der Biologie kann es verwendet werden, um pflanzliche und tierische Taxonomien abzuleiten, Gene mit ähnlichen Funktionalitäten zu kategorisieren und Einblicke in Strukturen zu erhalten, die Populationen innewohnen.

  • Clustering hilft auch bei der Identifizierung von Gebieten mit ähnlicher Landnutzung in einer Erdbeobachtungsdatenbank. Es hilft auch bei der Identifizierung von Gruppen von Häusern in einer Stadt nach Haustyp, Wert und geografischer Lage.

  • Clustering hilft auch bei der Klassifizierung von Dokumenten im Web für die Informationserkennung.

  • Clustering wird auch in Ausreißererkennungsanwendungen wie der Erkennung von Kreditkartenbetrug verwendet.

  • Als Data-Mining-Funktion dient die Clusteranalyse als Werkzeug, um einen Einblick in die Verteilung der Daten zu erhalten und die Eigenschaften jedes Clusters zu beobachten.

Anforderungen an das Clustering im Data Mining

Die folgenden Punkte beleuchten, warum Clustering im Data Mining erforderlich ist −

  • Skalierbarkeit − Wir benötigen hochskalierbare Clusteralgorithmen, um mit großen Datenbanken umgehen zu können.

  • Fähigkeit, mit verschiedenen Arten von Attributen umzugehen − Algorithmen sollten in der Lage sein, auf jede Art von Daten wie intervallbasierte (numerische) Daten, kategoriale und binäre Daten angewendet zu werden.

  • Erkennung von Clustern mit beliebiger Form − Der Clustering-Algorithmus sollte in der Lage sein, Cluster beliebiger Form zu erkennen. Sie sollten nicht nur auf Entfernungsmaße beschränkt sein, die dazu neigen, kugelförmige Cluster kleiner Größe zu finden.

  • Hohe Dimensionalität − Der Clustering-Algorithmus sollte nicht nur in der Lage sein, niedrigdimensionale Daten, sondern auch den hochdimensionalen Raum zu verarbeiten.

  • Fähigkeit, mit verrauschten Daten umzugehen − Datenbanken enthalten verrauschte, fehlende oder fehlerhafte Daten. Einige Algorithmen reagieren empfindlich auf solche Daten und können zu Clustern mit schlechter Qualität führen.

  • Interpretierbarkeit − Die Clusterergebnisse sollten interpretierbar, nachvollziehbar und verwendbar sein.

Clustering−Methoden

Clustering-Methoden können in die folgenden Kategorien eingeteilt werden:

  • Partitionierungsmethode
  • Hierarchische Methode
  • Dichtebasierte Methode
  • Gitterbasierte Methode
  • Modellbasierte Methode
  • Einschränkungsbasierte Methode

Partitionierungsmethode

Angenommen, wir erhalten eine Datenbank mit ’n‘ Objekten und die Partitionierungsmethode konstruiert ‚k‘ Datenpartitionen. Jede Partition repräsentiert einen Cluster und k ≤ n. Dies bedeutet, dass die Daten in k Gruppen klassifiziert werden, die die folgenden Anforderungen erfüllen:

  • Jede Gruppe enthält mindestens ein Objekt.

  • Jedes Objekt muss zu genau einer Gruppe gehören.

Punkte zu beachten –

  • Für eine bestimmte Anzahl von Partitionen (z. B. k) erstellt die Partitionierungsmethode eine anfängliche Partitionierung.

  • Dann wird die iterative Relocation-Technik verwendet, um die Partitionierung zu verbessern, indem Objekte von einer Gruppe in eine andere verschoben werden.

Hierarchische Methoden

Diese Methode erstellt eine hierarchische Zerlegung des angegebenen Satzes von Datenobjekten. Wir können hierarchische Methoden auf der Grundlage der hierarchischen Zerlegung klassifizieren. Hier gibt es zwei Ansätze –

  • Agglomerativer Ansatz
  • Divisiver Ansatz

Agglomerativer Ansatz

Dieser Ansatz wird auch als Bottom-up-Ansatz bezeichnet. In diesem Fall beginnen wir damit, dass jedes Objekt eine separate Gruppe bildet. Es führt weiterhin die Objekte oder Gruppen zusammen, die nahe beieinander liegen. Dies geschieht so lange, bis alle Gruppen zu einer Gruppe zusammengeführt werden oder bis die Beendigungsbedingung gilt.

Trennender Ansatz

Dieser Ansatz wird auch als Top-Down-Ansatz bezeichnet. In diesem Fall beginnen wir mit allen Objekten im selben Cluster. In der kontinuierlichen Iteration wird ein Cluster in kleinere Cluster aufgeteilt. Es ist down, bis jedes Objekt in einem Cluster oder die Beendigungsbedingung gilt. Diese Methode ist starr, d. H. Sobald ein Zusammenführen oder Teilen durchgeführt wurde, kann es niemals rückgängig gemacht werden.

Ansätze zur Verbesserung der Qualität des hierarchischen Clusters

Hier sind die beiden Ansätze, die zur Verbesserung der Qualität des hierarchischen Clusters verwendet werden −

  • Führen Sie bei jeder hierarchischen Partitionierung eine sorgfältige Analyse der Objektverknüpfungen durch.Integrieren Sie die hierarchische Agglomeration, indem Sie zuerst einen hierarchischen Agglomerationsalgorithmus verwenden, um Objekte in Mikrocluster zu gruppieren, und dann ein Makroclustering für die Mikrocluster durchführen.

Dichtebasierte Methode

Diese Methode basiert auf dem Begriff der Dichte. Die Grundidee besteht darin, den gegebenen Cluster weiter zu vergrößern, solange die Dichte in der Nachbarschaft einen Schwellenwert überschreitet, dh für jeden Datenpunkt innerhalb eines gegebenen Clusters muss der Radius eines gegebenen Clusters mindestens eine minimale Anzahl von Punkten enthalten.

Gitterbasierte Methode

Dabei bilden die Objekte zusammen ein Gitter. Der Objektraum wird in eine endliche Anzahl von Zellen quantisiert, die eine Gitterstruktur bilden.

Vorteile

  • Der Hauptvorteil dieser Methode ist die schnelle Bearbeitungszeit.

  • Es hängt nur von der Anzahl der Zellen in jeder Dimension im quantisierten Raum ab.

Modellbasierte Methoden

Bei dieser Methode wird für jeden Cluster ein Modell hypothetisiert, um die beste Datenanpassung für ein bestimmtes Modell zu finden. Diese Methode lokalisiert die Cluster durch Clustern der Dichtefunktion. Es spiegelt die räumliche Verteilung der Datenpunkte wider.

Diese Methode bietet auch eine Möglichkeit, die Anzahl der Cluster basierend auf Standardstatistiken automatisch zu bestimmen, wobei Ausreißer oder Rauschen berücksichtigt werden. Es liefert daher robuste Clustering-Methoden.

Constraint-basierte Methode

Bei dieser Methode wird das Clustering durch die Einbindung von benutzer- oder anwendungsorientierten Constraints durchgeführt. Eine Einschränkung bezieht sich auf die Benutzererwartung oder die Eigenschaften der gewünschten Clusterergebnisse. Einschränkungen bieten uns eine interaktive Art der Kommunikation mit dem Clustering-Prozess. Einschränkungen können vom Benutzer oder der Anwendungsanforderung angegeben werden.

Werbung



Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.