Data Mining-Cluster Analysis
Cluster is een groep objecten die tot dezelfde klasse behoort. Met andere woorden, soortgelijke objecten worden gegroepeerd in een cluster en ongelijksoortige objecten worden gegroepeerd in een ander cluster.
Wat is Clustering?
Clustering is het proces van het maken van een groep abstracte objecten in klassen van soortgelijke objecten.
punten om
-
te onthouden Een cluster van gegevensobjecten kan als één groep worden behandeld.
-
terwijl we clusteranalyse uitvoeren, verdelen we eerst de verzameling gegevens in groepen op basis van de gelijkenis van gegevens en wijzen we de labels toe aan de groepen.
-
het belangrijkste voordeel van clustering ten opzichte van classificatie is dat het aanpasbaar is aan veranderingen en helpt nuttige functies te onderscheiden die verschillende groepen onderscheiden.
toepassingen van clusteranalyse
-
Clustering analyse wordt algemeen gebruikt in vele toepassingen zoals marktonderzoek, patroonherkenning, data-analyse en beeldverwerking.
-
Clustering kan marketeers ook helpen om verschillende groepen in hun klantenbestand te ontdekken. En ze kunnen hun klantgroepen karakteriseren op basis van de inkooppatronen.
-
op het gebied van de biologie kan het worden gebruikt om plant-en dierentaxonomieën af te leiden, genen met vergelijkbare functionaliteiten te categoriseren en inzicht te krijgen in structuren die inherent zijn aan populaties.
-
Clustering helpt ook bij het identificeren van gebieden met een vergelijkbaar landgebruik in een aardobservatiedatabase. Het helpt ook bij de identificatie van groepen huizen in een stad op basis van huistype, waarde en geografische locatie.
-
Clustering helpt ook bij het classificeren van documenten op het web voor het ontdekken van informatie.
-
Clustering wordt ook gebruikt in uitbijterdetectietoepassingen zoals detectie van creditcardfraude.
-
als dataminingfunctie dient clusteranalyse als een hulpmiddel om inzicht te krijgen in de distributie van gegevens om de kenmerken van elk cluster te observeren.
Requirements of Clustering in Data Mining
De volgende punten lichten toe waarom clustering vereist is in data mining −
-
schaalbaarheid − we hebben zeer schaalbare clustering algoritmen nodig om met grote databases om te gaan.
-
vermogen om met verschillende soorten attributen om te gaan − algoritmen moeten kunnen worden toegepast op alle soorten gegevens, zoals interval-gebaseerde (numerieke) gegevens, categorische en binaire gegevens.
-
ontdekking van clusters met attribuutvorm − het clusteringsalgoritme moet in staat zijn clusters met willekeurige vorm te detecteren. Ze moeten niet worden begrensd tot Alleen afstand maatregelen die de neiging om bolvormige cluster van kleine afmetingen te vinden.
-
Hoge dimensionaliteit-het clusteringsalgoritme moet niet alleen laagdimensionale gegevens kunnen verwerken, maar ook de hoogdimensionale ruimte.
-
vermogen om met lawaaierige gegevens om te gaan − Databases bevatten lawaaierige, ontbrekende of foutieve gegevens. Sommige algoritmen zijn gevoelig voor dergelijke gegevens en kunnen leiden tot clusters van slechte kwaliteit.
-
Interpreteerbaarheid-de resultaten van de clustering moeten interpreteerbaar, begrijpelijk en bruikbaar zijn.
Clustering Methodes
Clustering methoden kunnen worden ingedeeld in de volgende categorieën
- partitie Methode
- Hiërarchische Methode
- Dichtheid-gebaseerde Methode
- Raster-Gebaseerde Methode
- Model-Gebaseerde Methode
- Constraint-based Methode
partitie Methode
Stel je voor dat we gegeven een database van ‘n’ objecten en de partitie methode construeert ‘k’ – partitie van gegevens. Elke partitie vertegenwoordigt een cluster en k ≤ n. Het betekent dat het de gegevens zal classificeren in k −groepen, die voldoen aan de volgende vereisten –
-
elke groep bevat ten minste één object.
-
elk object moet tot precies één groep behoren.
punten om te onthouden –
-
voor een bepaald aantal partities (bijvoorbeeld k) Zal de partitioneringsmethode een initiële partitionering aanmaken.
-
dan gebruikt het de iteratieve verplaatsingstechniek om de partitionering te verbeteren door objecten van de ene groep naar de andere te verplaatsen.
hiërarchische methoden
Deze methode creëert een hiërarchische ontleding van de gegeven verzameling gegevensobjecten. We kunnen hiërarchische methoden classificeren op basis van hoe de hiërarchische ontleding wordt gevormd. Er zijn hier twee benaderingen −
- Agglomeratieve benadering
- verdeelde benadering
Agglomeratieve benadering
Deze benadering wordt ook wel de bottom-up-benadering genoemd. Hierbij beginnen we met elk object dat een aparte groep vormt. Het blijft de objecten of groepen samenvoegen die dicht bij elkaar staan. Het blijft dit doen totdat alle groepen worden samengevoegd tot één of totdat de beëindigingsvoorwaarde geldt.
verdeelde benadering
Deze benadering wordt ook wel de top-down benadering genoemd. Hier beginnen we met alle objecten in dezelfde cluster. In de continue iteratie wordt een cluster opgesplitst in kleinere clusters. Het is neer totdat elk object in één cluster of de beëindigingsvoorwaarde geldt. Deze methode is rigide, dat wil zeggen, zodra een samenvoeging of splitsing is gedaan, kan het nooit ongedaan worden gemaakt.
benaderingen om de kwaliteit van hiërarchische Clustering te verbeteren
Hier zijn de twee benaderingen die worden gebruikt om de kwaliteit van hiërarchische clustering te verbeteren −
-
voer een zorgvuldige analyse uit van objectkoppelingen bij elke hiërarchische partitionering.
-
integreer hiërarchische agglomeratie door eerst een hiërarchisch agglomeratief algoritme te gebruiken om objecten in microclusters te groeperen en vervolgens macroclustering op de microclusters uit te voeren.
Dichtheidsgebaseerde methode
Deze methode is gebaseerd op het begrip dichtheid. Het basisidee is om de gegeven cluster te blijven groeien zolang de dichtheid in de buurt één of andere drempel overschrijdt, d.w.z., voor elk gegevenspunt binnen een bepaalde cluster, moet de straal van een bepaalde cluster minstens een minimumaantal punten bevatten.
raster-gebaseerde methode
hierin vormen de objecten samen een raster. De objectruimte wordt gekwantiseerd in een eindig aantal cellen die een rasterstructuur vormen.
voordelen
-
het belangrijkste voordeel van deze methode is een snelle verwerkingstijd.
-
het is alleen afhankelijk van het aantal cellen in elke dimensie in de gekwantiseerde ruimte.
modelgebaseerde methoden
in deze methode wordt voor elk cluster een hypothese opgesteld om de beste gegevens voor een bepaald model te vinden. Deze methode lokaliseert de clusters door de dichtheidsfunctie te clusteren. Het weerspiegelt de ruimtelijke verdeling van de datapunten.
Deze methode biedt ook een manier om automatisch het aantal clusters te bepalen op basis van standaardstatistieken, rekening houdend met uitschieters of ruis. Het levert daarom robuuste clustering methoden.
Constraint-based Method
in deze methode wordt de clustering uitgevoerd door het opnemen van gebruikers-of toepassingsgerichte beperkingen. Een beperking verwijst naar de verwachting van de gebruiker of de eigenschappen van de gewenste clustering resultaten. Beperkingen bieden ons een interactieve manier van communicatie met het clusterproces. Beperkingen kunnen worden gespecificeerd door de gebruiker of de toepassing eis.