Data Mining-Cluster Analysis

annonser

kluster är en grupp objekt som tillhör samma klass. Med andra ord grupperas liknande objekt i ett kluster och olika objekt grupperas i ett annat kluster.

Vad är Clustering?

Clustering är processen att göra en grupp abstrakta objekt i klasser av liknande objekt.

poäng att komma ihåg

  • ett kluster av dataobjekt kan behandlas som en grupp.

  • När vi gör klusteranalys delar vi först datamängden i grupper baserat på datalikhet och tilldelar sedan etiketterna till grupperna.

  • den största fördelen med clustering över klassificering är att den är anpassningsbar till förändringar och hjälper till att utesluta användbara funktioner som skiljer olika grupper.

tillämpningar av klusteranalys

  • klusteranalys används i stor utsträckning i många applikationer som marknadsundersökning, mönsterigenkänning, dataanalys och bildbehandling.

  • Clustering kan också hjälpa marknadsförare att upptäcka olika grupper i sin kundbas. Och de kan karakterisera sina kundgrupper baserat på inköpsmönstren.

  • inom biologi kan det användas för att härleda växt-och djurtaxonomier, kategorisera gener med liknande funktioner och få insikt i strukturer som är inneboende för populationer.

  • Clustering hjälper också till att identifiera områden med liknande markanvändning i en jordobservationsdatabas. Det hjälper också till att identifiera grupper av hus i en stad beroende på hustyp, värde och geografisk plats.

  • Clustering hjälper också till att klassificera dokument på webben för informationsupptäckt.

  • Clustering används också i outlier upptäckt applikationer såsom upptäckt av kreditkortsbedrägerier.

  • som en datautvinningsfunktion fungerar klusteranalys som ett verktyg för att få insikt i fördelningen av data för att observera egenskaperna hos varje kluster.

krav på klustring i Data Mining

följande punkter kasta ljus på varför klustring krävs i data mining-

  • skalbarhet − vi behöver mycket skalbara klustringsalgoritmer för att hantera stora databaser.

  • förmåga att hantera olika typer av attribut − algoritmer bör kunna tillämpas på alla typer av data, såsom intervallbaserade (numeriska) data, kategoriska och binära data.

  • upptäckt av kluster med attributform-klusteralgoritmen bör kunna upptäcka kluster av godtycklig form. De bör inte begränsas till endast avståndsåtgärder som tenderar att hitta sfäriska kluster av små storlekar.

  • hög dimensionalitet-klusteralgoritmen ska inte bara kunna hantera lågdimensionella data utan också det höga dimensionella utrymmet.

  • förmåga att hantera bullriga data-databaser innehåller bullriga, saknade eller felaktiga data. Vissa algoritmer är känsliga för sådana data och kan leda till kluster av dålig kvalitet.

  • Tolkningsbarhet-klusterresultaten ska vara tolkbara, begripliga och användbara.

Klustermetoder

Klustermetoder kan klassificeras i följande kategorier −

  • Partitioneringsmetod
  • hierarkisk metod
  • Densitetsbaserad metod
  • Gridbaserad metod
  • modellbaserad metod
  • Begränsningsbaserad metod

Partitioneringsmetod h3>

Antag att vi får en databas med ’n’-objekt och Partitioneringsmetoden konstruerar ’k’-partition av data. Varje partition kommer att representera ett kluster och k exporten n. Det betyder att det kommer att klassificera data i k-grupper, som uppfyller följande krav −

  • varje grupp innehåller minst ett objekt.

  • varje objekt måste tillhöra exakt en grupp.

poäng att komma ihåg –

  • för ett givet antal partitioner (säg k) skapar partitioneringsmetoden en initial partitionering.

  • sedan använder den iterativa omlokaliseringstekniken för att förbättra partitioneringen genom att flytta objekt från en grupp till en annan.

hierarkiska metoder

denna metod skapar en hierarkisk sönderdelning av den givna uppsättningen dataobjekt. Vi kan klassificera hierarkiska metoder utifrån hur den hierarkiska sönderdelningen bildas. Det finns två tillvägagångssätt här −

  • Agglomerativt tillvägagångssätt
  • splittrande tillvägagångssätt

Agglomerativt tillvägagångssätt

detta tillvägagångssätt är också känt som bottom-up-metoden. I detta börjar vi med att varje objekt bildar en separat grupp. Det fortsätter att slå samman objekt eller grupper som ligger nära varandra. Det fortsätter att göra det tills alla grupper slås samman till en eller tills uppsägningsvillkoren gäller.

splittrande tillvägagångssätt

detta tillvägagångssätt är också känt som top-down-metoden. I detta börjar vi med alla objekt i samma kluster. I den kontinuerliga iterationen delas ett kluster upp i mindre kluster. Det är nere tills varje objekt i ett kluster eller avslutningsvillkoret gäller. Denna metod är styv, dvs när en sammanslagning eller splittring är klar kan den aldrig ångras.

metoder för att förbättra kvaliteten på hierarkisk Clustering

här är de två metoder som används för att förbättra kvaliteten på hierarkisk clustering −

  • utför noggrann analys av objektlänkar vid varje hierarkisk partitionering.

  • integrera hierarkisk agglomeration genom att först använda en hierarkisk agglomerativ algoritm för att gruppera objekt i mikrokluster och sedan utföra makrokluster på mikroklusterna.

Densitetsbaserad metod

denna metod är baserad på begreppet densitet. Grundtanken är att fortsätta växa det givna klustret så länge densiteten i grannskapet överstiger en viss tröskel, dvs för varje datapunkt inom ett givet kluster måste radien för ett givet kluster innehålla minst ett minimum antal punkter.

Grid-baserad metod

i detta bildar objekten tillsammans ett rutnät. Objektutrymmet kvantiseras till ändligt antal celler som bildar en rutstruktur.

fördelar

  • den största fördelen med denna metod är snabb bearbetningstid.

  • det beror bara på antalet celler i varje dimension i det kvantiserade utrymmet.

modellbaserade metoder

i denna metod antas en modell för varje kluster för att hitta den bästa passningen av data för en given modell. Denna metod lokaliserar klusterna genom att klustera densitetsfunktionen. Det återspeglar den rumsliga fördelningen av datapunkterna.

denna metod ger också ett sätt att automatiskt bestämma antalet kluster baserat på standardstatistik, med hänsyn till outlier eller brus. Det ger därför robusta klustermetoder.

Begränsningsbaserad metod

i denna metod utförs klustringen genom införlivande av användar-eller applikationsorienterade begränsningar. En begränsning avser användarens förväntan eller egenskaperna för önskade klusterresultat. Begränsningar ger oss ett interaktivt sätt att kommunicera med klusterprocessen. Begränsningar kan anges av användaren eller applikationskravet.

annonser



Lämna ett svar

Din e-postadress kommer inte publiceras.