Data Mining-Cluster Analysis

annoncer

Cluster er en gruppe af objekter, der tilhører samme klasse. Med andre ord er lignende objekter grupperet i en klynge, og forskellige objekter grupperes i en anden klynge.

Hvad er Clustering?

Clustering er processen med at lave en gruppe abstrakte objekter i klasser af lignende objekter.

punkter at huske

  • en klynge af dataobjekter kan behandles som en gruppe.

  • under klyngeanalyse partitionerer vi først datasættet i grupper baseret på datasikkerhed og tildeler derefter etiketterne til grupperne.

  • den største fordel ved klyngedannelse i forhold til klassificering er, at den kan tilpasses ændringer og hjælper med at udpege nyttige funktioner, der adskiller forskellige grupper.

anvendelser af klyngeanalyse

  • klyngeanalyse bruges bredt i mange applikationer såsom markedsundersøgelser, mønstergenkendelse, dataanalyse og billedbehandling.

  • Clustering kan også hjælpe marketingfolk med at opdage forskellige grupper i deres kundebase. Og de kan karakterisere deres kundegrupper baseret på indkøbsmønstrene.

  • inden for biologi kan det bruges til at udlede plante-og dyretaksonomier, kategorisere gener med lignende funktionaliteter og få indsigt i strukturer, der er forbundet med populationer.

  • Clustering hjælper også med at identificere områder med lignende arealanvendelse i en jordobservationsdatabase. Det hjælper også med at identificere grupper af huse i en by i henhold til hustype, værdi og geografisk placering.

  • Clustering hjælper også med at klassificere dokumenter på internettet til informationsopdagelse.

  • Clustering bruges også i outlier-detekteringsapplikationer såsom påvisning af kreditkortsvindel.

  • som en data mining-funktion fungerer klyngeanalyse som et værktøj til at få indsigt i fordelingen af data for at observere karakteristika for hver klynge.

krav til klyngedannelse i data mining

følgende punkter kaster lys over, hvorfor klyngedannelse er påkrævet i data mining −

  • skalerbarhed − vi har brug for meget skalerbare klyngedannelsesalgoritmer til at håndtere store databaser.

  • evne til at håndtere forskellige slags attributter − algoritmer skal kunne anvendes på enhver form for data såsom intervalbaserede (numeriske) data, kategoriske og binære data.

  • opdagelse af klynger med attributform − klyngealgoritmen skal være i stand til at detektere klynger af vilkårlig form. De bør ikke afgrænses til kun afstandsforanstaltninger, der har tendens til at finde sfærisk klynge af små størrelser.

  • høj dimensionalitet − klyngealgoritmen skal ikke kun være i stand til at håndtere lavdimensionelle data, men også det høje dimensionelle rum.

  • evne til at håndtere støjende data − databaser indeholder støjende, manglende eller fejlagtige data. Nogle algoritmer er følsomme over for sådanne data og kan føre til klynger af dårlig kvalitet.

  • Fortolkningsevne-klyngeresultaterne skal være fortolkelige, forståelige og anvendelige.

Klyngemetoder

Klyngemetoder kan klassificeres i følgende kategorier −

  • Partitioneringsmetode
  • hierarkisk metode
  • Densitetsbaseret metode
  • gitterbaseret metode
  • modelbaseret metode
  • Begrænsningsbaseret metode

Partitioneringsmetode H3>

Antag, at vi får en database med ‘n’ objekter, og Partitioneringsmetoden konstruerer ‘k’ partition af data. Hver partition vil repræsentere en klynge og K-kursen n. Det betyder, at det vil klassificere dataene i k −grupper, som opfylder følgende krav –

  • hver gruppe indeholder mindst et objekt.

  • hvert objekt skal tilhøre nøjagtigt en gruppe.

punkter at huske −

  • for et givet antal partitioner (siger k) opretter partitioneringsmetoden en indledende partitionering.

  • så bruger den den iterative flytningsteknik til at forbedre partitioneringen ved at flytte objekter fra en gruppe til en anden.

hierarkiske metoder

denne metode skaber en hierarkisk nedbrydning af det givne sæt dataobjekter. Vi kan klassificere hierarkiske metoder på baggrund af, hvordan den hierarkiske nedbrydning dannes. Der er to tilgange her −

  • Agglomerativ tilgang
  • splittende tilgang

Agglomerativ tilgang

denne tilgang er også kendt som bottom-up tilgang. I dette starter vi med, at hvert objekt danner en separat gruppe. Det fortsætter med at flette de objekter eller grupper, der er tæt på hinanden. Det fortsætter med at gøre det, indtil alle grupperne er fusioneret til en, eller indtil opsigelsesbetingelsen holder.

splittende tilgang

denne tilgang er også kendt som top-ned tilgang. I dette starter vi med alle objekterne i samme klynge. I den kontinuerlige iteration opdeles En klynge i mindre klynger. Det er nede, indtil hvert objekt i en klynge eller opsigelsesbetingelsen holder. Denne metode er stiv, dvs.når en sammensmeltning eller opdeling er færdig, kan den aldrig fortrydes.

tilgange til forbedring af kvaliteten af hierarkisk klyngedannelse

Her er de to tilgange, der bruges til at forbedre kvaliteten af hierarkisk klyngedannelse −

  • Udfør omhyggelig analyse af objektforbindelser ved hver hierarkisk partitionering.

  • Integrer hierarkisk agglomerering ved først at bruge en hierarkisk agglomerativ algoritme til at gruppere objekter i mikroklynger og derefter udføre makroklynger på mikroklyngerne.

Densitetsbaseret metode

denne metode er baseret på begrebet densitet. Grundtanken er at fortsætte med at vokse den givne klynge, så længe tætheden i nabolaget overstiger en vis tærskel, dvs.for hvert datapunkt inden for en given klynge skal radius for en given klynge indeholde mindst et minimum antal point.

gitterbaseret metode

i dette danner objekterne sammen et gitter. Objektrummet kvantiseres til et endeligt antal celler, der danner en gitterstruktur.

fordele

  • den største fordel ved denne metode er hurtig behandlingstid.

  • det afhænger kun af antallet af celler i hver dimension i det kvantiserede rum.

modelbaserede metoder

i denne metode antages en model for hver klynge for at finde den bedste pasform af data for en given model. Denne metode lokaliserer klyngerne ved at gruppere tæthedsfunktionen. Det afspejler den rumlige fordeling af datapunkterne.

denne metode giver også en måde at automatisk bestemme antallet af klynger baseret på standardstatistik under hensyntagen til outlier eller støj. Det giver derfor robuste klyngemetoder.

Begrænsningsbaseret metode

i denne metode udføres klyngningen ved inkorporering af bruger-eller applikationsorienterede begrænsninger. En begrænsning henviser til brugerens forventning eller egenskaberne for de ønskede klyngeresultater. Begrænsninger giver os en interaktiv måde at kommunikere med klyngeprocessen på. Begrænsninger kan specificeres af brugeren eller applikationskravet.

annoncer



Skriv et svar

Din e-mailadresse vil ikke blive publiceret.