Data Mining – Cluster Analysis
Klynge Er en gruppe objekter som tilhører samme klasse. Med andre ord grupperes lignende objekter i en klynge og ulike objekter grupperes i en annen klynge.
Hva Er Clustering?
Clustering Er prosessen med å lage en gruppe abstrakte objekter i klasser av lignende objekter.
Poeng Å Huske
-
en klynge av dataobjekter kan behandles som en gruppe.
-
Mens vi gjør klyngeanalyse, partisjonerer vi først datasettet i grupper basert på datalikhet og tilordner deretter etikettene til gruppene.den største fordelen med clustering over klassifisering er at den er tilpasningsdyktig til endringer og hjelper til med å skille ut nyttige funksjoner som skiller forskjellige grupper.
Applikasjoner Av Cluster Analysis
-
Clustering analyse er bredt brukt i mange applikasjoner som markedsundersøkelser, mønstergjenkjenning, dataanalyse og bildebehandling.
-
Clustering Kan også hjelpe markedsførere oppdage forskjellige grupper i sin kundebase. Og de kan karakterisere sine kundegrupper basert på innkjøpsmønstre.
-
innen biologi kan det brukes til å utlede plante-og dyrtaksonomier, kategorisere gener med lignende funksjoner og få innsikt i strukturer som er knyttet til populasjoner.
-
Clustering hjelper også med å identifisere områder med lignende arealbruk i en jordobservasjonsdatabase. Det hjelper også i identifisering av grupper av hus i en by i henhold til huset type, verdi, og geografisk plassering.
-
Clustering hjelper også i å klassifisere dokumenter på nettet for informasjon oppdagelse.
-
Clustering brukes også i outlier deteksjon programmer som påvisning av kredittkortsvindel.
-
som en datautvinningsfunksjon tjener klyngeanalyse som et verktøy for å få innsikt i fordelingen av data for å observere egenskapene til hver klynge.
Krav Til Clustering I Data Mining
følgende punkter kaster lys på hvorfor clustering er nødvendig i data mining −
-
Skalerbarhet-Vi trenger svært skalerbare clustering algoritmer for å håndtere store databaser.Evne til å håndtere ulike typer attributter − Algoritmer bør kunne brukes på alle slags data som intervallbaserte (numeriske) data, kategoriske og binære data.
-
Oppdagelse av klynger med attributtform-klyngealgoritmen skal kunne oppdage klynger av vilkårlig form. De bør ikke begrenses til bare avstandsmål som har en tendens til å finne sfærisk klynge av små størrelser.
-
Høy dimensjonalitet-klyngealgoritmen skal ikke bare kunne håndtere lavdimensjonale data, men også det høye dimensjonale rommet.
-
Evne til å håndtere støyende data − Databaser inneholder støyende, manglende eller feilaktige data. Noen algoritmer er følsomme for slike data og kan føre til dårlig kvalitetsklynger.
-
Tolkbarhet-klyngeresultatene skal være tolkbare, forståelige og brukbare.
Clustering Metoder
Clustering metoder kan klassifiseres i følgende kategorier −
- Partisjoneringsmetode
- Hierarkisk Metode
- Tetthet-basert Metode
- Grid-Basert Metode
- Modellbasert Metode
- Begrensning-basert Metode
Partisjoneringsmetode
anta at vi får en database med ‘n’ Objekter Og Partisjoneringsmetoden konstruerer ‘k’ partisjon Av Data. Hver partisjon vil representere en klynge og k ≤ n. Det betyr at det vil klassifisere dataene i k-grupper −som tilfredsstiller følgende krav –
-
Hver gruppe inneholder minst ett objekt.
-
hvert objekt må tilhøre nøyaktig en gruppe.
Poeng å huske −
-
for et gitt antall partisjoner (si k), vil partisjoneringsmetoden opprette en innledende partisjonering.
-
deretter bruker den iterativ flyttingsteknikk for å forbedre partisjoneringen ved å flytte objekter fra en gruppe til en annen.
Hierarkiske Metoder
denne metoden skaper en hierarkisk dekomponering av det gitte settet med dataobjekter. Vi kan klassifisere hierarkiske metoder på grunnlag av hvordan den hierarkiske dekomponeringen dannes. Det er to tilnærminger her −
- Agglomerativ Tilnærming
- Splittende Tilnærming
Agglomerativ Tilnærming
denne tilnærmingen er også kjent som bottom-up tilnærming. I dette starter vi med hvert objekt som danner en egen gruppe. Det holder på å slå sammen objekter eller grupper som er nær hverandre. Det fortsetter å gjøre det til alle gruppene er slått sammen til en eller til oppsigelsesbetingelsen holder.
Splittende Tilnærming
denne tilnærmingen er også kjent som top-down tilnærming. I dette starter vi med alle objektene i samme klynge. I den kontinuerlige iterasjonen deles en klynge opp i mindre klynger. Det er nede til hvert objekt i en klynge eller termineringsbetingelsen holder. Denne metoden er stiv, dvs. når en sammenslåing eller splitting er gjort, kan den aldri angres.
Tilnærminger For Å Forbedre Kvaliteten På Hierarkisk Clustering
Her er de to tilnærmingene som brukes til å forbedre kvaliteten på hierarkisk clustering −
-
Utfør nøye analyse av objektkoblinger ved hver hierarkisk partisjonering.
-
Integrer hierarkisk agglomerering ved først å bruke en hierarkisk agglomerativ algoritme for å gruppere objekter i mikroklynger, og deretter utføre makroklynger på mikroklyngene.
Tetthetsbasert Metode
denne metoden er basert på begrepet tetthet. Den grunnleggende ideen er å fortsette å vokse den gitte klyngen så lenge tettheten i nabolaget overskrider en viss terskel, dvs. for hvert datapunkt i en gitt klynge må radiusen til en gitt klynge inneholde minst et minimum antall poeng.
Grid-basert Metode
i dette danner objektene sammen et rutenett. Objektrommet er kvantisert til endelig antall celler som danner en gitterstruktur.
Fordeler
-
den største fordelen med denne metoden er rask behandlingstid.
-
det er bare avhengig av antall celler i hver dimensjon i det kvantiserte rommet.
Modellbaserte metoder
i denne metoden er en modell hypotese for hver klynge for å finne den beste passformen av data for en gitt modell. Denne metoden lokaliserer klyngene ved å klynge tetthetsfunksjonen. Det gjenspeiler romlig fordeling av datapunktene.
denne metoden gir også en måte å automatisk bestemme antall klynger basert på standardstatistikk, med hensyn til outlier eller støy. Det gir derfor robuste clustering metoder.
Begrensningsbasert Metode
i denne metoden utføres clustering ved inkorporering av bruker-eller applikasjonsorienterte begrensninger. En begrensning refererer til brukerens forventning eller egenskapene til ønskede clustering resultater. Begrensninger gir oss en interaktiv måte å kommunisere med clustering prosessen. Begrensninger kan spesifiseres av brukeren eller søknadskravet.