Data Mining-Cluster Analysis

advertises

klusteri on samaan luokkaan kuuluva oliojoukko. Toisin sanoen samankaltaiset kohteet ryhmitellään yhteen klusteriin ja erilaiset kohteet toiseen klusteriin.

mitä on ryhmittely?

ryhmittely on prosessi, jossa abstraktien olioiden ryhmä tehdään samanlaisten olioiden luokiksi.

muistettavia kohtia

  • tietoobjektien klusteria voidaan käsitellä yhtenä ryhmänä.

  • klusterianalyysiä tehtäessä jaetaan ensin tietojoukko ryhmiin tietojen samankaltaisuuden perusteella ja sitten ryhmille jaetaan nimikkeet.

  • ryhmittelyn tärkein etu luokitteluun nähden on se, että se on muunneltavissa muutoksiin ja auttaa tunnistamaan hyödyllisiä ominaisuuksia, jotka erottavat eri ryhmät toisistaan.

Klusterianalyysin Sovellukset

  • Klusterianalyysiä käytetään laajasti monissa sovelluksissa, kuten markkinatutkimuksessa, hahmontunnistuksessa, data-analyysissä ja kuvankäsittelyssä.

  • ryhmittely voi myös auttaa markkinoijia löytämään asiakaskunnastaan erillisiä ryhmiä. Ja he voivat luonnehtia asiakasryhmiään ostotapojen perusteella.

  • biologian alalla sen avulla voidaan johtaa kasvien ja eläinten taksonomioita, luokitella geenejä, joilla on samanlaiset funktiot, ja saada tietoa populaatioille luontaisista rakenteista.

  • ryhmittely auttaa myös samankaltaisen maankäytön alueiden tunnistamisessa kaukokartoitustietokannasta. Se auttaa myös kaupungin taloryhmien tunnistamisessa talotyypin, arvon ja maantieteellisen sijainnin mukaan.

  • ryhmittely auttaa myös verkossa olevien asiakirjojen luokittelussa tiedonhakua varten.

  • ryhmittelyä käytetään myös poikkeavien tunnistussovelluksissa, kuten luottokorttipetosten havaitsemisessa.

  • tiedonhankintafunktiona klusterianalyysi toimii välineenä, jolla saadaan tietoa tiedon jakaumasta kunkin klusterin ominaisuuksien havainnoimiseksi.

tiedon louhinnan ryhmittelyn vaatimukset

seuraavat kohdat valottavat, miksi ryhmittelyä tarvitaan tiedon louhinnassa −

  • skaalautuvuus − tarvitsemme erittäin skaalautuvia ryhmittelyalgoritmeja suurten tietokantojen käsittelyyn.

  • kyky käsitellä erilaisia attribuutteja − algoritmeja tulisi voida soveltaa mihin tahansa dataan, kuten intervallipohjaiseen (numeeriseen) dataan, kategoriseen ja binääriseen dataan.

  • Attribuuttimuotoisten klustereiden löytäminen − klusterointialgoritmin pitäisi pystyä havaitsemaan mielivaltaisen muotoisia klustereita. Niitä ei pidä rajata vain etäisyysmittoihin, joilla on taipumus löytää pienen kokoisia pallomaisia rykelmiä.

  • Korkea dimensionaalisuus − klusterointialgoritmin pitäisi pystyä käsittelemään pieniulotteista dataa, mutta myös suuriulotteista avaruutta.

  • kyky käsitellä meluisaa dataa − tietokannat sisältävät meluisaa, puuttuvaa tai virheellistä tietoa. Jotkin algoritmit ovat herkkiä tällaiselle tiedolle ja voivat johtaa heikkolaatuisiin klustereihin.

  • Tulkittavuus − ryhmittelytulosten tulee olla tulkittavia, ymmärrettäviä ja käyttökelpoisia.

Ryhmitysmenetelmät

Ryhmitysmenetelmät voidaan luokitella seuraaviin kategorioihin −

  • Partitointimenetelmä
  • hierarkkinen menetelmä
  • Tiheyspohjainen menetelmä
  • mallipohjainen menetelmä
  • Rajoitepohjainen menetelmä

Partitointimenetelmä

oletetaan, että meille annetaan tietokanta ” n ”-olioista ja Osiointimenetelmä konstruoi ” k ” -osion tiedoista. Jokainen osio edustaa klusteria ja k ≤ n. Se tarkoittaa, että se luokittelee aineiston k −ryhmiin, jotka täyttävät seuraavat vaatimukset –

  • jokainen ryhmä sisältää vähintään yhden objektin.

  • jokaisen olion on kuuluttava täsmälleen yhteen ryhmään.

Points to remember −

  • tietylle määrälle osioita (sano k) osiointimenetelmä luo alkuperäisen osioinnin.

  • tämän jälkeen se käyttää iteratiivista siirtotekniikkaa partitioinnin parantamiseksi siirtämällä objekteja ryhmästä toiseen.

hierarkkiset menetelmät

tämä menetelmä luo hierarkkisen hajotelman annetulle tietojoukolle. Voimme luokitella hierarkkisia menetelmiä sen perusteella, miten hierarkkinen hajoaminen muodostuu. Tässä on kaksi lähestymistapaa –

  • Agglomeratiivinen lähestymistapa
  • jakava lähestymistapa

Agglomeratiivinen lähestymistapa

tätä lähestymistapaa kutsutaan myös alhaalta ylöspäin suuntautuvaksi lähestymistavaksi. Tässä lähdetään siitä, että jokainen olio muodostaa oman ryhmänsä. Se yhdistää jatkuvasti toisiaan lähellä olevia kohteita tai ryhmiä. Se pitää näin, kunnes kaikki ryhmät yhdistetään yhdeksi tai kunnes irtisanominen ehto pätee.

jaollinen lähestymistapa

tätä lähestymistapaa kutsutaan myös ylhäältä alas-lähestymistavaksi. Tässä aloitetaan kaikista saman rykelmän kohteista. Jatkuvassa iteraatiossa klusteri jaetaan pienempiin klustereihin. Se on alhaalla, kunnes jokainen kohde yhdessä klusterissa tai irtisanomisehto pitää. Tämä menetelmä on jäykkä, eli kun yhdistäminen tai jakaminen on tehty, sitä ei voi koskaan perua.

lähestymistavat hierarkkisen ryhmittelyn laadun parantamiseksi

tässä ovat kaksi lähestymistapaa, joita käytetään hierarkkisen ryhmittelyn laadun parantamiseen −

  • Suorita huolellinen analyysi objektien yhteyksistä jokaisessa hierarkkisessa osioinnissa.

  • integroi hierarkkinen agglomeraatio siten, että ensin käytetään hierarkkista agglomeratiivista algoritmia, jonka avulla objektit ryhmitellään mikroklustereiksi, ja sitten suoritetaan mikrolystereille makroklusterointi.

tiheyteen perustuva menetelmä

tämä menetelmä perustuu tiheyden käsitteeseen. Perusajatuksena on jatkaa tietyn klusterin kasvattamista niin kauan kuin tiheys naapurustossa ylittää jonkin kynnysarvon, eli jokaista tietyn klusterin datapistettä kohti tietyn klusterin säteen on sisällettävä vähintään vähimmäismäärä pisteitä.

Hilapohjainen menetelmä

tässä kappaleet muodostavat yhdessä hilan. Objektiavaruus kvantisoituu äärelliseksi määräksi soluja, jotka muodostavat hilarakenteen.

edut

  • menetelmän suurin etu on nopea käsittelyaika.

  • se riippuu vain solujen lukumäärästä kvantisoidussa avaruudessa kussakin ulottuvuudessa.

mallipohjaiset menetelmät

tässä menetelmässä jokaiselle ryppäälle oletetaan malli, jonka avulla löydetään parhaiten sopiva tieto tietylle mallille. Tässä menetelmässä klusterit paikallistetaan tiheysfunktion avulla. Se kuvastaa datapisteiden paikkajakaumaa.

tämä menetelmä tarjoaa myös tavan määrittää automaattisesti klustereiden lukumäärä standarditilastojen perusteella ottaen huomioon poikkeamat tai kohina. Siksi se tuottaa vankkoja klusterointimenetelmiä.

rajoitteisiin perustuva menetelmä

tässä menetelmässä ryhmittely suoritetaan liittämällä siihen käyttäjä-tai sovelluskeskeisiä rajoitteita. Rajoite viittaa käyttäjän odotukseen tai haluttujen ryhmittelytulosten ominaisuuksiin. Rajoitteet tarjoavat meille interaktiivisen tavan kommunikoida klusterointiprosessin kanssa. Rajoitteet voi määrittää käyttäjä tai sovelluksen vaatimus.

mainokset



Vastaa

Sähköpostiosoitettasi ei julkaista.