Data Mining – analiza Cluster
Cluster este un grup de obiecte care aparține aceleiași clase. Cu alte cuvinte, obiecte similare sunt grupate într-un cluster și obiecte diferite sunt grupate într-un alt cluster.
ce este gruparea?
gruparea este procesul de a face un grup de obiecte abstracte în clase de obiecte similare.
puncte de reținut
-
un cluster de obiecte de date poate fi tratat ca un singur grup.
-
în timp ce facem analiza cluster, mai întâi partiționăm setul de date în grupuri bazate pe similitudinea datelor și apoi atribuim etichetele grupurilor.
-
principalul avantaj al grupării față de clasificare este că este adaptabil la schimbări și ajută la identificarea caracteristicilor utile care disting diferite grupuri.
aplicații de analiză Cluster
-
analiza Clustering este utilizată pe scară largă în multe aplicații, cum ar fi cercetarea de piață, recunoașterea modelelor, analiza datelor și procesarea imaginilor.
-
Clustering poate ajuta, de asemenea, marketing descoperi grupuri distincte în baza lor de clienți. Și își pot caracteriza grupurile de clienți pe baza modelelor de cumpărare.
-
în domeniul biologiei, poate fi folosit pentru a obține taxonomii vegetale și animale, pentru a clasifica genele cu funcționalități similare și pentru a obține o perspectivă asupra structurilor inerente populațiilor.
-
gruparea ajută, de asemenea, la identificarea zonelor de utilizare similară a terenurilor într-o bază de date de observare a Pământului. De asemenea, ajută la identificarea grupurilor de case dintr-un oraș în funcție de tipul casei, valoarea și locația geografică.
-
Clustering ajută, de asemenea, în clasificarea documentelor de pe web pentru descoperirea de informații.
-
Clustering este, de asemenea, utilizat în aplicații de detectare outlier, cum ar fi detectarea fraudei card de credit.
-
ca funcție de extragere a datelor, analiza clusterului servește ca instrument pentru a obține o perspectivă asupra distribuției datelor pentru a observa caracteristicile fiecărui cluster.
cerințele de Clustering în data Mining
următoarele puncte arunca lumina de ce clustering este necesară în data mining −
-
scalabilitate − avem nevoie de algoritmi de clustering extrem de scalabile pentru a face față cu baze de date mari.
-
abilitatea de a trata diferite tipuri de atribute − algoritmii ar trebui să poată fi aplicați pe orice tip de date, cum ar fi date (numerice) bazate pe intervale, date categorice și binare.
-
descoperirea clusterelor cu forma atributului − algoritmul de grupare ar trebui să fie capabil să detecteze clustere de formă arbitrară. Acestea nu ar trebui să fie limitate doar la măsuri de distanță care tind să găsească un grup sferic de dimensiuni mici.
-
dimensionalitate ridicată − algoritmul de clustering ar trebui să fie capabil nu numai să gestioneze date cu dimensiuni reduse, ci și spațiul cu dimensiuni ridicate.
-
abilitatea de a face față datelor zgomotoase − bazele de date conțin date zgomotoase, lipsă sau eronate. Unii algoritmi sunt sensibili la astfel de date și pot duce la clustere de calitate slabă.
-
Interpretabilitate − rezultatele de grupare ar trebui să fie interpretabile, inteligibile și utilizabile.
metode de grupare
metodele de grupare pot fi clasificate în următoarele categorii −
- metoda de partiționare
- metoda ierarhică
- metoda bazată pe densitate
- metoda bazată pe grilă
- metoda bazată pe Model
- metoda bazată pe constrângere
metoda de partiționare
să presupunem că ni se dă o bază de date cu ‘n’ obiecte și metoda de partiționare construiește ‘k’ partiție de date. Fiecare partiție va reprezenta un cluster și k n. Aceasta înseamnă că va clasifica datele în grupuri k, care îndeplinesc următoarele cerințe-
-
fiecare grup conține cel puțin un obiect.
-
fiecare obiect trebuie să aparțină exact unui grup.
puncte de reținut −
-
pentru un anumit număr de partiții (să zicem k), metoda de partiționare va crea o partiționare inițială.
-
apoi folosește tehnica de relocare iterativă pentru a îmbunătăți partiționarea prin mutarea obiectelor dintr-un grup în altul.
metode ierarhice
această metodă creează o descompunere ierarhică a setului dat de obiecte de date. Putem clasifica metodele ierarhice pe baza modului în care se formează descompunerea ierarhică. Există două abordări aici −
- abordare Aglomerativă
- abordare divizivă
abordare Aglomerativă
această abordare este cunoscută și sub numele de abordare de jos în sus. În acest sens, începem cu fiecare obiect formând un grup separat. Continuă să fuzioneze obiectele sau grupurile care sunt apropiate unul de celălalt. Continuă să facă acest lucru până când toate grupurile sunt îmbinate într-unul sau până când condiția de terminare este valabilă.
abordare divizivă
această abordare este cunoscută și sub numele de abordare de sus în jos. În acest sens, începem cu toate obiectele din același cluster. În iterația continuă, un cluster este împărțit în clustere mai mici. Este în jos până când fiecare obiect într-un cluster sau condiția de terminare deține. Această metodă este rigidă, adică, odată ce se face o fuziune sau divizare, nu poate fi niciodată anulată.
abordări pentru îmbunătățirea calității Clusterizării ierarhice
Iată cele două abordări care sunt utilizate pentru îmbunătățirea calității clusterizării ierarhice −
-
efectuați o analiză atentă a legăturilor de obiecte la fiecare partiționare ierarhică.
-
integrați aglomerarea ierarhică utilizând mai întâi un algoritm aglomerat ierarhic pentru a grupa obiectele în micro-clustere și apoi efectuați macro-clustering pe micro-clustere.
metoda bazată pe densitate
această metodă se bazează pe noțiunea de densitate. Ideea de bază este de a continua creșterea clusterului dat atâta timp cât densitatea din vecinătate depășește un anumit prag, adică pentru fiecare punct de date dintr-un cluster dat, raza unui cluster dat trebuie să conțină cel puțin un număr minim de puncte.
metoda bazată pe grilă
în aceasta, obiectele formează împreună o grilă. Spațiul obiect este cuantificat în număr finit de celule care formează o structură de rețea.
avantaje
-
avantajul major al acestei metode este timpul de procesare rapidă.
-
depinde numai de numărul de celule din fiecare dimensiune din spațiul cuantificat.
metode bazate pe Model
În această metodă, un model este ipotezat pentru fiecare cluster pentru a găsi cea mai bună potrivire a datelor pentru un model dat. Această metodă localizează clusterele prin gruparea funcției de densitate. Aceasta reflectă distribuția spațială a punctelor de date.
această metodă oferă, de asemenea, o modalitate de a determina automat numărul de clustere pe baza statisticilor standard, luând în considerare outlier sau zgomot. Prin urmare, produce metode robuste de grupare.
metoda bazată pe constrângeri
în această metodă, gruparea se realizează prin încorporarea constrângerilor orientate către utilizator sau aplicație. O constrângere se referă la așteptările utilizatorului sau la proprietățile rezultatelor de grupare dorite. Constrângerile ne oferă un mod interactiv de comunicare cu procesul de grupare. Constrângerile pot fi specificate de utilizator sau de cerința aplicației.