Data Mining – Analiza klastra
klaster jest grupą obiektów należących do tej samej klasy. Innymi słowy, podobne obiekty są grupowane w jednym klastrze, a różne obiekty są grupowane w innym klastrze.
co to jest klastrowanie?
klastrowanie to proces tworzenia grupy abstrakcyjnych obiektów w klasy podobnych obiektów.
punkty do zapamiętania
-
klaster obiektów danych może być traktowany jako jedna grupa.
-
wykonując analizę klastra, najpierw dzielimy zestaw danych na grupy na podstawie podobieństwa danych, a następnie przypisujemy etykiety do grup.
-
główną zaletą klastrowania nad klasyfikacją jest to, że można go dostosować do zmian i pomaga wyróżnić przydatne funkcje, które rozróżniają różne grupy.
zastosowania analizy klastrów
-
Analiza klastrów jest szeroko stosowana w wielu zastosowaniach, takich jak badania rynku, rozpoznawanie wzorców, analiza danych i przetwarzanie obrazów.
-
klastrowanie może również pomóc marketerom odkryć różne grupy w swojej bazie klientów. I mogą scharakteryzować swoje grupy klientów w oparciu o wzorce zakupów.
-
w dziedzinie biologii może być używany do wyprowadzania taksonomii roślin i zwierząt, kategoryzowania genów o podobnych funkcjach i uzyskania wglądu w struktury właściwe populacjom.
-
klastrowanie pomaga również w identyfikacji obszarów o podobnym użytkowaniu w bazie danych obserwacji Ziemi. Pomaga również w identyfikacji grup domów w mieście w zależności od rodzaju domu, wartości i położenia geograficznego.
-
klastrowanie pomaga również w klasyfikowaniu dokumentów w Internecie pod kątem wyszukiwania informacji.
-
klastrowanie jest również wykorzystywane w aplikacjach wykrywania odstających, takich jak wykrywanie oszustw związanych z kartami kredytowymi.
-
jako funkcja eksploracji danych, analiza klastra służy jako narzędzie do uzyskania wglądu w rozkład danych w celu obserwacji charakterystyk każdego klastra.
wymagania dotyczące klastrowania w eksploracji danych
poniższe punkty rzucają światło na to, dlaczego klastrowanie jest wymagane w eksploracji danych −
-
skalowalność − potrzebujemy wysoce skalowalnych algorytmów klastrowania, aby radzić sobie z dużymi bazami danych.
-
umiejętność radzenia sobie z różnymi rodzajami atrybutów − algorytmy powinny być w stanie stosować się do każdego rodzaju danych, takich jak dane interwałowe (numeryczne), dane kategoryczne i dane binarne.
-
wykrywanie klastrów z atrybutem shape − algorytm grupowania powinien być zdolny do wykrywania klastrów o dowolnym kształcie. Nie należy ich ograniczać tylko do miar odległości, które mają tendencję do znajdowania kulistych skupisk o małych rozmiarach.
-
wysoka wymiarowość − algorytm klastrowania powinien być w stanie obsłużyć nie tylko dane o niskim wymiarze, ale także przestrzeń o wysokim wymiarze.
-
umiejętność radzenia sobie z hałaśliwymi danymi − bazy danych zawierają hałaśliwe, brakujące lub błędne dane. Niektóre algorytmy są wrażliwe na takie dane i mogą prowadzić do słabej jakości klastrów.
-
Interpretowalność − wyniki klastrowania powinny być interpretowalne, zrozumiałe i użyteczne.
metody klastrowania
metody klastrowania można podzielić na następujące kategorie −
- metoda partycjonowania
- metoda hierarchiczna
- metoda oparta na gęstości
- metoda oparta na siatce
- metoda oparta na modelu
- metoda oparta na ograniczeniach
metoda partycjonowania
Załóżmy, że mamy bazę danych 'N’ obiektów i metoda partycjonowania konstruuje 'k’ partycji danych. Każda partycja będzie reprezentować klaster i k ≤ N. Oznacza to, że zaklasyfikuje dane do grup k, które spełniają następujące wymagania −
-
każda grupa zawiera co najmniej jeden obiekt.
-
każdy obiekt musi należeć do dokładnie jednej grupy.
punkty do zapamiętania −
-
dla określonej liczby partycji (powiedzmy k), metoda partycjonowania utworzy partycję początkową.
-
następnie używa iteracyjnej techniki relokacji, aby poprawić partycjonowanie poprzez przenoszenie obiektów z jednej grupy do drugiej.
metody hierarchiczne
metoda ta tworzy hierarchiczny rozkład danego zestawu obiektów danych. Metody hierarchiczne możemy klasyfikować na podstawie tego, w jaki sposób powstaje rozkład hierarchiczny. Istnieją tu dwa podejścia-
- podejście aglomeracyjne
- podejście dzielące
podejście aglomeracyjne
to podejście jest również znane jako podejście oddolne. W tym, zaczynamy od każdego obiektu tworząc osobną grupę. Nadal łączy obiekty lub grupy, które są blisko siebie. Kontynuuje to, dopóki wszystkie grupy nie zostaną połączone w jedną lub dopóki warunek zakończenia nie zostanie zachowany.
podejście dzielące
to podejście jest również znane jako podejście odgórne. Zaczynamy od wszystkich obiektów w tym samym klastrze. W ciągłej iteracji klaster jest dzielony na mniejsze klastry. Jest w dół, dopóki każdy obiekt w jednym klastrze lub warunek zakończenia nie zostanie zachowany. Metoda ta jest sztywna, tzn. po połączeniu lub podziale nigdy nie można jej cofnąć.
metody poprawy jakości klastrowania hierarchicznego
oto dwa podejścia, które są używane do poprawy jakości klastrowania hierarchicznego −
-
wykonuj uważną analizę powiązań obiektów przy każdym partycjonowaniu hierarchicznym.
-
Zintegruj aglomerację hierarchiczną, najpierw używając hierarchicznego algorytmu aglomeracyjnego do grupowania obiektów w mikro-klastry, a następnie wykonując makro-klastry na mikro-klastrach.
metoda oparta na gęstości
metoda ta opiera się na pojęciu gęstości. Podstawową ideą jest kontynuowanie wzrostu danego klastra tak długo, jak gęstość w sąsiedztwie przekracza pewien próg, tj. dla każdego punktu danych w danym klastrze promień danego klastra musi zawierać co najmniej minimalną liczbę punktów.
metoda oparta na siatce
w tym, obiekty razem tworzą siatkę. Przestrzeń obiektu jest kwantyzowana na skończoną liczbę komórek, które tworzą strukturę siatki.
zalety
-
główną zaletą tej metody jest szybki czas przetwarzania.
-
jest zależna tylko od liczby komórek w każdym wymiarze w przestrzeni kwantyzowanej.
metody oparte na modelach
w tej metodzie dla każdego klastra zakłada się model, aby znaleźć najlepsze dopasowanie danych dla danego modelu. Ta metoda lokalizuje klastry poprzez grupowanie funkcji gęstości. Odzwierciedla rozkład przestrzenny punktów danych.
metoda ta umożliwia również automatyczne określanie liczby klastrów na podstawie standardowych statystyk, z uwzględnieniem wartości odstających lub szumów. W związku z tym daje solidne metody klastrowania.
metoda oparta na ograniczeniach
w tej metodzie klastrowanie jest wykonywane przez włączenie ograniczeń zorientowanych na użytkownika lub aplikację. Ograniczenie odnosi się do oczekiwań użytkownika lub właściwości pożądanych wyników klastrowania. Ograniczenia zapewniają nam interaktywny sposób komunikacji z procesem klastrowania. Ograniczenia mogą być określone przez użytkownika lub wymagania aplikacji.