Data Mining – shluková Analýza
Cluster je skupina objektů, které patří do stejné třídy. Jinými slovy, podobné objekty jsou seskupeny do jednoho clusteru a odlišné objekty jsou seskupeny do jiného clusteru.
co je shlukování?
shlukování je proces vytváření skupiny abstraktních objektů do tříd podobných objektů.
body k zapamatování
-
shluk datových objektů lze považovat za jednu skupinu.
-
při analýze clusteru nejprve rozdělíme sadu dat do skupin na základě podobnosti dat a poté přiřazíme štítky skupinám.
-
hlavní výhodou shlukování oproti klasifikaci je to, že je přizpůsobitelný změnám a pomáhá vyčlenit užitečné funkce, které odlišují různé skupiny.
Aplikace shlukové Analýzy
-
Clustering analýzy je široce používán v mnoha aplikacích, jako jsou výzkum trhu, rozpoznávání vzorů, analýza dat a zpracování obrazu.
-
Clustering může také pomoci obchodníkům objevit odlišné skupiny v jejich zákaznické základně. A mohou charakterizovat své skupiny zákazníků na základě nákupních vzorců.
-
V oblasti biologie, může být použit k odvození rostlin a zvířat taxonomie, kategorizovat geny s podobnou funkcí, a získat vhled do struktury vlastní populace.
-
shlukování také pomáhá při identifikaci oblastí podobného využití půdy v databázi pozorování Země. Pomáhá také při identifikaci skupin domů ve městě podle typu domu, hodnoty a geografické polohy.
-
Clustering také pomáhá při klasifikaci dokumentů na webu pro zjišťování informací.
-
Clustering se také používá v aplikacích detekce odlehlých hodnot, jako je detekce podvodů s kreditními kartami.
-
jako funkce dolování dat slouží klastrová analýza jako nástroj pro získání vhledu do distribuce dat pro sledování charakteristik každého klastru.
Požadavky Shlukování Data Mining
následující body vrhnout světlo na to, proč clustering, je nutné v dolování dat −
-
Škálovatelnost − potřebujeme vysoce škálovatelné clustering algoritmů vypořádat se s velkými databázemi.
-
Schopnost vypořádat se s různými druhy atributy − Algoritmy by měl být schopen být aplikován na jakýkoli typ dat, jako jsou interval-based (číselné) údaje, kategoriální a binární data.
-
objev shluků s tvarem atributu-shlukovací algoritmus by měl být schopen detekovat shluky libovolného tvaru. Neměly by být omezeny pouze na vzdálenosti, které mají tendenci najít kulový shluk malých rozměrů.
-
vysoká dimenzionalita-shlukovací algoritmus by neměl být schopen zpracovávat pouze nízkorozměrná data, ale také vysoký rozměrný prostor.
-
schopnost vypořádat se s hlučnými daty-databáze obsahují hlučné, chybějící nebo chybné údaje − Některé algoritmy jsou citlivé na taková data a mohou vést ke špatné kvalitě klastrů.
-
Interpretovatelnost – výsledky shlukování by měly být interpretovatelné, srozumitelné a použitelné.
Metody Shlukování
Clustering metody mohou být rozděleny do následujících kategorií −
- Metoda Rozdělování
- Hierarchická Metoda
- Hustota-Metoda založená na
- Grid-Based Metoda
- Model-Based Metoda
- Constraint-based Metoda
Metoda Rozdělování
Předpokládejme, že máme danou databázi ‚n‘ objekty a rozdělení metoda konstruuje “ k “ oddílu data. Každý oddíl bude představovat cluster A K ≤ n. To znamená, že bude klasifikovat data do skupin k, které splňují následující požadavky –
-
každá skupina obsahuje alespoň jeden objekt.
-
každý objekt musí patřit přesně do jedné skupiny.
body k zapamatování –
-
pro daný počet oddílů (řekněme k) vytvoří metoda dělení počáteční rozdělení.
-
pak používá iterativní relokační techniku ke zlepšení rozdělení přesunutím objektů z jedné skupiny do druhé.
hierarchické metody
tato metoda vytváří hierarchický rozklad dané sady datových objektů. Hierarchické metody můžeme klasifikovat na základě toho, jak se vytváří hierarchický rozklad. Existují dva přístupy zde −
- Agglomerative Přístup
- Dělící Přístup
Agglomerative Přístup
Tento přístup je také označován jako přístup „zdola nahoru“. V tomto začneme s každým objektem, který tvoří samostatnou skupinu. To udržuje na slučování objektů nebo skupin, které jsou blízko u sebe. To pokračovat v tom, dokud všechny skupiny jsou sloučeny do jedné nebo dokud podmínka ukončení platí.
dělící přístup
tento přístup je také známý jako přístup shora dolů. V tomto, začneme se všemi objekty ve stejném clusteru. V nepřetržité iteraci je shluk rozdělen na menší shluky. Je to dolů, dokud každý objekt v jednom clusteru nebo podmínka ukončení platí. Tato metoda je rigidní, tj. jakmile je provedeno sloučení nebo rozdělení, nikdy ji nelze vrátit zpět.
Přístupy ke Zlepšení Kvality Hierarchického Shlukování
Zde jsou dva přístupy, které jsou používány ke zlepšení kvality hierarchické shlukování −
-
Provést pečlivou analýzu objektu vazby na každé hierarchické rozdělení.
-
Začlenit hierarchické shlukování tím, že nejprve pomocí hierarchical agglomerative algoritmus pro skupinu objektů do mikro-shluků, a pak se provádí makro-clustering na mikro-shluků.
metoda založená na hustotě
tato metoda je založena na pojmu hustota. Základní myšlenkou je, aby i nadále roste daném clusteru tak dlouho, dokud hustota v okolí překročí určitou prahovou hodnotu, tj. pro každý datový bod v rámci daného klastru, poloměr daného clusteru musí obsahovat alespoň minimální počet bodů.
metoda založená na mřížce
v tomto případě objekty společně tvoří mřížku. Objektový prostor je kvantován do konečného počtu buněk, které tvoří mřížkovou strukturu.
výhody
-
hlavní výhodou této metody je rychlá doba zpracování.
-
je závislá pouze na počtu buněk v každé dimenzi v kvantizačních prostor.
metody založené na modelu
v této metodě se předpokládá, že model pro každý cluster najde nejvhodnější data pro daný model. Tato metoda lokalizuje shluky shlukováním funkce hustoty. Odráží prostorové rozložení datových bodů.
Tato metoda také poskytuje způsob, jak automaticky určit počet clusterů na základě standardní statistiky, přičemž outlier nebo hluk v úvahu. Proto poskytuje robustní metody shlukování.
metoda založená na omezeních
v této metodě se shlukování provádí začleněním uživatelských nebo aplikačně orientovaných omezení. Omezení se týká očekávání uživatele nebo vlastností požadovaných výsledků shlukování. Omezení nám poskytují interaktivní způsob komunikace s procesem shlukování. Omezení mohou být specifikována uživatelem nebo požadavkem aplikace.