adatbányászat-Cluster Analysis
a Cluster egy objektumcsoport, amely ugyanahhoz az osztályhoz tartozik. Más szavakkal, a hasonló objektumok egy fürtbe vannak csoportosítva, a különböző objektumok pedig egy másik fürtbe vannak csoportosítva.
mi a klaszterezés?
a klaszterezés az absztrakt objektumok csoportjának hasonló objektumok osztályaiba történő besorolásának folyamata.
emlékező pontok
-
az adatobjektumok halmaza egy csoportként kezelhető.
-
a klaszterelemzés során először az adathalmazt csoportokra osztjuk az adatok hasonlósága alapján, majd a címkéket hozzárendeljük a csoportokhoz.
-
a csoportosítás fő előnye az osztályozással szemben, hogy alkalmazkodik a változásokhoz, és segít megkülönböztetni a különböző csoportokat.
A klaszterelemzés alkalmazásai
-
A Klaszterelemzést széles körben használják számos alkalmazásban, például piackutatásban, mintafelismerésben, adatelemzésben és képfeldolgozásban.
-
a klaszterezés segíthet a marketingszakembereknek abban is, hogy különböző csoportokat fedezzenek fel ügyfélkörükben. A vásárlói csoportokat pedig a vásárlási minták alapján jellemezhetik.
-
a biológia területén felhasználható növényi és állati taxonómiák levezetésére, hasonló funkciójú gének kategorizálására és a populációkban rejlő struktúrákba való betekintésre.
-
a klaszterezés segít a hasonló földhasználatú területek azonosításában egy földmegfigyelési adatbázisban. Segít a házak csoportjainak azonosításában egy városban a ház típusa, értéke és földrajzi elhelyezkedése szerint.
-
a klaszterezés segít a dokumentumok osztályozásában az interneten az információk felfedezéséhez.
-
A Klaszterezést olyan külső észlelési alkalmazásokban is használják, mint például a hitelkártya-csalások észlelése.
-
adatbányászati funkcióként a klaszterelemzés eszközként szolgál arra, hogy betekintést nyerjen az adatok eloszlásába az egyes klaszterek jellemzőinek megfigyelése érdekében.
A klaszterezés követelményei az Adatbányászatban
a következő pontok rávilágítanak arra, hogy miért van szükség klaszterezésre az adatbányászatban −
-
skálázhatóság − nagy méretű adatbázisok kezeléséhez nagyon skálázható fürtözési algoritmusokra van szükségünk.
-
képesség különböző attribútumok kezelésére − az algoritmusoknak képesnek kell lenniük bármilyen adatra, például intervallum alapú (numerikus) adatokra, kategorikus és bináris adatokra.
-
attribútum alakú klaszterek felfedezése − a klaszterezési algoritmusnak képesnek kell lennie tetszőleges alakú klaszterek kimutatására. Nem szabad csak olyan távolságmérőkre korlátozni őket, amelyek általában kis méretű gömb alakú klasztert találnak.
-
magas dimenzió − a klaszterezési algoritmusnak nemcsak az alacsony dimenziós adatok, hanem a magas dimenziós tér kezelésére is képesnek kell lennie.
-
képesség a zajos adatok kezelésére − az adatbázisok zajos, hiányzó vagy hibás adatokat tartalmaznak. Egyes algoritmusok érzékenyek az ilyen adatokra, és rossz minőségű klaszterekhez vezethetnek.
-
értelmezhetőség − a klaszterezési eredményeknek értelmezhetőnek, érthetőnek és használhatónak kell lenniük.
klaszterezési módszerek
a klaszterezési módszerek a következő kategóriákba sorolhatók:
- particionálási módszer
- hierarchikus módszer
- Sűrűségalapú módszer
- rácsalapú módszer
- modellalapú módszer
- kényszer alapú módszer
particionálási módszer
tegyük fel, hogy ‘n’ objektumok adatbázisát kapjuk, és a particionálási módszer az adatok ‘k’ partícióját hozza létre. Minden partíció egy fürtöt és K-t fog képviselni. Ez azt jelenti, hogy az adatokat k csoportokba sorolja, amelyek megfelelnek a következő követelményeknek −
-
minden csoport legalább egy objektumot tartalmaz.
-
minden objektumnak pontosan egy csoporthoz kell tartoznia.
megjegyezendő pontok –
-
adott számú partíció esetén (mondjuk k) a particionálási módszer kezdeti particionálást hoz létre.
-
ezután az iteratív áthelyezési technikát használja a particionálás javítására az objektumok egyik csoportból a másikba mozgatásával.
hierarchikus módszerek
Ez a módszer hierarchikus bomlást hoz létre az adott adatobjektum-készletben. A hierarchikus módszereket a hierarchikus bomlás kialakulásának módja alapján osztályozhatjuk. Két megközelítés létezik itt-
- Agglomeratív megközelítés
- megosztó megközelítés
Agglomeratív megközelítés
ezt a megközelítést alulról felfelé irányuló megközelítésnek is nevezik. Ebben azzal kezdjük, hogy minden objektum külön csoportot alkot. Folyamatosan egyesíti az egymáshoz közeli objektumokat vagy csoportokat. Addig folytatja ezt, amíg az összes csoport be nem olvad egybe, vagy amíg a felmondási feltétel fennáll.
megosztó megközelítés
ezt a megközelítést felülről lefelé irányuló megközelítésnek is nevezik. Ebben kezdjük az összes objektum ugyanabban a klaszterben. A folyamatos iteráció során a klaszter kisebb klaszterekre oszlik. Ez le, amíg minden objektum egy fürt vagy a végződési feltétel tart. Ez a módszer merev, azaz ha egyszer összevonás vagy felosztás történik, soha nem lehet visszavonni.
A hierarchikus csoportosítás minőségének javítására irányuló megközelítések
íme a két megközelítés, amelyek a hierarchikus csoportosítás minőségének javítására szolgálnak −
-
végezze el az objektumkapcsolatok gondos elemzését minden hierarchikus particionálásnál.
-
integrálja a hierarchikus agglomerációt úgy, hogy először hierarchikus agglomerációs algoritmust használ az objektumok mikro-klaszterekbe történő csoportosításához, majd makro-klaszterezést hajt végre a mikro-klasztereken.
Sűrűségalapú módszer
Ez a módszer a sűrűség fogalmán alapul. Az alapötlet az, hogy addig folytatjuk az adott klaszter növekedését, amíg a szomszédság sűrűsége meghalad egy bizonyos küszöbértéket, azaz egy adott klaszter minden egyes adatpontjához egy adott klaszter sugarának legalább minimális számú pontot kell tartalmaznia.
rács alapú módszer
ebben az objektumok együtt rácsot alkotnak. Az objektumteret véges számú cellára kvantálják, amelyek rácsszerkezetet alkotnak.
előnyök
-
ennek a módszernek a fő előnye a gyors feldolgozási idő.
-
csak a kvantált tér minden dimenziójában lévő cellák számától függ.
modellalapú módszerek
ebben a módszerben egy modellt feltételeznek minden klaszter számára, hogy megtalálják az adott modellhez legjobban illeszkedő adatokat. Ez a módszer a sűrűségfüggvény csoportosításával megkeresi a klasztereket. Ez tükrözi az adatpontok térbeli eloszlását.
Ez a módszer lehetővé teszi a klaszterek számának automatikus meghatározását a standard statisztikák alapján, figyelembe véve a kiugró értéket vagy a zajt. Ezért robusztus klaszterezési módszereket eredményez.
Kényszeralapú módszer
ebben a módszerben a klaszterezést felhasználó vagy alkalmazásorientált korlátok beépítésével hajtják végre. A kényszer a felhasználó elvárására vagy a kívánt fürtözési eredmények tulajdonságaira utal. A korlátozások interaktív módon kommunikálnak a klaszterezési folyamattal. A korlátozásokat a felhasználó vagy az alkalmazás követelménye határozhatja meg.