A klaszteranalízis többváltozós statisztikai technikák összessége, amelynek célja az esetek vagy egyének halmazának klaszterekbe vagy klaszterekbe csoportosítása.
A klaszteranalízis tehát egyfajta statisztikai csoportosítás. A cél az, hogy az egyes klaszterekben lévő adatok minél hasonlóbbak legyenek egymáshoz és a lehető legkülönbözőbbek legyenek a többi csoporthoz képest. Változókkal is elvégezhető.
Adattranszformáció a klaszteranalízisben
Az egyik probléma, amellyel az adatok csoportosításakor találkozunk, az, hogy az adatok néha különböző mértékegységekben vannak. Emiatt egy klaszter előtti elemzési lépést kell végrehajtani, amely lehetővé teszi a fürtözést.
A leggyakoribb módszer a szabványosítás. Ezt használják az adatok átalakítására, hogy hasonló mértékegységeik legyenek. Két szabályt kell figyelembe venni, a bináris változókat nem szabványosítják, és ha kategorikusak, akkor binárisokká válnak (jelenlét / hiány).
Módszerek a klaszteranalízisben
Számos módszer létezik a klaszteranalízis elvégzésére, de a Economy-Wiki.com oldalon a minket jellemző egyszerűség elvét követve sematikus módon meg fogjuk látni a legrelevánsabbat.
Hierarchikus módszerek
Az első osztályozás hierarchikus vagy nem hierarchikus módszer lenne. Az előbbiek az egyéneket hierarchikus fázisokba csoportosítják (innen származik a nevük). Ily módon egyszerre csak egy objektum vált csoportot, a többi ugyanazon a helyen marad.
Ezeket viszont a következő kategóriákba sorolják:
Agglomerációs módszerek
Ez abból áll, hogy az egyéneket minden alkalommal kevesebb klaszterbe csoportosítja. Az esetek számával megegyező számú csoportból indul ki, és csökken.
A legismertebbek:
- Legközelebbi szomszéd módszer: Ebben az esetben algoritmust használ az adatok csoportosításához. Amit keres, az a legkisebb távolság a legközelebbi egyének között. Nagyon érzékeny az adatokra, amelyek úgynevezett "zajt" okozhatnak. A legtávolabbi szomszéd módszer hasonló.
- Átlagos módszer a csoportok között: Amit csinál, az kiszámítja a csoportban lévő egyének és különösen egyikük közötti távolság átlagát. Nagyon hasznos az úgynevezett "zaj" csökkentése.
- Ward módszere: Az egyes veszteségek és a klaszter átlaga közötti eltérések négyzeteinek összeadása az információvesztés elkerülése érdekében. Ez az egyik legismertebb, és az átlagos, de nagyobb diszkriminációs erőn alapuló módszer előnyeivel rendelkezik.
Diszociatív módszerek
Ebben az esetben az, amit csinálsz, megoszt. Egyetlen klaszterrel kezdődik, és az elválasztásokat számos követelmény alapján javasolják.
A leggyakoribbak:
- A csoport átlaga, a legközelebbi szomszéd és a legtávolabbi szomszéd módszer: Ez a három módszer hasonló az előző esethez, de a disszociatív módszert alkalmazza. Vagyis ezúttal az, amit csinálunk, külön és nem csoportosítva.
- Centroid módszer: Széles körben használják a létesítmény helyének optimalizálására. Használja ezt a típusú elemzést a legmegfelelőbbek megtalálásához.
Nem hierarchikus módszerek
Ebben az esetben egy előre beállított megoldással indulnak. Ez a klaszterelemzés kiindulópontja. Ily módon a csoportokat előre felállítják, és minden esetet az egyikbe sorolják, annak jellemzőitől függően. Viszont más alcsoportokra oszthatjuk fel őket.
- Újrabeosztási módszerek: A legrelevánsabbak a centroid módszerek, például a k-középértékek. A medioidoké, például a PAM. Vagy a dinamikus felhőké.
- Közvetlen módszerek: A legfontosabb a blokkcsoportosítás, amelyet széles körben használnak az adatbányászatban.
- Reduktív módszerek: Ezek faktorelemzésen alapulnak.
- Sűrűség keresési módszerek: Egyrészt léteznének tipológiai megközelítések, például a modális elemzés. Másrészt vannak olyan valószínűségi tényeink, mint Wolfnak.
Klaszterelemzési példák
Lássunk végül néhány példát a klaszteranalízis alkalmazásokra.
- Képzeljük el, hogy van olyan országcsoportunk, amelyet bizonyos makrogazdasági változók, például infláció vagy munkanélküliség alapján csoportosítani akarunk. Ezt a típusú elemzést felhasználhatjuk homogén csoportok készítésére, például többé-kevésbé fejlett országokra.
- Egy másik példa lehet bizonyos szociodemográfiai jellemzőkkel rendelkező fogyasztók sora. Az ötlet az, hogy hasonló személyekkel rendelkező csoportokat hozzanak létre, amelyek viszont nagyon különböznek egymástól.
- De a közgazdaságtan mellett a klaszterelemzés más tudományokban is hasznos. Például a biológiában, a fajok osztályozásában, vagy a geológiában, hogy ugyanezt tegyük az ásványi anyagokkal.