Metóda zhlukovania je úlohou zoskupiť množinu objektov takým spôsobom, aby sa v rovnakej skupine navzájom podobali viac než objektom v iných odvetviach. Je to primárna úloha dolovania údajov a všeobecná technika štatistickej analýzy používaná v mnohých oblastiach vrátane strojového učenia, rozpoznávania vzorov, rozpoznávania obrázkov, získavania informácií, kompresie údajov a počítačovej grafiky.
Problém s optimalizáciou
Samotná metóda klastrovania nie je jeden špecifický algoritmus, ale všeobecná úloha, ktorú je potrebné vyriešiť. Dá sa to dosiahnuť rôznymi algoritmami, ktoré sa výrazne líšia v chápaní toho, čo tvorí skupinu a ako ju efektívne nájsť. Použitie metódy zhlukovania na vytváranie metasubjektov zahŕňa použitie skupiny smalé vzdialenosti medzi členmi, husté oblasti priestoru, intervaly alebo určité štatistické rozdelenia. Preto je možné klastrovanie formulovať ako problém optimalizácie s viacerými cieľmi.
Vhodná metóda a nastavenia parametrov (vrátane položiek, ako je funkcia vzdialenosti, ktorá sa má použiť, prah hustoty alebo počet očakávaných zhlukov) závisia od individuálneho súboru údajov a zamýšľaného použitia výsledkov. Analýza ako taká nie je automatickou úlohou, ale iteratívnym procesom zisťovania znalostí alebo interaktívnou multi-cieľovou optimalizáciou. Táto metóda klastrovania zahŕňa pokusy a omyly. Často je potrebné upraviť predspracovanie údajov a parametre modelu, kým výsledok nedosiahne požadované vlastnosti.
Okrem výrazu „zhlukovanie“existuje množstvo slov s podobným významom, vrátane automatickej klasifikácie, numerickej taxonómie, bothryológie a typologickej analýzy. Jemné rozdiely často spočívajú v použití metódy zhlukovania na vytváranie metasubjektových vzťahov. Zatiaľ čo pri extrakcii údajov sú výsledné skupiny zaujímavé, pri automatickej klasifikácii je to už diskriminačná sila, ktorá vykonáva tieto funkcie.
Zhluková analýza bola založená na mnohých prácach Kroebera v roku 1932. Do psychológie ju uviedol Zubin v roku 1938 a Robert Tryon v roku 1939. A tieto práce používa Cattell od roku 1943 na označenie klasifikácie metód zhlukovania v teórii.
Term
Pojem „zhluk“nemožno presne definovať. To je jeden z dôvodov, prečo existuje toľko metód klastrovania. Existuje spoločný menovateľ: skupina dátových objektov. Rôzni výskumníci však používajú rôzne modely. A každé z týchto použití metód klastrovania zahŕňa iné údaje. Koncept nájdený rôznymi algoritmami sa výrazne líši vo svojich vlastnostiach.
Použitie metódy klastrovania je kľúčom k pochopeniu rozdielov medzi pokynmi. Typické vzory klastrov zahŕňajú:
- Centroid s. Toto je napríklad, keď zhlukovanie k-means predstavuje každý zhluk s jedným stredným vektorom.
- Model pripojenia s. Ide napríklad o hierarchické zoskupovanie, ktoré vytvára modely založené na konektivite na diaľku.
- Distribučný model s. V tomto prípade sú klastre modelované pomocou metódy zhlukovania, aby sa vytvorili metasubjektové štatistické distribúcie. Ako napríklad multivariačná normálna separácia, ktorá je použiteľná pre algoritmus maximalizácie očakávaní.
- Density model s. Sú to napríklad DBSCAN (Spatial Clustering Algorithm with Noise) a OPTICS (Order Points for Structure Detection), ktoré definujú klastre ako spojené husté oblasti v dátovom priestore.
- Podpriestorový model c. V biklastre (známom aj ako spoločné zoskupovanie alebo dva režimy) sú skupiny modelované s oboma prvkami a s príslušnými atribútmi.
- Model s. Niektoré algoritmy nieprepracovaný vzťah pre ich metódu zhlukovania, aby sa generovali metapredmetové výsledky a jednoducho poskytovali informácie do skupín.
- Model založený na grafe s. Klika, teda podmnožina uzlov, taká, že každé dve spojenia v okrajovej časti možno považovať za prototyp tvaru zhluku. Oslabenie celkového dopytu je známe ako kvázi kliky. Presne rovnaký názov je uvedený v klastrovom algoritme HCS.
- Neurálne modely s. Najznámejšou sieťou bez dozoru je samoorganizujúca sa mapa. A práve tieto modely možno zvyčajne charakterizovať ako podobné jednej alebo viacerým z vyššie uvedených metód zhlukovania na vytváranie výsledkov meta subjektov. Zahŕňa podpriestorové systémy, keď neurónové siete implementujú potrebnú formu analýzy hlavných alebo nezávislých komponentov.
Tento výraz je v skutočnosti súborom takýchto skupín, ktoré zvyčajne obsahujú všetky objekty v súbore metód klastrovania údajov. Okrem toho môže naznačovať vzájomný vzťah zhlukov, ako je hierarchia systémov zabudovaných do seba. Zoskupenie možno rozdeliť do nasledujúcich hľadísk:
- Metóda zhlukovania pevného ťažiska. Tu každý objekt patrí do skupiny alebo je mimo nej.
- Mäkký alebo fuzzy systém. V tomto bode už každý objekt patrí do určitej miery do akéhokoľvek zhluku. Nazýva sa aj metóda fuzzy zhlukovania c-means.
A sú možné aj jemnejšie rozdiely. Napríklad:
- Prísne rozdelenie na klastrovanie. Tukaždý objekt patrí presne do jednej skupiny.
- Prísne rozdelenie na klastrovanie s odľahlými hodnotami. V tomto prípade objekty tiež nemusia patriť do žiadneho klastra a môžu sa považovať za zbytočné.
- Prekrývajúce sa zoskupovanie (tiež alternatívne s viacerými zobrazeniami). Tu môžu objekty patriť do viac ako jednej vetvy. Zvyčajne zahŕňa pevné zhluky.
- Hierarchické metódy klastrovania. Objekty patriace do podradenej skupiny patria tiež do nadradeného subsystému.
- Vytvorenie podpriestoru. Hoci je to podobné ako prekrývajúce sa klastre, v rámci jedinečne definovaného systému by sa vzájomné skupiny nemali prekrývať.
Pokyny
Ako je uvedené vyššie, klastrovacie algoritmy možno klasifikovať na základe ich klastrového modelu. V nasledujúcom prehľade budú uvedené len najvýznamnejšie príklady týchto pokynov. Keďže môže byť publikovaných viac ako 100 algoritmov, nie všetky poskytujú modely pre svoje klastre, a preto ich nemožno jednoducho klasifikovať.
Neexistuje žiadny objektívne správny zhlukovací algoritmus. Ale, ako je uvedené vyššie, pokyn je vždy v zornom poli pozorovateľa. Najvhodnejší zhlukovací algoritmus pre konkrétny problém sa často musí vybrať experimentálne, pokiaľ neexistuje matematický dôvod na uprednostňovanie jedného modelu pred iným. Treba poznamenať, že algoritmus navrhnutý pre jeden typ zvyčajne nefungujesúbor údajov, ktorý obsahuje radikálne odlišný predmet. Napríklad k-means nemôže nájsť nekonvexné skupiny.
Zhlukovanie založené na pripojení
Tento zväzok je známy aj pod názvom hierarchický model. Vychádza z typickej myšlienky, že predmety sú viac spojené so susednými časťami ako s tými, ktoré sú oveľa vzdialenejšie. Tieto algoritmy spájajú objekty a vytvárajú rôzne zhluky v závislosti od ich vzdialenosti. Skupinu možno opísať hlavne maximálnou vzdialenosťou, ktorá je potrebná na spojenie rôznych častí klastra. Vo všetkých možných vzdialenostiach sa vytvoria ďalšie skupiny, ktoré je možné znázorniť pomocou dendrogramu. To vysvetľuje, odkiaľ pochádza všeobecný názov „hierarchické zhlukovanie“. To znamená, že tieto algoritmy neposkytujú jediný oddiel súboru údajov, ale namiesto toho poskytujú rozsiahle poradie právomocí. Je to vďaka nemu, že v určitých vzdialenostiach existuje odtok medzi sebou. V dendrograme os y označuje vzdialenosť, v ktorej sa zhluky spájajú. A objekty sú usporiadané pozdĺž línie X, aby sa skupiny nemiešali.
Zhlukovanie založené na spojení je celá skupina metód, ktoré sa líšia v spôsobe výpočtu vzdialeností. Okrem zvyčajného výberu funkcií vzdialenosti musí používateľ rozhodnúť aj o kritériu pripojenia. Keďže klaster pozostáva z niekoľkých objektov, existuje veľa možností na jeho výpočet. Populárna voľba je známa ako jednopákové zoskupenie, toto je metódaúplný odkaz, ktorý obsahuje UPGMA alebo WPGMA (nevážený alebo vážený súbor párov s aritmetickým priemerom, známy aj ako zhlukovanie priemerných odkazov). Okrem toho môže byť hierarchický systém aglomeratívny (začínajúc jednotlivými prvkami a ich spájaním do skupín) alebo deliaci (začínajúc úplným súborom údajov a rozdeľovaním do sekcií).
Distribuované zoskupovanie
Tieto modely najviac súvisia so štatistikami, ktoré sú založené na rozdelení. Klastre možno jednoducho definovať ako objekty, ktoré s najväčšou pravdepodobnosťou patria do rovnakej distribúcie. Praktickou vlastnosťou tohto prístupu je, že je veľmi podobný spôsobu, akým sa vytvárajú umelé súbory údajov. Vzorkovaním náhodných objektov z distribúcie.
Hoci teoretický základ týchto metód je vynikajúci, trpia jedným kľúčovým problémom, známym ako overfitting, pokiaľ nie sú stanovené limity na zložitosť modelu. Väčšia asociácia zvyčajne vysvetlí údaje lepšie, takže je ťažké vybrať správnu metódu.
Gaussov model zmesi
Táto metóda využíva všetky druhy algoritmov maximalizácie očakávaní. Tu sa súbor údajov zvyčajne modeluje s pevným (aby sa zabránilo prepísaniu) počtom gaussovských rozdelení, ktoré sa inicializujú náhodne a ktorých parametre sa iteračne optimalizujú, aby lepšie vyhovovali súboru údajov. Tento systém bude konvergovať k lokálnemu optimu. To je dôvod, prečo môže dať niekoľko jázdrozdielne výsledky. Aby sa dosiahlo čo najužšie zoskupenie, funkcie sa často priraďujú ku gaussovskej distribúcii, do ktorej s najväčšou pravdepodobnosťou patria. A pre mäkšie skupiny to nie je potrebné.
Zhlukovanie založené na distribúcii vytvára komplexné modely, ktoré v konečnom dôsledku dokážu zachytiť koreláciu a závislosť medzi atribútmi. Tieto algoritmy však predstavujú ďalšiu záťaž pre používateľa. Pre mnohé súbory údajov z reálneho sveta nemusí existovať výstižne definovaný matematický model (napríklad predpoklad, že Gaussovo rozdelenie je dosť silný predpoklad).
Zhlukovanie založené na hustote
V tomto príklade sú skupiny v podstate definované ako oblasti s vyššou nepriepustnosťou ako zvyšok súboru údajov. Objekty v týchto vzácnych častiach, ktoré sú potrebné na oddelenie všetkých komponentov, sa zvyčajne považujú za šum a okrajové body.
Najpopulárnejšou metódou klastrovania na základe hustoty je DBSCAN (Algoritmus klastrovania priestorového šumu). Na rozdiel od mnohých novších metód má dobre definovaný klastrový komponent nazývaný „dosahovateľnosť hustoty“. Podobne ako klastrovanie založené na odkazoch je založené na spojovacích bodoch v rámci určitých prahových hodnôt vzdialenosti. Táto metóda však zhromažďuje iba tie položky, ktoré spĺňajú kritérium hustoty. V pôvodnej verzii, definovanej ako minimálny počet ďalších objektov v tomto okruhu, sa zhluk skladá zo všetkýchpoložky súvisiace s hustotou (ktoré môžu tvoriť skupinu voľnej formy, na rozdiel od mnohých iných metód) a všetky objekty, ktoré sú v povolenom rozsahu.
Ďalšou zaujímavou vlastnosťou DBSCAN je, že jeho komplexnosť je pomerne nízka – vyžaduje lineárny počet dotazov na rozsah voči databáze. A nezvyčajné je aj to, že nájde v podstate rovnaké výsledky (toto je deterministické pre jadro a šumové body, ale nie pre hraničné prvky) v každom spustení. Preto ho nie je potrebné spúšťať viackrát.
Hlavnou nevýhodou DBSCAN a OPTICS je, že pri detekcii hraníc klastrov očakávajú určitý pokles hustoty. Napríklad v súboroch údajov s prekrývajúcimi sa gaussovskými distribúciami – bežným prípadom použitia pre umelé objekty – sa hranice klastrov generované týmito algoritmami často zdajú byť ľubovoľné. Deje sa tak preto, lebo hustota skupín neustále klesá. A v súbore údajov o Gaussovej zmesi tieto algoritmy takmer vždy prekonávajú metódy, ako je EM klastrovanie, ktoré sú schopné presne modelovať tieto typy systémov.
Stredné posunutie je zhlukový prístup, v ktorom sa každý objekt presúva do najhustejšej oblasti v okolí na základe odhadu celého jadra. V konečnom dôsledku sa objekty zbiehajú k lokálnym maximám nepriechodnosti. Podobne ako pri zhlukovaní k-means môžu tieto „atraktory hustoty“slúžiť ako zástupcovia súboru údajov. Ale priemerný posundokáže detekovať ľubovoľne tvarované zhluky podobné DBSCAN. V dôsledku drahého iteračného postupu a odhadu hustoty je priemerný posun zvyčajne pomalší ako DBSCAN alebo k-Means. Okrem toho, použiteľnosť typického algoritmu posunu na vysokorozmerné dáta je ťažká z dôvodu nerovnomerného správania odhadu hustoty jadra, čo vedie k nadmernej fragmentácii koncov klastra.
Hodnotenie
Overenie výsledkov klastrovania je rovnako náročné ako samotné klastrovanie. Populárne prístupy zahŕňajú „interné“skórovanie (keď je systém redukovaný na jediné meradlo kvality) a samozrejme „externé“skórovanie (kde sa zhlukovanie porovnáva s existujúcou klasifikáciou „základnej pravdy“). A manuálne skóre a nepriame skóre ľudského experta sa zistia preskúmaním užitočnosti zoskupovania v zamýšľanej aplikácii.
Opatrenia interného príznaku trpia problémom, že predstavujú prvky, ktoré samy osebe možno považovať za ciele zoskupovania. Napríklad je možné zoskupiť údaje dané koeficientom Silueta, ale nie je známy účinný algoritmus na to. Použitím takéhoto interného merania na vyhodnotenie je lepšie porovnať podobnosť optimalizačných problémov.
Vonkajšia značka má podobné problémy. Ak existujú takéto nálepky „prízemnej pravdy“, nie je potrebné sa zhlukovať. A v praktických aplikáciách takéto koncepty zvyčajne neexistujú. Na druhej strane štítky odrážajú iba jednu možnú časť súboru údajov, čo však neznamenáže neexistuje žiadne iné (možno ešte lepšie) zhlukovanie.
Žiadny z týchto prístupov teda nemôže v konečnom dôsledku posúdiť skutočnú kvalitu. To si však vyžaduje ľudské hodnotenie, ktoré je vysoko subjektívne. Napriek tomu takéto štatistiky môžu byť informatívne pri identifikácii zlých zhlukov. Nemali by sme však podceňovať subjektívne hodnotenie osoby.
Vnútorná značka
Keď sa výsledok klastrovania vyhodnocuje na základe údajov, ktoré boli samotné klastrované, označuje sa to ako tento výraz. Tieto metódy vo všeobecnosti priraďujú najlepší výsledok algoritmu, ktorý vytvára skupiny s vysokou podobnosťou v rámci skupín a nízkou medzi skupinami. Jednou z nevýhod používania interných kritérií pri hodnotení klastrov je, že vysoké skóre nevedie nevyhnutne k efektívnym aplikáciám na vyhľadávanie informácií. Toto skóre je tiež ovplyvnené algoritmami, ktoré používajú rovnaký model. Napríklad zoskupovanie k-means prirodzene optimalizuje vzdialenosti prvkov a interné kritérium založené na ňom pravdepodobne nadhodnotí výsledné zoskupovanie.
Preto sú tieto hodnotiace opatrenia najvhodnejšie na získanie predstavy o situáciách, v ktorých jeden algoritmus funguje lepšie ako iný. To však neznamená, že každá informácia poskytuje spoľahlivejšie výsledky ako ostatné. Doba platnosti meraná takýmto indexom závisí od tvrdenia, že štruktúra v súbore údajov existuje. Algoritmus vyvinutý pre niektoré typy nemá šancu, ak množina obsahuje radikálneodlišné zloženie alebo ak hodnotenie meria iné kritériá. Napríklad klastrovanie k-means môže nájsť iba konvexné zhluky a mnohé indexy skóre majú rovnaký formát. V súbore údajov s nekonvexnými modelmi je nevhodné použiť k-means a typické hodnotiace kritériá.
Externé hodnotenie
Pri tomto druhu zoskupovania sa výsledky zoskupovania vyhodnocujú na základe údajov, ktoré sa nepoužili na zoskupovanie. To znamená, ako sú známe štítky tried a externé testy. Takéto otázky pozostávajú zo súboru vopred klasifikovaných položiek a často ich vytvárajú odborníci (ľudia). Referenčné súpravy ako také možno považovať za zlatý štandard hodnotenia. Tieto typy skórovacích metód merajú, ako blízko je zhlukovanie daným referenčným triedam. Nedávno sa však diskutovalo o tom, či je to vhodné pre skutočné údaje alebo len pre syntetické súbory so skutočnou základnou pravdou. Keďže triedy môžu obsahovať vnútornú štruktúru a existujúce atribúty nemusia umožňovať oddelenie klastrov. Taktiež z hľadiska objavovania vedomostí nemusí reprodukovanie známych faktov nevyhnutne priniesť očakávaný výsledok. V špeciálnom scenári s obmedzeným zoskupovaním, kde sa už v procese zoskupovania používajú metainformácie (ako sú označenia tried), nie je triviálne uchovávať všetky informácie na účely hodnotenia.
Teraz je jasné, čo neplatí pre metódy klastrovania a aké modely sa na tieto účely používajú.