Multivariačné škálovanie (MDS) je nástroj na vizualizáciu úrovne podobnosti jednotlivých prípadov v súbore údajov. Vzťahuje sa na súbor súvisiacich ordinačných metód používaných pri vizualizácii informácií, najmä na zobrazenie informácií obsiahnutých v matici vzdialenosti. Ide o formu nelineárnej redukcie rozmerov. Algoritmus MDS má za cieľ umiestniť každý objekt do N-rozmerného priestoru takým spôsobom, aby boli vzdialenosti medzi objektmi zachované čo najlepšie. Každému objektu sú potom priradené súradnice v každom z N rozmerov.
Počet rozmerov grafu MDS môže presiahnuť 2 a je určený a priori. Výber N=2 optimalizuje umiestnenie objektu pre 2D bodový graf. Príklady viacrozmerného škálovania si môžete pozrieť na obrázkoch v článku. Príklady so symbolmi v ruštine sú obzvlášť názorné.
Essence
Metóda viacrozmerného škálovania (MMS,MDS) je rozšírená sada klasických nástrojov, ktorá zovšeobecňuje optimalizačný postup pre množinu stratových funkcií a vstupných matíc známych vzdialeností s váhami a pod. V tomto kontexte sa užitočná funkcia straty nazýva stres, ktorý sa často minimalizuje postupom nazývaným majorizácia stresu.
Manuál
Existuje niekoľko možností pre viacrozmerné škálovanie. Programy MDS automaticky minimalizujú zaťaženie, aby získali riešenie. Jadrom nemetrického algoritmu MDS je proces dvojitej optimalizácie. Najprv je potrebné nájsť optimálnu monotónnu proximálnu transformáciu. Po druhé, konfiguračné body musia byť optimálne umiestnené tak, aby sa ich vzdialenosti čo najviac zhodovali so škálovanými hodnotami blízkosti.
Rozšírenie
Rozšírenie metrického viacrozmerného škálovania v štatistike, kde cieľový priestor je ľubovoľný hladký neeuklidovský priestor. Kde rozdiely sú vzdialenosti na povrchu a cieľový priestor je iný povrch. Tematické programy vám umožňujú nájsť prílohu s minimálnym skreslením jedného povrchu na druhý.
Kroky
Vo vykonávaní štúdie pomocou multivariačného škálovania je niekoľko krokov:
- Formulácia problému. Aké premenné chcete porovnávať? Koľko premenných chcete porovnať? Na aký účel bude štúdia použitá?
- Získavame vstupné údaje. Respondentom sa kladie séria otázok. Pre každý pár produktov sú požiadaní, aby ohodnotili podobnosť (zvyčajne na 7-bodovej Likertovej škále od veľmi podobných po veľmi odlišné). Prvá otázka môže byť napríklad pre Coca-Colu/Pepsi, ďalšia pre pivo, ďalšia pre Dr. Peppera atď. Počet otázok závisí od počtu značiek.
Alternatívne prístupy
Existujú dva ďalšie prístupy. Existuje technika nazývaná „Perceptual Data: Derived Approach“, v ktorej sa produkty rozkladajú na atribúty a hodnotenie sa robí na stupnici sémantického diferenciálu. Ďalšou metódou je „prístup k údajom o preferenciách“, pri ktorom sa respondentov pýtajú skôr na preferencie než na podobnosti.
Pozostáva z nasledujúcich krokov:
- Spustenie štatistického programu MDS. Softvér na vykonávanie postupu je dostupný v mnohých štatistických softvérových balíkoch. Často je na výber medzi metrickým MDS (ktorý sa zaoberá údajmi na úrovni intervalu alebo pomeru) a nemetrickým MDS (ktorý sa zaoberá ordinálnymi údajmi).
- Určenie počtu meraní. Výskumník musí určiť počet meraní, ktoré chce na počítači vytvoriť. Čím viac meraní, tým lepšia je štatistická zhoda, ale interpretácia výsledkov je zložitejšia.
- Zobraziť výsledky a definovať merania – štatistický program (alebo súvisiaci modul) zobrazí výsledky. Na mape sa zobrazí každý produkt (zvyčajne v 2D).priestor). Vzájomná blízkosť produktov naznačuje ich podobnosť alebo preferenciu v závislosti od toho, ktorý prístup bol použitý. Ako však merania skutočne zodpovedajú meraniam správania systému, nie je vždy jasné. Subjektívne posúdenie zhody je možné vykonať tu.
- Skontrolujte spoľahlivosť a validitu výsledkov – vypočítajte R-square, aby ste určili podiel škálovaného rozptylu údajov, ktorý môže byť zohľadnený postupom MDS. Štvorec R 0,6 sa považuje za minimálnu prijateľnú úroveň. R na druhú 0,8 sa považuje za dobré pre metrické škálovanie, zatiaľ čo 0,9 sa považuje za dobré pre nemetrické škálovanie.
Rôzne testy
Ďalšími možnými testami sú záťažové testy Kruskalovho typu, testy delených dát, testy stability dát a opakované testy spoľahlivosti. Napíšte podrobne o výsledkoch v teste. Spolu s mapovaním by mala byť špecifikovaná aspoň miera vzdialenosti (napr. Sorensonov index, Jaccardov index) a spoľahlivosti (napr. hodnota stresu).
Je tiež veľmi žiaduce uviesť algoritmus (napr. Kruskal, Mather), ktorý je často určený použitým programom (niekedy nahrádza správu o algoritme), ak ste zadali počiatočnú konfiguráciu alebo ste mali náhodný výber, číslo sérií rozmerov, výsledkov Monte Carlo, počtu iterácií, skóre stability a proporcionálneho rozptylu každej osi (r-štvorec).
Metóda analýzy vizuálnych informácií a údajovviacrozmerné škálovanie
Vizualizácia informácií je štúdium interaktívnych (vizuálnych) reprezentácií abstraktných údajov na zlepšenie ľudského poznania. Abstraktné údaje zahŕňajú numerické aj nenumerické údaje, ako sú textové a geografické informácie. Informačná vizualizácia sa však líši od vedeckej vizualizácie: „je informačná (informačná vizualizácia), keď sa vyberie priestorová reprezentácia, a scivis (vedecká vizualizácia), keď sa poskytne priestorová reprezentácia.“
Oblasť vizualizácie informácií vyplynula z výskumu interakcie človeka s počítačom, aplikácií počítačových vied, grafiky, vizuálneho dizajnu, psychológie a obchodných metód. Čoraz častejšie sa používa ako základný komponent vo vedeckom výskume, digitálnych knižniciach, dolovaní údajov, finančných údajoch, prieskume trhu, kontrole výroby atď.
Metódy a princípy
Vizualizácia informácií naznačuje, že metódy vizualizácie a interakcie využívajú bohatosť ľudského vnímania a umožňujú používateľom súčasne vidieť, skúmať a porozumieť veľkému množstvu informácií. Vizualizácia informácií má za cieľ vytvoriť prístupy na komunikáciu abstraktných údajov, informácií intuitívnym spôsobom.
Analýza údajov je neoddeliteľnou súčasťou všetkého aplikovaného výskumu a riešenia problémov v priemysle. VäčšinaZákladnými prístupmi k analýze údajov sú vizualizácia (histogramy, bodové grafy, povrchové grafy, stromové mapy, paralelné súradnicové grafy atď.), štatistika (testovanie hypotéz, regresia, PCA atď.), analýza údajov (párovanie atď.)..d.) a metódy strojového učenia (zhlukovanie, klasifikácia, rozhodovacie stromy atď.).
Spomedzi týchto prístupov vizualizácia informácií alebo vizuálna analýza údajov najviac závisí od kognitívnych schopností analytického personálu a umožňuje objavovanie neštruktúrovaných praktických poznatkov, ktoré sú obmedzené len ľudskou predstavivosťou a kreativitou. Analytik sa nemusí učiť žiadne zložité techniky, aby mohol interpretovať vizualizácie údajov. Vizualizácia informácií je tiež schémou generovania hypotéz, ktorá môže a je zvyčajne sprevádzaná analytickejšou alebo formálnejšou analýzou, ako je štatistické testovanie hypotéz.
Štúdia
Moderné štúdium vizualizácie sa začalo počítačovou grafikou, ktorá sa „od samého začiatku používala na štúdium vedeckých problémov. V prvých rokoch však nedostatok grafickej sily často obmedzoval jej užitočnosť. vyvinúť v roku 1987 s vydaním špeciálneho softvéru pre počítačovú grafiku a vizualizáciu vo vedeckej výpočtovej technike Odvtedy sa uskutočnilo niekoľko konferencií a workshopov, ktoré spoločne zorganizovali IEEE Computer Society a ACM SIGGRAPH."
Pokrývali všeobecné témy vizualizácie údajov, vizualizácie informácií a vedeckej vizualizácie,ako aj špecifickejšie oblasti, ako je vykresľovanie objemu.
Summary
Generalized Multidimensional Scaling (GMDS) je rozšírením metrického viacrozmerného škálovania, v ktorom je cieľový priestor neeuklidovský. Keď sú rozdiely vo vzdialenostiach na povrchu a cieľový priestor je iný povrch, GMDS vám umožní nájsť vnorenie jedného povrchu do druhého s minimálnym skreslením.
GMDS je nový smer výskumu. V súčasnosti sú hlavnými aplikáciami rozpoznávanie deformovateľných objektov (napríklad na rozpoznávanie 3D tváre) a mapovanie textúr.
Účelom viacrozmerného škálovania je reprezentovať viacrozmerné údaje. Interpretácia multidimenzionálnych údajov, teda údajov, ktoré vyžadujú viac ako dva alebo tri rozmery, môže byť náročná. Jedným prístupom k zjednodušeniu je predpokladať, že požadované údaje ležia na vloženom nelineárnom potrubí vo vysokorozmernom priestore. Ak má kolektor dostatočne nízku dimenziu, údaje možno vizualizovať v nízkorozmernom priestore.
Mnohé z nelineárnych metód znižovania rozmerov súvisia s lineárnymi metódami. Nelineárne metódy možno vo všeobecnosti rozdeliť do dvoch skupín: tie, ktoré poskytujú mapovanie (buď od vysokorozmerného priestoru po nízkorozmerné vkladanie, alebo naopak), a tie, ktoré jednoducho poskytujú vizualizáciu. V kontexte strojového učenia sa na metódy mapovania môžeme pozerať ako napredbežná fáza extrakcie prvkov, po ktorej sa aplikujú algoritmy rozpoznávania vzorov. Zvyčajne tie, ktoré poskytujú iba vizualizácie, sú založené na údajoch o blízkosti – t.j. meraniach vzdialenosti. Viacrozmerné škálovanie je tiež celkom bežné v psychológii a iných humanitných vedách.
Ak je počet atribútov veľký, priestor jedinečných možných reťazcov je tiež exponenciálne veľký. Čím je rozmer väčší, tým ťažšie je priestor zobraziť. To spôsobuje veľa problémov. Algoritmy, ktoré pracujú s vysokorozmernými dátami, majú tendenciu mať veľmi vysokú časovú zložitosť. Redukcia údajov na menej dimenzií často zefektívňuje analytické algoritmy a môže pomôcť algoritmom strojového učenia vytvárať presnejšie predpovede. To je dôvod, prečo je škálovanie viacrozmerných údajov také populárne.