Štatistické modelovanie: metódy, popis, aplikácia

Obsah:

Štatistické modelovanie: metódy, popis, aplikácia
Štatistické modelovanie: metódy, popis, aplikácia
Anonim

Predpoklady zahrnuté v štatistickom modelovaní opisujú súbor rozdelenia pravdepodobnosti, z ktorých sa predpokladá, že niektoré primerane aproximujú rozloženie. Z definície sa vyberie konkrétny súbor údajov. Rozdelenie pravdepodobnosti vlastné štatistickému modelovaniu je to, čo odlišuje štatistické modely od iných, neštatistických, matematických modelov.

Image
Image

Spojenie s matematikou

Táto vedecká metóda má korene predovšetkým v matematike. Štatistické modelovanie systémov je zvyčajne dané matematickými rovnicami, ktoré súvisia s jednou alebo viacerými náhodnými premennými a prípadne inými nenáhodnými premennými. Štatistický model je teda „formálnym vyjadrením teórie“(Hermann Ader, cit. Kennetha Bollena).

Všetky testy štatistických hypotéz a všetky štatistické odhady sú odvodené zo štatistických modelov. Vo všeobecnosti sú štatistické modely súčasťou základu štatistického odvodzovania.

Metódy štatistikymodeling

Neformálne možno štatistický model považovať za štatistický predpoklad (alebo súbor štatistických predpokladov) s určitou vlastnosťou: tento predpoklad nám umožňuje vypočítať pravdepodobnosť akejkoľvek udalosti. Ako príklad si vezmite pár obyčajných šesťstenných kociek. Budeme študovať dva rôzne štatistické predpoklady o kosti.

Prvý štatistický predpoklad tvorí štatistický model, pretože len s jedným predpokladom môžeme vypočítať pravdepodobnosť akejkoľvek udalosti. Alternatívny štatistický predpoklad nepredstavuje štatistický model, pretože len s jedným predpokladom nemôžeme vypočítať pravdepodobnosť každej udalosti.

Typický štatistický model
Typický štatistický model

V uvedenom príklade s prvým predpokladom je ľahké vypočítať pravdepodobnosť udalosti. V niektorých iných príkladoch však môže byť výpočet zložitý alebo dokonca nepraktický (napríklad môže vyžadovať milióny rokov výpočtu). Pre predpoklad, ktorý tvorí štatistický model, je tento problém akceptovateľný: vykonanie výpočtu nemusí byť prakticky realizovateľné, len teoreticky možné.

Príklady modelov

Predpokladajme, že máme populáciu školákov s rovnomerne rozdelenými deťmi. Výška dieťaťa bude stochasticky súvisieť s vekom: napríklad, keď vieme, že dieťa má 7 rokov, ovplyvňuje to pravdepodobnosť, že bude mať výšku 5 stôp (asi 152 cm). Tento vzťah by sme mohli formalizovať v lineárnom regresnom modeli, napríklad: rast=b0 + b1agei+ εi, kde b0 je priesečník, b1 je parameter, ktorým sa pri získaní prognózy rastu násobí vek, εi je chybový člen. To znamená, že výška je predpovedaná podľa veku s určitou chybou.

Platný model sa musí zhodovať so všetkými dátovými bodmi. Takže priama čiara (heighti=b0 + b1agei) nemôže byť rovnicou pre dátový model - pokiaľ presne nepasuje do všetkých dátových bodov, t.j. všetky dátové body ležia dokonale na priamke. Chybový člen εi musí byť zahrnutý do rovnice, aby model vyhovoval všetkým dátovým bodom.

rodové štatistiky
rodové štatistiky

Ak chcete urobiť štatistický záver, musíme najprv predpokladať určité rozdelenia pravdepodobnosti pre εi. Napríklad môžeme predpokladať, že distribúcie εi sú Gaussovské, s nulovým priemerom. V tomto prípade bude mať model 3 parametre: b0, b1 a rozptyl Gaussovho rozdelenia.

Všeobecný popis

Štatistický model je špeciálna trieda matematického modelu. Čo odlišuje štatistický model od iných matematických modelov je to, že je nedeterministický. Používa sa na modelovanie štatistických údajov. V štatistickom modeli definovanom matematickými rovnicami teda niektoré premenné nemajú špecifické hodnoty, ale namiesto toho majú rozdelenie pravdepodobnosti; to znamená, že niektoré premenné sú stochastické. Vo vyššie uvedenom príklade je ε stochastická premenná; bez tejto premennej bol modelby bolo deterministické.

Štatistické modely sa často používajú v štatistickej analýze a modelovaní, aj keď je modelovaný fyzikálny proces deterministický. Napríklad hádzanie mincí je v princípe deterministický proces; napriek tomu sa zvyčajne modeluje ako stochastický (cez Bernoulliho proces).

štatistiky otepľovania
štatistiky otepľovania

Parametrické modely

Parametrické modely sú najčastejšie používané štatistické modely. Pokiaľ ide o semiparametrické a neparametrické modely, Sir David Cox povedal: "Vo všeobecnosti zahŕňajú menej predpokladov o štruktúre a tvare distribúcie, ale zvyčajne obsahujú silné predpoklady nezávislosti." Rovnako ako všetky ostatné spomenuté modely sa často používajú aj v štatistickej metóde matematického modelovania.

Viacúrovňové modely

Viacúrovňové modely (známe aj ako hierarchické lineárne modely, vnorené dátové modely, zmiešané modely, náhodné koeficienty, modely náhodných efektov, modely náhodných parametrov alebo rozdelené modely) sú modely štatistických parametrov, ktoré sa líšia na viac ako jednej úrovni. Príkladom je model úspechov študentov, ktorý obsahuje metriky pre jednotlivých študentov, ako aj metriky pre triedy, v ktorých sú študenti zoskupení. Tieto modely možno považovať za zovšeobecnenia lineárnych modelov (najmä lineárnej regresie), hoci ich možno rozšíriť aj na nelineárne modely. Tieto modely sa stalioveľa populárnejšie, keď bude k dispozícii dostatočný výpočtový výkon a softvér.

Štatistika segmentov
Štatistika segmentov

Viacúrovňové modely sú obzvlášť vhodné pre výskumné projekty, kde sú údaje pre účastníkov organizované na viac ako jednej úrovni (tj vnorené údaje). Jednotky analýzy sú zvyčajne jednotlivci (na nižšej úrovni), ktorí sú vnorení do kontextových/súhrnných jednotiek (na vyššej úrovni). Zatiaľ čo najnižšia úroveň údajov vo viacúrovňových modeloch je zvyčajne individuálna, možno zvážiť aj opakované merania jednotlivcov. Viacúrovňové modely teda poskytujú alternatívny typ analýzy pre jednorozmernú alebo viacrozmernú analýzu opakovaných meraní. Možno zvážiť individuálne rozdiely v rastových krivkách. Okrem toho možno ako alternatívu k ANCOVA použiť viacúrovňové modely, kde sa skóre závislých premenných upraví na kovariáty (napr. individuálne rozdiely) pred testovaním rozdielov v liečbe. Viacúrovňové modely sú schopné analyzovať tieto experimenty bez predpokladu rovnomerných regresných sklonov vyžadovaných ANCOVA.

Viacúrovňové modely možno použiť pre údaje s mnohými úrovňami, hoci dvojúrovňové modely sú najbežnejšie a zvyšok tohto článku sa zameriava na ne. Závislá premenná by sa mala skúmať na najnižšej úrovni analýzy.

Graf atmosférického tlaku
Graf atmosférického tlaku

Výber modelu

Výber modeluje úlohou vybrať zo súboru kandidátskych modelov vzhľadom na údaje, ktoré sa vykonávajú v rámci štatistického modelovania. V najjednoduchších prípadoch sa berie do úvahy už existujúci súbor údajov. Úloha však môže zahŕňať aj navrhovanie experimentov tak, aby zhromaždené údaje dobre vyhovovali úlohe výberu modelu. Vzhľadom na kandidátske modely s podobnou predikčnou alebo vysvetľovacou schopnosťou bude pravdepodobne najlepšou voľbou najjednoduchší model (Occamova britva).

Konishi & Kitagawa hovoria: "Väčšinu problémov štatistickej inferencie možno považovať za problémy súvisiace so štatistickým modelovaním." Podobne Cox povedal: „To, ako sa vykonáva preklad predmetu do štatistického modelu, je často najdôležitejšou súčasťou analýzy.“

Výber modelu sa môže týkať aj problému výberu niekoľkých reprezentatívnych modelov z veľkého súboru výpočtových modelov na účely rozhodovania alebo optimalizácie v neistote.

Grafické vzory

Grafický model, alebo pravdepodobnostný grafický model, (PGM) alebo štruktúrovaný pravdepodobnostný model, je pravdepodobnostný model, pre ktorý graf vyjadruje štruktúru podmieneného vzťahu medzi náhodnými premennými. Bežne sa používajú v teórii pravdepodobnosti, štatistike (najmä Bayesovej štatistike) a strojovom učení.

Štatistický model s grafom
Štatistický model s grafom

Ekonometrické modely

Ekonometrické modely sú štatistické modely používané vekonometrie. Ekonometrický model definuje štatistické vzťahy, o ktorých sa predpokladá, že existujú medzi rôznymi ekonomickými veličinami súvisiacimi s konkrétnym ekonomickým javom. Ekonometrický model možno odvodiť z deterministického ekonomického modelu, ktorý zohľadňuje neistotu, alebo z ekonomického modelu, ktorý je sám o sebe stochastický. Je však možné použiť aj ekonometrické modely, ktoré nie sú viazané na žiadnu konkrétnu ekonomickú teóriu.

Odporúča: