Štatistický model: podstata metódy, konštrukcie a analýzy

Obsah:

Štatistický model: podstata metódy, konštrukcie a analýzy
Štatistický model: podstata metódy, konštrukcie a analýzy
Anonim

Štatistický model je matematická projekcia, ktorá stelesňuje súbor rôznych predpokladov o generovaní niektorých vzorových údajov. Tento výraz je často prezentovaný v značne idealizovanej forme.

Predpoklady vyjadrené v štatistickom modeli zobrazujú súbor rozdelenia pravdepodobnosti. Mnohé z nich sú určené na správnu aproximáciu distribúcie, z ktorej sa čerpá konkrétny súbor informácií. Rozdelenie pravdepodobnosti vlastné štatistickým modelom je to, čo odlišuje projekciu od iných matematických modifikácií.

Všeobecná projekcia

štatistické modely procesov
štatistické modely procesov

Matematický model je popis systému pomocou určitých pojmov a jazyka. Týkajú sa prírodných vied (napríklad fyziky, biológie, vedy o Zemi, chémie) a inžinierskych disciplín (napríklad informatiky, elektrotechniky), ako aj spoločenských vied (napríklad ekonómie, psychológie, sociológie, politológie).

Model môže pomôcť vysvetliť systém aštudovať vplyv rôznych komponentov a predpovedať správanie.

Matematické modely môžu mať mnoho podôb, vrátane dynamických systémov, štatistických projekcií, diferenciálnych rovníc alebo parametrov teórie hier. Tieto a ďalšie typy sa môžu prekrývať a tento model zahŕňa mnoho abstraktných štruktúr. Vo všeobecnosti môžu matematické projekcie obsahovať aj logické komponenty. Kvalita vedného odboru v mnohých prípadoch závisí od toho, ako dobre sa teoreticky vypracované matematické modely zhodujú s výsledkami opakovaných experimentov. Nedostatok zhody medzi teoretickými procesmi a experimentálnymi meraniami často vedie k dôležitým pokrokom, keďže sa vyvíjajú lepšie teórie.

Vo fyzikálnych vedách tradičný matematický model obsahuje veľké množstvo nasledujúcich prvkov:

  • Riadiace rovnice.
  • Ďalšie podmodely.
  • Definujte rovnice.
  • Rovnice prvkov.
  • Predpoklady a obmedzenia.
  • Počiatočné a okrajové podmienky.
  • Klasické obmedzenia a kinematické rovnice.

Formula

Štatistický model je spravidla zostavený matematickými rovnicami, ktoré kombinujú jednu alebo viacero náhodných premenných a prípadne ďalšie prirodzene sa vyskytujúce premenné. Podobne sa projekcia považuje za „formálny koncept konceptu.“

Všetky štatistické testy hypotéz a štatistické vyhodnotenia sú získané z matematických modelov.

Úvod

štatistické matematické modely
štatistické matematické modely

Neformálne možno štatistický model vnímať ako predpoklad (alebo súbor predpokladov) so špecifickou vlastnosťou: umožňuje vypočítať pravdepodobnosť akejkoľvek udalosti. Ako príklad si vezmite pár obyčajných šesťstenných kociek. Je potrebné preskúmať dva rôzne štatistické predpoklady o kosti.

Prvý predpoklad je:

Pre každú z kociek je pravdepodobnosť získania jedného z čísel (1, 2, 3, 4, 5 a 6): 1/6.

Z tohto predpokladu môžeme vypočítať pravdepodobnosť oboch kociek: 1:1/6×1/6=1/36.

Vo všeobecnosti môžete vypočítať pravdepodobnosť akejkoľvek udalosti. Malo by sa však chápať, že nie je možné vypočítať pravdepodobnosť akejkoľvek inej netriviálnej udalosti.

Len prvý názor zhromažďuje štatistický matematický model: kvôli skutočnosti, že iba s jedným predpokladom je možné určiť pravdepodobnosť každej akcie.

Vo vzore vyššie s počiatočným povolením je ľahké určiť možnosť udalosti. Pri niektorých iných príkladoch môže byť výpočet zložitý alebo dokonca nereálny (môže si napríklad vyžadovať mnoho rokov výpočtov). Pre osobu, ktorá navrhuje model štatistickej analýzy, sa takáto zložitosť považuje za neprijateľnú: implementácia výpočtov by nemala byť prakticky nemožná a teoreticky nemožná.

Formálna definícia

Z matematického hľadiska sa štatistický model systému zvyčajne považuje za pár (S, P), kde S jemnožina možných pozorovaní, t. j. priestor vzorky, a P je množina rozdelení pravdepodobnosti na S.

Intuícia tejto definície je nasledovná. Predpokladá sa, že existuje „skutočné“rozdelenie pravdepodobnosti spôsobené procesom, ktorý generuje určité údaje.

Súprava

Je to on, kto určuje parametre modelu. Parametrizácia vo všeobecnosti vyžaduje rôzne hodnoty, aby sa dosiahli rôzne distribúcie, t.j.

Dôsledok modelu
Dôsledok modelu

musí držať (inými slovami, musí to byť injekčné). Parametrizácia, ktorá spĺňa požiadavku, sa považuje za identifikovateľnú.

Príklad

Štatistický graf
Štatistický graf

Predpokladajme, že existuje určitý počet študentov rôzneho veku. Výška dieťaťa bude stochasticky súvisieť s rokom narodenia: napríklad, keď má školák 7 rokov, ovplyvňuje to pravdepodobnosť rastu, ibaže osoba bude vyššia ako 3 centimetre.

Tento prístup môžete formalizovať do modelu priamočiarej regresie, napríklad takto: výška i=b 0 + b 1agei + εi, kde b 0 je priesečník, b 1 je parameter, podľa ktorého je vek znásobené pri získavaní sledovania nadmorskej výšky. Toto je chybový výraz. To znamená, že predpokladá, že výška je predpovedaná vekom s určitou chybou.

Platný formulár sa musí zhodovať so všetkými informačnými bodmi. Priamočiary smer (úroveň i=b 0 + b 1agei) teda nemôže byť rovnicou pre dátový model - ak jasne neodpovedá úplne na všetky body. T.jbez výnimky všetky informácie ležia bezchybne na linke. Medzeru chyby εi je potrebné zadať do rovnice tak, aby sa formulár zhodoval absolútne so všetkými informáciami.

Ak chcete urobiť štatistický záver, musíme najprv predpokladať určité rozdelenia pravdepodobnosti pre ε i. Napríklad možno predpokladať, že distribúcie ε i majú Gaussov tvar s nulovým priemerom. V tomto prípade bude mať model 3 parametre: b 0, b 1 a rozptyl Gaussovho rozdelenia.

Model môžete formálne špecifikovať ako (S, P).

V tomto príklade je model definovaný špecifikovaním S, takže je možné urobiť určité predpoklady o P. Sú dve možnosti:

Tento rast možno aproximovať lineárnou funkciou veku;

Že chyby v aproximácii sú rozložené ako vo vnútri Gaussian.

Všeobecné poznámky

Štatistické parametre modelov sú špeciálnou triedou matematickej projekcie. Čím sa jeden druh líši od druhého? Štatistický model je teda nedeterministický. V ňom teda na rozdiel od matematických rovníc určité premenné nemajú určité hodnoty, ale namiesto toho majú rozdelenie možností. To znamená, že jednotlivé premenné sa považujú za stochastické. Vo vyššie uvedenom príklade je ε stochastická premenná. Bez nej by bola projekcia deterministická.

Často sa používa zostavovanie štatistického modelu, aj keď sa materiálny proces považuje za deterministický. Napríklad hádzanie mincí je v princípe vopred určená akcia. Toto je však stále vo väčšine prípadov modelované ako stochastické (prostredníctvom Bernoulliho procesu).

Podľa Konishi a Kitagawy existujú tri ciele pre štatistický model:

  • Predpovede.
  • Information mining.
  • Popis stochastických štruktúr.

Veľkosť projekcie

Predpokladajme, že existuje štatistický predpovedný model, Model sa nazýva parametrický, ak má O konečný rozmer. V riešení musíte napísať, že

Rozdiel modelu
Rozdiel modelu

kde k je kladné celé číslo (R znamená akékoľvek reálne čísla). Tu sa k nazýva rozmer modelu.

Ako príklad môžeme predpokladať, že všetky údaje pochádzajú z jednorozmerného Gaussovho rozdelenia:

Štatistický vzorec
Štatistický vzorec

V tomto príklade je rozmer k 2.

A ako ďalší príklad možno predpokladať, že údaje pozostávajú z bodov (x, y), o ktorých sa predpokladá, že sú rozložené v priamke s Gaussovými rezíduami (s nulovým priemerom). Potom sa dimenzia štatistického ekonomického modelu rovná 3: priesečník priamky, jej sklon a rozptyl rozdelenia zvyškov. Treba poznamenať, že v geometrii má priama čiara rozmer 1.

Hoci je vyššie uvedená hodnota technicky jediným parametrom, ktorý má rozmer k, niekedy sa predpokladá, že obsahuje k odlišných hodnôt. Napríklad pri jednorozmernom Gaussovom rozdelení je O jediný parameter s veľkosťou 2, ale niekedy sa považuje za parameter, ktorý obsahuje dvaindividuálny parameter – stredná hodnota a štandardná odchýlka.

Model štatistického procesu je neparametrický, ak je množina hodnôt O nekonečne rozmerná. Je tiež semiparametrický, ak má konečné aj nekonečnerozmerné parametre. Formálne, ak k je rozmer O a n je počet vzoriek, semiparametrické a neparametrické modely majú

Vzorec modelu
Vzorec modelu

potom je model semiparametrický. V opačnom prípade je projekcia neparametrická.

Parametrické modely sú najčastejšie používané štatistiky. Pokiaľ ide o semiparametrické a neparametrické projekcie, Sir David Cox uviedol:

"Spravidla zahŕňajú najmenej hypotéz o štruktúre a tvare distribúcie, ale zahŕňajú silné teórie o sebestačnosti."

Vnorené modely

Nemýľte si ich s viacúrovňovými projekciami.

Dva štatistické modely sú vnorené, ak je možné prvý previesť na druhý zavedením obmedzení na parametre prvého. Napríklad množina všetkých gaussovských rozdelení má vnorenú množinu rozdelení s nulovým priemerom:

To znamená, že musíte obmedziť priemer v množine všetkých Gaussových rozdelení, aby ste získali rozdelenia s nulovým priemerom. Ako druhý príklad má kvadratický model y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) vložený lineárny model y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) – t.j. parameter b2 sa rovná 0.

V oboch týchto príkladoch má prvý model vyššiu dimenzionalitu ako druhý model. Je to často, ale nie vždy. Ďalším príkladom je množina Gaussových rozdelení s kladným priemerom, ktorá má rozmer 2.

Porovnanie modelov

štatistický model
štatistický model

Predpokladá sa, že v pozadí pozorovaných údajov existuje „skutočné“rozdelenie pravdepodobnosti vyvolané procesom, ktorý ich vygeneroval.

Aj modely možno navzájom porovnávať pomocou prieskumnej analýzy alebo konfirmačnej analýzy. V prieskumnej analýze sa formulujú rôzne modely a posudzuje sa, ako dobre každý z nich opisuje údaje. Pri konfirmačnej analýze sa predtým formulovaná hypotéza porovnáva s pôvodnou. Bežné kritériá zahŕňajú P 2, Bayesovský faktor a relatívna pravdepodobnosť.

Konishi a Kitagawa's Thought

„Väčšinu problémov v štatistickom matematickom modeli možno považovať za prediktívne otázky. Zvyčajne sú formulované ako porovnania niekoľkých faktorov.“

Sir David Cox ďalej povedal: „Ako preklad z témy, problém v štatistickom modeli je často najdôležitejšou súčasťou analýzy.“

Odporúča: