Matematická štatistika je metodológia, ktorá vám umožňuje robiť informované rozhodnutia v neistých podmienkach. Štúdium metód zberu a systematizácie údajov, spracovanie konečných výsledkov experimentov a experimentov s hromadnou náhodnosťou a objavovanie akýchkoľvek vzorcov je to, čo robí toto odvetvie matematiky. Zvážte základné pojmy matematickej štatistiky.
Rozdiel s teóriou pravdepodobnosti
Metódy matematickej štatistiky sa úzko prelínajú s teóriou pravdepodobnosti. Obe odvetvia matematiky sa zaoberajú štúdiom mnohých náhodných javov. Tieto dve disciplíny sú spojené limitnými teorémami. Medzi týmito vedami je však veľký rozdiel. Ak teória pravdepodobnosti určuje charakteristiky procesu v reálnom svete na základe matematického modelu, potom matematická štatistika robí opak – nastavuje vlastnosti modelu nana základe pozorovaných informácií.
Kroky
Aplikáciu matematickej štatistiky možno vykonávať iba vo vzťahu k náhodným udalostiam alebo procesom, alebo skôr k údajom získaným ich pozorovaním. A to sa deje v niekoľkých fázach. Po prvé, údaje z experimentov a experimentov prechádzajú určitým spracovaním. Sú usporiadané kvôli prehľadnosti a jednoduchosti analýzy. Potom sa vykoná presný alebo približný odhad požadovaných parametrov pozorovaného náhodného procesu. Môžu byť:
- posúdenie pravdepodobnosti udalosti (jej pravdepodobnosť je spočiatku neznáma);
- štúdium správania neurčitej distribučnej funkcie;
- odhad očakávania;
- odhad rozptylu
- atd.
Tretia fáza je overenie akýchkoľvek hypotéz stanovených pred analýzou, t. j. získanie odpovede na otázku, ako výsledky experimentov zodpovedajú teoretickým výpočtom. V skutočnosti je to hlavná fáza matematickej štatistiky. Príkladom by bolo zvážiť, či správanie pozorovaného náhodného procesu je v rámci normálneho rozdelenia.
Populácia
Základné pojmy matematickej štatistiky zahŕňajú všeobecnú a vzorovú populáciu. Táto disciplína sa zaoberá štúdiom súboru určitých objektov s ohľadom na nejakú vlastnosť. Príkladom je práca taxikára. Zvážte tieto náhodné premenné:
- zaťaženie alebo počet zákazníkov: za deň, pred obedom, po obede, …;
- priemerný čas cesty;
- počet prichádzajúcich žiadostí alebo ich pripojenie k mestským častiam a oveľa viac.
Za zmienku tiež stojí, že je možné študovať súbor podobných náhodných procesov, ktoré budú tiež náhodnou premennou, ktorú možno pozorovať.
V metódach matematickej štatistiky sa teda celý súbor skúmaných objektov alebo výsledky rôznych pozorovaní, ktoré sa vykonávajú za rovnakých podmienok na danom objekte, nazýva všeobecná populácia. Inými slovami, matematicky prísnejšie, ide o náhodnú premennú, ktorá je definovaná v priestore elementárnych udalostí, v ktorej je určená trieda podmnožín, ktorých prvky majú známu pravdepodobnosť.
Vzorová populácia
Existujú prípady, keď je nemožné alebo nepraktické z nejakého dôvodu (cena, čas) vykonávať nepretržitú štúdiu na štúdium každého objektu. Napríklad otvorenie každého pohára zapečateného džemu na kontrolu jeho kvality je pochybné rozhodnutie a pokúšať sa odhadnúť dráhu každej molekuly vzduchu v kubickom metre je nemožné. V takýchto prípadoch sa používa metóda selektívneho pozorovania: z bežnej populácie sa vyberie (zvyčajne náhodne) určitý počet objektov, ktoré sa podrobia ich analýze.
Tieto koncepty sa na prvý pohľad môžu zdať komplikované. Na úplné pochopenie témy si preto treba preštudovať učebnicu V. E. Gmurmana „Teória pravdepodobnosti a matematická štatistika“. Vzorkovací súbor alebo vzorka je teda séria objektov náhodne vybraných zo všeobecného súboru. V prísnych matematických termínoch ide o postupnosť nezávislých, rovnomerne rozdelených náhodných premenných, z ktorých každá sa zhoduje s rozdelením uvedeným pre všeobecnú náhodnú premennú.
Základné pojmy
V krátkosti sa zamyslime nad niekoľkými ďalšími základnými konceptmi matematickej štatistiky. Počet objektov vo všeobecnej populácii alebo vzorke sa nazýva objem. Hodnoty vzorky, ktoré sa získajú počas experimentu, sa nazývajú realizácia vzorky. Aby bol odhad všeobecnej populácie na základe vzorky spoľahlivý, je dôležité mať takzvanú reprezentatívnu alebo reprezentatívnu vzorku. To znamená, že vzorka musí plne reprezentovať populáciu. Dá sa to dosiahnuť iba vtedy, ak majú všetky prvky populácie rovnakú pravdepodobnosť, že budú vo vzorke.
Vzorky rozlišujú medzi vrátením a nevrátením. V prvom prípade je v obsahu vzorky opakovaný prvok vrátený do všeobecnej množiny, v druhom prípade nie. Zvyčajne sa v praxi používa odber vzoriek bez náhrad. Treba si tiež uvedomiť, že veľkosť bežnej populácie vždy výrazne prevyšuje veľkosť vzorky. Existovaťveľa možností pre proces odberu vzoriek:
- jednoduché – položky sa vyberajú náhodne po jednom;
- typed - všeobecná populácia je rozdelená do typov a každý si môže vybrať; príkladom je prieskum medzi obyvateľmi: muži a ženy oddelene;
- mechanické – vyberte napríklad každý 10. prvok;
- serial – výber sa uskutočňuje v sérii prvkov.
Štatistické rozdelenie
Teória pravdepodobnosti a matematická štatistika sú podľa Gmurmana mimoriadne dôležité disciplíny vo vedeckom svete, najmä v jeho praktickej časti. Zvážte štatistické rozdelenie vzorky.
Predpokladajme, že máme skupinu študentov, ktorí boli testovaní z matematiky. Výsledkom je súbor odhadov: 5, 3, 1, 4, 3, 4, 2, 5, 4, 4, 5 – toto je náš primárny štatistický materiál.
Najskôr to musíme zoradiť alebo vykonať operáciu hodnotenia: 1, 2, 3, 3, 4, 4, 4, 4, 5, 5, 5 – a tak získať sériu variácií. Počet opakovaní každého z hodnotení sa nazýva frekvencia hodnotenia a ich pomer k veľkosti vzorky sa nazýva relatívna frekvencia. Urobme si tabuľku štatistického rozdelenia vzorky, alebo len štatistický rad:
ai | 1 | 2 | 3 | 4 | 5 |
pi | 1 | 1 | 2 | 4 | 3 |
alebo
ai | 1 | 2 | 3 | 4 | 5 |
pi | 1/11 | 1/11 | 2/11 | 4/11 | 3/11 |
Urobme si náhodnú premennú, na ktorej vykonáme sériu experimentov a uvidíme, akú hodnotu má táto premenná. Predpokladajme, že vzala hodnotu a1 - m1 krát; a2 - m2 krát atď. Veľkosť tejto vzorky bude m1 + … + mk=m. Množina ai, kde i sa mení od 1 do k, je štatistický rad.
Intervalová distribúcia
V knihe od VE Gmurmana „Teória pravdepodobnosti a matematická štatistika“je uvedený aj intervalový štatistický rad. Jeho kompilácia je možná, keď je hodnota študovaného prvku nepretržitá v určitom intervale a počet hodnôt je veľký. Zoberme si skupinu študentov, alebo skôr ich výšku: 163, 180, 185, 172, 161, 171, 189, 157, 165, 174, 180, 181, 175, 182, 167, 159, 171, 173, 179, 160, 180, 166, 178, 156, 180, 189, 173, 174, 175 - spolu 30 študentov. Je zrejmé, že výška osoby je nepretržitá hodnota. Musíme definovať krok intervalu. Na tento účel sa používa Sturgesov vzorec.
h= | max – min | = | 190 – 156 | = | 33 | = | 5, 59 |
1+log2m | 1+log230 | 5, 9 |
Za veľkosť intervalu teda možno považovať hodnotu 6. Treba tiež povedať, že hodnota 1+log2m je vzorec preurčenie počtu intervalov (samozrejme so zaokrúhľovaním). Podľa vzorcov sa teda získa 6 intervalov, z ktorých každý má veľkosť 6. A prvá hodnota počiatočného intervalu bude číslo určené vzorcom: min - h / 2=156 - 6/2=153. Urobme tabuľku, ktorá bude obsahovať intervaly a počet študentov, ktorých rast spadol do určitého intervalu.
H | [153; 159) | [159; 165) | [165; 171) | [171; 177) | [177; 183) | [183; 189) |
P | 2 | 5 | 3 | 9 | 8 | 3 |
P | 0, 06 | 0, 17 | 0, 1 | 0, 3 | 0, 27 | 0, 1 |
Toto samozrejme nie je všetko, pretože v matematických štatistikách existuje oveľa viac vzorcov. Zvážili sme len niektoré základné pojmy.
Plán distribúcie
K základným pojmom matematickej štatistiky patrí aj grafické znázornenie rozdelenia, ktoré sa vyznačuje prehľadnosťou. Existujú dva typy grafov: polygón a histogram. Prvý sa používa pre diskrétne štatistické rady. A pre nepretržitú distribúciu druhý.