Testovanie hypotéz je nevyhnutným postupom v štatistike. Test hypotéz vyhodnocuje dva vzájomne sa vylučujúce výroky, aby sa určilo, ktoré tvrdenie najlepšie podporujú vzorové údaje. Keď sa nález považuje za štatisticky významný, je to kvôli testu hypotézy.
Spôsoby overenia
Metódy testovania štatistických hypotéz sú metódy štatistickej analýzy. Zvyčajne sa porovnávajú dva súbory štatistík alebo sa porovnáva súbor údajov na vzorke so súborom syntetických údajov z idealizovaného modelu. Údaje sa musia interpretovať tak, aby pridali nové významy. Môžete ich interpretovať tak, že predpokladáte určitú štruktúru konečného výsledku a použijete štatistické metódy na potvrdenie alebo odmietnutie predpokladu. Predpoklad sa nazýva hypotéza a štatistické testy používané na tento účel sa nazývajú štatistické hypotézy.
H0 a H1 hypotézy
Sú dve hlavnékoncepty štatistického testovania hypotéz – takzvaná „hlavná, resp. nulová hypotéza“a „ alternatívna hypotéza“. Nazývajú sa aj Neyman-Pearsonove hypotézy. Štatistický testovací predpoklad sa nazýva nulová hypotéza, hlavná hypotéza alebo skrátene H0. Často sa označuje ako predvolený predpoklad alebo predpoklad, že sa nič nezmenilo. Porušenie testovacieho predpokladu sa často označuje ako prvá hypotéza, alternatívna hypotéza alebo H1. H1 je skratka pre nejakú inú hypotézu, pretože všetko, čo o nej vieme, je, že údaje H0 možno zahodiť.
Pred odmietnutím alebo nezavrhnutím nulovej hypotézy je potrebné interpretovať výsledok testu. Porovnanie sa považuje za štatisticky významné, ak je nepravdepodobné, že vzťah medzi súbormi údajov bude realizáciou nulovej hypotézy podľa prahovej pravdepodobnosti – hladiny významnosti. Existujú aj kritériá dobrej zhody pre testovanie štatistických hypotéz. Toto je názov testovacieho kritéria hypotézy, ktoré je spojené s predpokladaným zákonom neznámeho rozdelenia. Toto je numerická miera nesúladu medzi empirickým a teoretickým rozdelením.
Postup a kritériá testovania štatistických hypotéz
Najbežnejšie metódy výberu hypotéz sú založené buď na informačnom kritériu Akaike alebo Bayesovom koeficiente. Testovanie štatistických hypotéz je kľúčovou technikou v inferencii aj Bayesovskej inferencii, hoci tieto dva typy majú výrazné rozdiely. Testy štatistických hypotézdefinovať postup, ktorý kontroluje pravdepodobnosť chybného rozhodnutia o nesprávnej predvolenej alebo nulovej hypotéze. Postup je založený na tom, aká je pravdepodobnosť, že bude fungovať. Táto pravdepodobnosť nesprávneho rozhodnutia je nepravdepodobnosťou, že nulová hypotéza je pravdivá a že neexistuje žiadna konkrétna alternatívna hypotéza. Test nemôže ukázať, či je pravdivý alebo nepravdivý.
Alternatívne metódy teórie rozhodovania
Existujú alternatívne metódy teórie rozhodovania, v ktorých sa nulová a prvá hypotéza zvažujú na rovnocennejšom základe. Iné prístupy k rozhodovaniu, ako napríklad Bayesovská teória, sa pokúšajú vyvážiť dôsledky zlých rozhodnutí vo všetkých možnostiach namiesto toho, aby sa zameriavali na jedinú nulovú hypotézu. Množstvo ďalších prístupov k rozhodnutiu, ktorá z hypotéz je správna, je založená na údajoch, ktoré z nich majú požadované vlastnosti. Testovanie hypotéz je však dominantným prístupom k analýze údajov v mnohých oblastiach vedy.
Testovanie štatistickej hypotézy
Vždy, keď sa jeden súbor výsledkov líši od iného súboru, je potrebné sa spoľahnúť na štatistické testovanie hypotéz alebo testy štatistických hypotéz. Ich interpretácia si vyžaduje správne pochopenie p-hodnôt a kritických hodnôt. Je tiež dôležité pochopiť, že bez ohľadu na úroveň významnosti môžu testy stále obsahovať chyby. Záver preto nemusí byť správny.
Proces testovania pozostáva zviacero krokov:
- Pre výskum sa vytvára počiatočná hypotéza.
- Sú označené relevantné nulové a alternatívne hypotézy.
- Vysvetľuje štatistické predpoklady o vzorke v teste.
- Určenie, ktorý test je vhodný.
- Vyberte úroveň významnosti a prah pravdepodobnosti, pod ktorým bude nulová hypotéza zamietnutá.
- Rozdelenie štatistiky testu nulovej hypotézy ukazuje možné hodnoty, pri ktorých je nulová hypotéza zamietnutá.
- Prebieha výpočet.
- Prijme sa rozhodnutie zamietnuť alebo prijať nulovú hypotézu v prospech alternatívy.
Existuje alternatíva, ktorá používa p-hodnotu.
Testy významnosti
Čisté údaje nemajú praktické využitie bez interpretácie. V štatistike sa pri kladení otázok o údajoch a interpretácii výsledkov používajú štatistické metódy na zabezpečenie presnosti alebo pravdepodobnosti odpovedí. Pri testovaní štatistických hypotéz sa táto trieda metód nazýva štatistické testovanie alebo testy významnosti. Pojem „hypotéza“pripomína vedecké metódy, pri ktorých sa skúmajú hypotézy a teórie. V štatistike je výsledkom testu hypotéz množstvo daného predpokladu. Umožňuje vám interpretovať, či je predpoklad pravdivý alebo či došlo k porušeniu.
Štatistická interpretácia testov
Testy hypotézsa používajú na určenie, ktoré výsledky výskumu povedú k zamietnutiu nulovej hypotézy na vopred stanovenej úrovni významnosti. Výsledky testu štatistických hypotéz sa musia interpretovať tak, aby sa na nich mohlo pokračovať. Existujú dve bežné formy kritérií testovania štatistických hypotéz. Toto sú p-hodnota a kritické hodnoty. V závislosti od zvoleného kritéria sa získané výsledky musia interpretovať odlišne.
Čo je to p-hodnota
Výstup je opísaný ako štatisticky významný pri interpretácii p-hodnoty. V skutočnosti tento indikátor znamená pravdepodobnosť chyby v prípade zamietnutia nulovej hypotézy. Inými slovami, môže sa použiť na pomenovanie hodnoty, ktorá sa môže použiť na interpretáciu alebo kvantifikáciu výsledku testu a na určenie pravdepodobnosti chyby pri zamietnutí nulovej hypotézy. Môžete napríklad vykonať test normality na vzorke údajov a zistiť, že existuje len malá šanca na odľahlé hodnoty. Nulová hypotéza však nemusí byť zamietnutá. Štatistický test hypotézy môže vrátiť hodnotu p. Toto sa dosiahne porovnaním hodnoty p s vopred určenou prahovou hodnotou nazývanou hladina významnosti.
Úroveň významnosti
Hladina významnosti sa často píše s malým gréckym písmenom „alfa“. Všeobecná hodnota použitá pre alfa je 5 % alebo 0,05. Menšia hodnota alfa naznačuje spoľahlivejšiu interpretáciu nulovej hypotézy. P-hodnota sa porovnáva spredvolená hodnota alfa. Výsledok je štatisticky významný, ak je p-hodnota menšia ako alfa. Hladinu významnosti možno prevrátiť odčítaním od jednej. Toto sa robí na určenie úrovne spoľahlivosti hypotézy vzhľadom na pozorované údaje vzorky. Pri použití tejto metódy testovania štatistických hypotéz je P-hodnota pravdepodobnostná. To znamená, že v procese interpretácie výsledku štatistického testu človek nevie, čo je pravda alebo nepravda.
Teória testovania štatistických hypotéz
Odmietnutie nulovej hypotézy znamená, že existuje dostatok štatistických dôkazov, že to vyzerá pravdepodobne. V opačnom prípade to znamená, že na jeho odmietnutie nie je dostatok štatistík. O štatistických testoch možno uvažovať v zmysle dichotómie odmietnutia a prijatia nulovej hypotézy. Nebezpečenstvo štatistického testovania nulovej hypotézy spočíva v tom, že ak bude prijatá, môže sa zdať, že je pravdivá. Namiesto toho by bolo správnejšie povedať, že nulová hypotéza nie je zamietnutá, pretože neexistuje dostatok štatistických dôkazov na jej zamietnutie.
Tento moment často mätie začínajúcich komparzistov. V takom prípade je dôležité pripomenúť si, že výsledok je pravdepodobný a že aj prijatie nulovej hypotézy má stále malú šancu na chybu.
Pravdivá alebo nepravdivá nulová hypotéza
Interpretácia hodnoty p neznamená nuluhypotéza je pravdivá alebo nepravdivá. To znamená, že bola urobená voľba zamietnuť alebo nezamietnuť nulovú hypotézu na určitej úrovni štatistickej významnosti na základe empirických údajov a zvoleného štatistického testu. Preto si p-hodnotu možno predstaviť ako pravdepodobnosť údajov uvedených za vopred určeného predpokladu, ktorý je súčasťou štatistických testov. P-hodnota je mierou toho, s akou pravdepodobnosťou bude vzorka údajov pozorovaná, ak je nulová hypotéza pravdivá.
Interpretácia kritických hodnôt
Niektoré testy nevracajú p. Namiesto toho môžu vrátiť zoznam kritických hodnôt. Výsledky takejto štúdie sa interpretujú podobným spôsobom. Namiesto porovnávania jednej p-hodnoty s vopred určenou hladinou významnosti sa testovacia štatistika porovnáva s kritickou hodnotou. Ak sa ukáže, že je menej, znamená to, že nebolo možné zamietnuť nulovú hypotézu. Ak je väčšia alebo rovná, nulová hypotéza by mala byť zamietnutá. Význam algoritmu testovania štatistických hypotéz a interpretácia jeho výsledku je podobná ako pri p-hodnote. Zvolená hladina významnosti je pravdepodobnostné rozhodnutie zamietnuť alebo neodmietnuť základný testovací predpoklad na základe údajov.
Chyby v štatistických testoch
Interpretácia testu štatistických hypotéz je pravdepodobnostná. Úlohou testovania štatistických hypotéz nie je nájsť pravdivé alebo nepravdivé tvrdenie. Testovacie dôkazy môžu byť chybné. Napríklad, ak je alfa 5 %, znamená to, že väčšinou 1 z 20nulová hypotéza bude omylom zamietnutá. Alebo nebude kvôli štatistickému šumu vo vzorke údajov. Vzhľadom na tento bod môže malá hodnota p, pri ktorej sa nulová hypotéza zamietne, znamenať, že je nepravdivá alebo že sa stala chyba. Ak sa vyskytne tento typ chyby, výsledok sa nazýva falošne pozitívny. A takáto chyba je chybou prvého druhu pri testovaní štatistických hypotéz. Na druhej strane, ak je p-hodnota dostatočne veľká na to, aby znamenala zamietnutie nulovej hypotézy, môže to znamenať, že je pravdivá. Alebo nie je správne a došlo k nejakej nepravdepodobnej udalosti, kvôli ktorej došlo k chybe. Tento typ chyby sa nazýva falošne negatívny.
Pravdepodobnosť chýb
Pri testovaní štatistických hypotéz stále existuje šanca, že sa dopustíte niektorého z týchto typov chýb. Nepravdivé údaje alebo nesprávne závery sú dosť pravdepodobné. V ideálnom prípade by sa mala zvoliť úroveň významnosti, ktorá minimalizuje pravdepodobnosť jednej z týchto chýb. Napríklad štatistické testovanie nulových hypotéz môže mať veľmi nízku úroveň významnosti. Hoci hladiny významnosti ako 0,05 a 0,01 sú bežné v mnohých oblastiach vedy, najčastejšie používaná hladina významnosti je 310^-7 alebo 0,0000003. Často sa označuje ako „5-sigma“. To znamená, že záver bol náhodný s pravdepodobnosťou 1 z 3,5 milióna nezávislých opakovaní experimentov. Príklady testovania štatistických hypotéz často obsahujú takéto chyby. Aj to je dôvod, prečo je dôležité mať nezávislé výsledky.overenie.
Príklady použitia štatistického overovania
Existuje niekoľko bežných príkladov testovania hypotéz v praxi. Jeden z najpopulárnejších je známy ako „Ochutnávka čaju“. Dr. Muriel Bristolová, kolegyňa zakladateľa biometrie Roberta Fishera, tvrdila, že dokáže s istotou povedať, či bola pridaná najskôr do šálky čaju alebo mlieka. Fisher sa ponúkol, že jej dá náhodne osem pohárov (štyri z každej odrody). Štatistika testu bola jednoduchá: počítanie počtu úspechov pri výbere pohára. Kritická oblasť bola jediným úspechom zo 4, možno na základe obvyklého kritéria pravdepodobnosti (< 5 %; 1 zo 70 ≈ 1,4 %). Fisher tvrdil, že alternatívna hypotéza nie je potrebná. Pani správne identifikovala každý pohár, čo sa považovalo za štatisticky významný výsledok. Táto skúsenosť viedla k Fisherovej knihe Statistical Methods for Researchers.
Príklad odporcu
Postup štatistického súdneho konania je porovnateľný s trestným súdom, kde sa obžalovaný považuje za nevinného, kým sa jeho vina nepreukáže. Prokurátor sa snaží dokázať vinu obžalovaného. Obžalovaný môže byť uznaný vinným až vtedy, keď existuje dostatok dôkazov na obžalobu. Na začiatku konania sú dve hypotézy: „Obžalovaný nie je vinný“a „Obžalovaný je vinný“. Hypotéza o nevine môže byť zamietnutá len vtedy, keď je omyl veľmi nepravdepodobný, pretože človek nechce odsúdiť nevinného obžalovaného. Takáto chyba sa nazýva chyba I. typu a jej výskytzriedka kontrolované. V dôsledku tohto asymetrického správania je častejšia chyba typu II, t. j. oslobodenie páchateľa spod obžaloby.
Štatistiky sú užitočné pri analýze veľkého množstva údajov. To platí rovnako pre testovanie hypotéz, ktoré môžu zdôvodniť závery, aj keď neexistuje žiadna vedecká teória. V príklade s ochutnávkou čaju bolo „očividné“, že nie je žiadny rozdiel medzi naliatím mlieka do čaju alebo naliatím čaju do mlieka.
Skutočná praktická aplikácia testovania hypotéz zahŕňa:
- testovanie, či muži majú viac nočných mor ako ženy;
- uvedenie dokumentu;
- Hodnotenie vplyvu splnu na správanie;
- určenie rozsahu, v ktorom môže netopier odhaliť hmyz pomocou ozveny;
- výber najlepších prostriedkov, ako prestať fajčiť;
- Kontrola, či nálepky na nárazníku odrážajú správanie majiteľa auta.
Testovanie štatistických hypotéz hrá dôležitú úlohu v štatistike vo všeobecnosti a pri štatistickom odvodzovaní. Testovanie hodnôt sa používa ako náhrada za tradičné porovnávanie predpokladanej hodnoty a experimentálneho výsledku v jadre vedeckej metódy. Keď je teória schopná predpovedať iba znamienko vzťahu, cielené testy hypotéz môžu byť nakonfigurované tak, aby teóriu podporoval iba štatisticky významný výsledok. Táto forma teórie hodnotenia je najrigidnejšiakritika používania testovania hypotéz.