Logistická regresia: model a metódy

Obsah:

Logistická regresia: model a metódy
Logistická regresia: model a metódy
Anonim

Metódy logistickej regresie a diskriminačnej analýzy sa používajú vtedy, keď je potrebné jednoznačne odlíšiť respondentov podľa cieľových kategórií. V tomto prípade sú samotné skupiny reprezentované úrovňami jedného jednovariantového parametra. Pozrime sa bližšie na model logistickej regresie a zistime, prečo je potrebný.

logistická regresia
logistická regresia

Všeobecné informácie

Príkladom problému, pri ktorom sa využíva logistická regresia, je zatriedenie respondentov do skupín, ktoré kupujú a nekupujú horčicu. Diferenciácia sa vykonáva v súlade so sociálno-demografickými charakteristikami. Ide najmä o vek, pohlavie, počet príbuzných, príjem a pod. V prevádzkach existujú rozlišovacie kritériá a premenná. Ten kóduje cieľové kategórie, do ktorých by v skutočnosti mali byť respondenti rozdelení.

Nuance

Treba povedať, že rozsah prípadov, v ktorých sa uplatňuje logistická regresia, je oveľa užší ako pri diskriminačnej analýze. V tomto ohľade sa uvažuje o použití posledného uvedeného ako univerzálnej metódy diferenciácievýhodnejšie. Okrem toho odborníci odporúčajú začať klasifikačné štúdie diskriminačnou analýzou. A len v prípade neistoty ohľadom výsledkov môžete použiť logistickú regresiu. Táto potreba je spôsobená niekoľkými faktormi. Logistická regresia sa používa, keď existuje jasné pochopenie typu nezávislých a závislých premenných. Podľa toho sa vyberie jeden z 3 možných postupov. Pri diskriminačnej analýze sa výskumník zaoberá vždy jednou statickou operáciou. Zahŕňa jednu závislú a niekoľko nezávislých kategorických premenných s akýmkoľvek typom škály.

Zobrazenia

Úlohou štatistickej štúdie, ktorá využíva logistickú regresiu, je určiť pravdepodobnosť, že konkrétny respondent bude zaradený do určitej skupiny. Diferenciácia sa vykonáva podľa určitých parametrov. V praxi je možné podľa hodnôt jedného alebo viacerých nezávislých faktorov zaradiť respondentov do dvoch skupín. V tomto prípade prebieha binárna logistická regresia. Špecifikované parametre možno použiť aj pri rozdeľovaní do skupín po dvoch. V takejto situácii nastáva multinomická logistická regresia. Výsledné skupiny sú vyjadrené v úrovniach jednej premennej.

logistická regresia
logistická regresia

Príklad

Povedzme, že existujú odpovede respondentov na otázku, či majú záujem o ponuku na kúpu pozemku na predmestí Moskvy. Možnosti sú "nie"a áno. Je potrebné zistiť, ktoré faktory majú prevažujúci vplyv na rozhodovanie potenciálnych kupcov. Na tento účel sú respondentom kladené otázky týkajúce sa infraštruktúry územia, vzdialenosti od hlavného mesta, oblasti lokality, prítomnosti / neprítomnosti obytnej budovy atď. Pomocou binárnej regresie je možné distribuovať respondentov rozdelili do dvoch skupín. Do prvej budú zaradení záujemcovia o akvizíciu – potenciálni kupci a do druhej tí, ktorí o takúto ponuku nemajú záujem. Pre každého respondenta sa navyše vypočíta pravdepodobnosť zaradenia do jednej alebo druhej kategórie.

Porovnávacie charakteristiky

Rozdiel od dvoch vyššie uvedených možností je rozdielny počet skupín a typ závislých a nezávislých premenných. V binárnej regresii sa napríklad študuje závislosť dichotomického faktora od jednej alebo viacerých nezávislých podmienok. Navyše môžu mať akýkoľvek typ stupnice. Multinomická regresia sa považuje za variáciu tejto možnosti klasifikácie. V ňom do závislej premennej patria viac ako 2 skupiny. Nezávislé faktory musia mať buď ordinálnu alebo nominálnu stupnicu.

Logistická regresia v spss

V štatistickom balíku 11-12 bola zavedená nová verzia analýzy - ordinálna. Táto metóda sa používa, keď závislý faktor patrí do rovnakej mennej (ordinálnej) stupnice. V tomto prípade sú nezávislé premenné vybrané jedného špecifického typu. Musia byť buď radové alebo nominálne. Najviac sa berie do úvahy klasifikácia do niekoľkých kategóriíuniverzálny. Táto metóda môže byť použitá vo všetkých štúdiách, ktoré využívajú logistickú regresiu. Jediný spôsob, ako zlepšiť kvalitu modelu, je použiť všetky tri techniky.

kontrola primeranosti kvality a logistická regresia
kontrola primeranosti kvality a logistická regresia

Poradové zaradenie

Treba povedať, že predtým v štatistickom balíku neexistovala typická možnosť vykonávania špecializovanej analýzy pre závislé faktory s ordinálnou stupnicou. Pre všetky premenné s viac ako 2 skupinami bol použitý multinominálny variant. Relatívne nedávno zavedená ordinálna analýza má množstvo funkcií. Zohľadňujú špecifiká stupnice. Medzitým sa v učebných pomôckach obyčajná logistická regresia často nepovažuje za samostatnú techniku. Dôvodom je nasledovné: ordinálna analýza nemá žiadne významné výhody oproti multinomickej. Výskumník môže použiť druhú možnosť v prítomnosti ordinálnej aj nominálnej závislej premennej. Samotné klasifikačné procesy sa zároveň takmer nelíšia. To znamená, že vykonávanie radovej analýzy nespôsobí žiadne ťažkosti.

Možnosť analýzy

Uvažujme jednoduchý prípad – binárnu regresiu. Predpokladajme, že v procese marketingového výskumu sa posudzuje dopyt po absolventoch určitej metropolitnej univerzity. V dotazníku boli respondentom položené otázky vrátane:

  1. Ste zamestnaný? (ql).
  2. Zadajte rok ukončenia štúdia (q 21).
  3. Aký je priemerskóre za promócie (priemer).
  4. Pohlavie (q22).

Logistická regresia vyhodnotí vplyv nezávislých faktorov priemer, q 21 a q 22 na premennú ql. Zjednodušene povedané, účelom analýzy bude určiť pravdepodobné zamestnanie absolventov na základe informácií o odbore, roku ukončenia štúdia a GPA.

indikátor logistickej sigmatickej regresie
indikátor logistickej sigmatickej regresie

Logistická regresia

Na nastavenie parametrov pomocou binárnej regresie použite menu Analyzovať►Regresia►Binárna logistika. V okne Logistická regresia vyberte závislý faktor zo zoznamu dostupných premenných vľavo. Je to ql. Táto premenná musí byť umiestnená v poli Závislá. Potom je potrebné do grafu kovariantov zaviesť nezávislé faktory - q 21, q 22, priem. Potom sa musíte rozhodnúť, ako ich zahrnúť do analýzy. Ak je počet nezávislých faktorov viac ako 2, potom sa použije štandardne nastavená metóda súčasného zavedenia všetkých premenných, ale krok za krokom. Najpopulárnejším spôsobom je Backward:LR. Pomocou tlačidla Vybrať môžete do štúdie zahrnúť nie všetkých respondentov, ale iba konkrétnu cieľovú kategóriu.

Definujte kategorické premenné

Tlačidlo Kategória by sa malo použiť, ak je jedna z nezávislých premenných nominálna s viac ako 2 kategóriami. V tejto situácii je v okne Definovať kategorické premenné práve takýto parameter umiestnený v sekcii Kategorické premenné. V tomto príklade takáto premenná neexistuje. Potom nasleduje v rozbaľovacom zozname Kontrastvyberte položku Odchýlka a stlačte tlačidlo Zmeniť. V dôsledku toho sa z každého nominálneho faktora vytvorí niekoľko závislých premenných. Ich počet zodpovedá počtu kategórií počiatočného stavu.

Uložiť nové premenné

Pomocou tlačidla Uložiť v hlavnom dialógovom okne štúdie sa nastaví vytváranie nových parametrov. Budú obsahovať ukazovatele vypočítané v regresnom procese. Konkrétne môžete vytvoriť premenné, ktoré definujú:

  1. Patria do konkrétnej klasifikačnej kategórie (členstvo v skupine).
  2. Pravdepodobnosť priradenia respondenta ku každej študijnej skupine (Pravdepodobnosti).

Pri použití tlačidla Možnosti výskumník nezíska žiadne významné možnosti. Podľa toho ho možno ignorovať. Po kliknutí na tlačidlo "OK" sa v hlavnom okne zobrazia výsledky analýzy.

koeficient logistickej regresie
koeficient logistickej regresie

Kontrola kvality pre primeranosť a logistickú regresiu

Zvážte tabuľku Omnibus Testsof Model Coefficients. Zobrazuje výsledky analýzy kvality aproximácie modelu. Vzhľadom na to, že bola nastavená možnosť krok za krokom, musíte sa pozrieť na výsledky poslednej fázy (Krok 2). Pozitívny výsledok sa bude považovať, ak sa pri prechode do ďalšej fázy zistí nárast indikátora chí-kvadrát s vysokým stupňom významnosti (Sig. < 0,05). Kvalita modelu sa hodnotí v rade Model. Ak sa získa záporná hodnota, ale nie je považovaná za významnú pri celkovo vysokej významnosti modelu, poslednámožno považovať za prakticky vhodné.

Tables

Model Summary umožňuje odhadnúť celkový index rozptylu, ktorý je popísaný vytvoreným modelom (R Square index). Odporúča sa použiť hodnotu Nagelker. Parameter Nagelkerke R Square možno považovať za pozitívny ukazovateľ, ak je nad 0,50. Potom sa vyhodnotia výsledky klasifikácie, v ktorej sa porovnajú skutočné ukazovatele príslušnosti k jednej alebo druhej skúmanej kategórii s tými, ktoré sú predpovedané na základe regresného modelu. Na tento účel sa používa klasifikačná tabuľka. Umožňuje nám tiež vyvodiť závery o správnosti diferenciácie pre každú zvažovanú skupinu.

model logistickej regresie
model logistickej regresie

Nasledujúca tabuľka poskytuje príležitosť zistiť štatistickú významnosť nezávislých faktorov zadaných do analýzy, ako aj každého neštandardizovaného koeficientu logistickej regresie. Na základe týchto ukazovateľov je možné predpovedať príslušnosť každého respondenta vo vzorke k určitej skupine. Pomocou tlačidla Uložiť môžete zadať nové premenné. Budú obsahovať informácie o príslušnosti k určitej klasifikačnej kategórii (Predictedcategory) a pravdepodobnosti zaradenia do týchto skupín (Predicted pravdepodobnosti členstva). Po kliknutí na „OK“sa výsledky výpočtu zobrazia v hlavnom okne Multinomial Logistic Regression.

Prvá tabuľka, ktorá obsahuje ukazovatele dôležité pre výskumníka, sú Informácie o prispôsobení modelu. Vysoká úroveň štatistickej významnosti by naznačovala vysokú kvalitu avhodnosť použitia modelu pri riešení praktických problémov. Ďalšou významnou tabuľkou je Pseudo R-Square. Umožňuje vám odhadnúť podiel celkového rozptylu v závislom faktore, ktorý je určený nezávislými premennými vybranými na analýzu. Podľa tabuľky pravdepodobnostných testov môžeme vyvodiť závery o štatistickej významnosti týchto testov. Odhady parametrov odrážajú neštandardizované koeficienty. Používajú sa pri zostavovaní rovnice. Okrem toho sa pre každú kombináciu premenných určila štatistická významnosť ich vplyvu na závislý faktor. V marketingovom výskume sa medzitým často stáva nevyhnutnosťou rozlišovať respondentov podľa kategórie nie individuálne, ale ako súčasť cieľovej skupiny. Na tento účel sa používa tabuľka Observedand Predicted Frequencies.

Praktická aplikácia

Uvažovaná metóda analýzy je široko používaná v práci obchodníkov. V roku 1991 bol vyvinutý indikátor logistickej sigmoidnej regresie. Ide o ľahko použiteľný a efektívny nástroj na predpovedanie pravdepodobných cien skôr, než sa „prehrejú“. Indikátor je na grafe zobrazený ako kanál tvorený dvoma rovnobežnými čiarami. Sú rovnako vzdialené od trendu. Šírka chodby bude závisieť výlučne od časového rámca. Indikátor sa používa pri práci s takmer všetkými aktívami – od menových párov až po drahé kovy.

logistická regresia v spss
logistická regresia v spss

V praxi boli vyvinuté 2 kľúčové stratégie na používanie nástroja: na únik ana otočku. V druhom prípade sa obchodník zameria na dynamiku zmien cien v rámci kanála. Keď sa hodnota blíži k línii podpory alebo odporu, stávka sa umiestni na pravdepodobnosť, že pohyb začne v opačnom smere. Ak sa cena priblíži k hornej hranici, môžete sa aktíva zbaviť. Ak je na spodnej hranici, mali by ste o kúpe popremýšľať. Stratégia breakout zahŕňa použitie objednávok. Sú inštalované mimo limitov v relatívne malej vzdialenosti. Ak vezmeme do úvahy, že ich cena v niektorých prípadoch krátkodobo poruší, mali by ste hrať na istotu a nastaviť stop lossy. Zároveň, samozrejme, bez ohľadu na zvolenú stratégiu, musí obchodník čo najpokojnejšie vnímať a vyhodnocovať situáciu, ktorá na trhu nastala.

Záver

Využitie logistickej regresie teda umožňuje rýchlo a jednoducho zaradiť respondentov do kategórií podľa daných parametrov. Pri analýze môžete použiť akúkoľvek konkrétnu metódu. Najmä multinomická regresia je univerzálna. Odborníci však odporúčajú používať všetky vyššie opísané metódy v kombinácii. Je to spôsobené tým, že v tomto prípade bude kvalita modelu výrazne vyššia. To zase rozšíri rozsah jeho aplikácií.

Odporúča: