Prehľad Štatistických Testov a Mier Asociácie | Sprievodca
Délka: 8 minut
Úvod do porovnávania skupín
Čo je ANOVA?
Kedy ju môžeme použiť?
F-test a jeho význam
Hypotézy a Post Hoc testy
Keď dáta nie sú ideálne: Kruskal-Wallisov test
Po Kruskal-Wallisovom teste
Čo sú závislé výbery
Parametrické a neparametrické testy
Od rozdielov k vzťahom
Meranie asociácie
Ordinálne premenné a ich miery
Rýchly ťahák a záver
Tomáš: Predstav si, že robíš slepý test troch rôznych značiek energetických nápojov, aby si zistil, ktorý ti najviac chutí. Ako by si štatisticky dokázal, že jeden z nich je naozaj lepší a nebola to len náhoda?
Viktória: Presne na to máme nástroje, ktoré porovnajú viacero skupín naraz. A presne o tom sa dnes budeme rozprávať. Počúvate Studyfi Podcast.
Tomáš: Dobre, takže, poďme na to. Počul som o teste s názvom ANOVA. Znie to dosť zložito. Čo to vlastne je?
Viktória: Vôbec to nie je zložité! ANOVA, alebo analýza rozptylu, je test, ktorý použijeme, keď porovnávame priemery troch alebo viacerých skupín. Chceme vedieť, či sú rozdiely medzi nimi skutočné, alebo len náhodné.
Tomáš: A môžem ju použiť kedykoľvek, keď mám tri skupiny?
Viktória: Skoro. Musia byť splnené tri podmienky. Po prvé, skupiny musia byť nezávislé – každý účastník je len v jednej skupine. Po druhé, dáta v každej skupine by mali mať približne normálne rozdelenie. A po tretie, rozptyl hodnôt v skupinách musí byť podobný. Tomu hovoríme homogenita variancií.
Tomáš: Okej, to dáva zmysel. A ako ANOVA zistí, či je rozdiel významný?
Viktória: Používa na to takzvaný F-test. Predstav si to ako pomer. V čitateli sú rozdiely MEDZI skupinami – to je to, čo nás zaujíma. A v menovateli sú náhodné rozdiely VNÚTRI každej skupiny.
Tomáš: Takže ak sú rozdiely medzi skupinami oveľa väčšie ako tie náhodné, F bude veľké?
Viktória: Presne tak! Veľká hodnota F nám hovorí, že skupiny sa od seba významne líšia. Ak je F blízko jednotky, rozdiely sú pravdepodobne len náhodné.
Tomáš: Čiže keď dostanem veľké F, viem, že existuje rozdiel. Ale viem aj kde presne?
Viktória: Výborná otázka! Nie, ANOVA ti povie len to, že niekde rozdiel je. Ale nepovie ti, či sa skupina A líši od B, alebo B od C. Na to potrebujeme ďalší krok.
Tomáš: A to je čo? Nejaké tajné kúzlo?
Viktória: Skoro. Volá sa to „post hoc“ testy. Tie už porovnajú každú dvojicu skupín a presne ukážu, medzi ktorými konkrétne je štatisticky významný rozdiel.
Tomáš: Fajn, a čo ak moje dáta nespĺňajú tie podmienky pre ANOVU? Napríklad nemajú normálne rozdelenie. Som stratený?
Viktória: Vôbec nie! Na to máme neparametrickú alternatívu – Kruskal–Wallisov test. Je to taký záchranca, keď ANOVA nemôže byť použitá.
Tomáš: Super! A ako funguje on?
Viktória: Namiesto skutočných hodnôt pracuje s ich poradím. Jednoducho zoradí všetky dáta od najmenšieho po najväčšie a potom porovnáva priemerné poradia v jednotlivých skupinách. Testuje vlastne rozdiely medzi mediánmi.
Tomáš: Takže je to podobné ako pri ANOVE? Zistím, že existuje rozdiel, ale neviem kde?
Viktória: Presne. A opäť nasledujú post hoc testy. Najčastejšie sa používa Mann–Whitney U test, ktorým porovnáš skupiny po dvojiciach.
Tomáš: A tam je ešte nejaký chyták?
Viktória: Áno, malý. Keď robíš veľa porovnaní, zvyšuje sa riziko, že nájdeš rozdiel tam, kde v skutočnosti nie je. Preto používame Bonferroniho korekciu.
Tomáš: To znie opäť zložito...
Viktória: Vôbec nie. Jednoducho si sprísniš kritériá. Hladinu významnosti, napríklad 0,05, vydelíš počtom porovnaní. Takže si si istejší, že tvoj výsledok je naozaj reálny.
Tomáš: Aha, takže Bonferroniho korekcia je vlastne taká poistka proti falošným objavom. Dobre, to dáva zmysel. Ale čo ak nemeriam rôzne skupiny, ale tých istých ľudí viackrát? Napríklad ich vedomosti pred kurzom a po kurze.
Viktória: Výborná otázka! Vtedy hovoríme o závislých výberoch. Presne ako v tvojom príklade – meriaš tie isté osoby dvakrát za rôznych podmienok. Chceš zistiť, či nastala nejaká zmena.
Tomáš: Čiže napríklad test pred a po vypití kávy, aby sme zistili, či kofeín zlepšuje výkon?
Viktória: Presne tak. Vždy porovnávame dve závislé merania u tých istých ľudí. A na to máme špeciálne testy.
Tomáš: Predpokladám, že prvý na rane bude nejaký t-test, však?
Viktória: Správne! Ak máš dáta, ktoré sú aspoň intervalové a rozdiely medzi meraniami majú normálne rozdelenie, použiješ párový t-test.
Tomáš: Počkaj, rozdiely? Nie pôvodné merania?
Viktória: Presne tak. A to je kľúčové. Vytvoríš si novú premennú, ktorá je jednoducho „meranie 2 mínus meranie 1“. A práve normalitu týchto rozdielov testuješ. Je to častá chyba.
Tomáš: A čo ak tie rozdiely nemajú normálne rozdelenie?
Viktória: Potom siahneš po neparametrickej alternatíve. Tou je Wilcoxonov test. Ten nepracuje s priemermi, ale berie do úvahy smer aj veľkosť rozdielu pomocou poradí. Je dosť silný.
Tomáš: A existuje aj nejaká ešte jednoduchšia verzia?
Viktória: Áno, existuje. Volá sa znamienkový test, alebo sign test. Ten je taký jednoduchý, že ho zaujíma len to, či sa hodnota zvýšila alebo znížila. Počíta len plusy a mínusy.
Tomáš: Takže mu je jedno, či som sa zlepšil o bod alebo o sto bodov?
Viktória: Presne tak. Je to najjednoduchší, ale aj najslabší test. A ak by si mal nominálne dáta, napríklad zmenu odpovede z „áno“ na „nie“, použil by si McNemarov test.
Tomáš: Dobre, tomuto rozumiem. Hľadali sme rozdiely. Ale čo ak nechcem hľadať rozdiel, ale skôr vzťah? Napríklad či farba očí súvisí s obľúbenou farbou trička?
Viktória: Skvelý prechod k ďalšej téme! Tomu hovoríme meranie asociácie. Pýtame sa, či zmena v jednej premennej súvisí so zmenou v druhej.
Tomáš: Čiže nielen či vzťah existuje, ale asi aj aký je silný, nie?
Viktória: Presne. Sledujeme štyri veci: existenciu, silu, smer a tvar vzťahu. A na meranie sily používame koeficienty asociácie. Je to číslo, ktoré ti povie, ako silno sú veci prepojené.
Tomáš: Tak poďme na to. Čo použijem na ten príklad s farbou očí a tričkom? Obe sú nominálne, kategórie bez poradia.
Viktória: Ak by si mal pre obe premenné len dve možnosti, napríklad modré/hnedé oči a modré/iné tričko, použil by si Phi koeficient. Pre väčšie tabuľky sa používa Cramerovo V.
Tomáš: A čo mi to číslo povie?
Viktória: Obe ti dajú hodnotu od nula do jedna. Nula znamená žiadny vzťah, bližšie k jednotke znamená silnejší vzťah. Takže by si zistil, či je medzi farbou očí a trička nejaká súvislosť.
Tomáš: Super. Takže už vieme zisťovať rozdiely v jednej skupine a aj merať vzťahy medzi premennými. Ale čo keď tie premenné nie sú len kategórie, ale majú nejaké poradie alebo sú priamo číselné?
Viktória: Výborná otázka! Presne na to máme ďalšiu sadu nástrojov. Ak majú kategórie poradie, napríklad úroveň spokojnosti od „veľmi nespokojný“ po „veľmi spokojný“, hovoríme o ordinálnych premenných.
Tomáš: Aha! Takže tam už nestačí len povedať, či je súvislosť, ale aj akým smerom ide?
Viktória: Presne tak. Na to používame koeficienty ako Goodman-Kruskalova gamma, Kendallovo tau alebo Somersovo d. Všetky ti dajú hodnotu od mínus jedna po plus jedna.
Tomáš: Čiže mínus jedna je silný negatívny vzťah, nula žiadny a plus jedna silný pozitívny. Rozumiem. A kedy ktorý použiť?
Viktória: V skratke: Gamma je super, keď máš málo rovnakých hodnôt. Kendallovo tau si lepšie poradí s dátami, kde sa hodnoty opakujú. A Somersovo d je ideálne, ak vieš presne určiť, ktorá premenná je závislá a ktorá nezávislá.
Tomáš: Super, to znie logicky. Takže už len vybrať ten správny.
Viktória: Presne. Dám ti taký ultra rýchly ťahák na skúšku. Pre nominálne premenné použi Cramerovo V. Pre predikciu kategórií Lambda. A pre ordinálne, ako sme spomínali, Gamma, Kendall alebo Somers.
Tomáš: Fantastické. Tým sme vlastne prebrali všetky hlavné typy. Viktória, veľmi pekne ti ďakujem za skvelé vysvetlenie.
Viktória: Nemáš za čo. Dúfam, že to našim poslucháčom pomohlo.
Tomáš: Určite áno. A vám, milí študenti, ďakujeme za pozornosť pri dnešnom dieli Studyfi Podcastu. Dopočutia nabudúce!
Viktória: Dovidenia.