Podcast na Pokročilé statistické metody

Pokročilé statistické metody: Kompletní shrnutí pro studenty

Shrnutí Test znalostí Kartičky Podcast Myšlenková mapa

Podcast

Testování hypotéz: Od alfy po ANOVU0:00 / 19:41

0:001:00 zbývá

Lucie...a přesně takhle zjistíš, jestli máš pravdu, nebo jestli si jenom něco nalháváš!

FilipPočkej, takže celá statistika je vlastně jenom o tom, jak se elegantně nepřiznat, že jsme se mýlili?

Kapitoly

Testování hypotéz: Od alfy po ANOVU

Délka: 19 minut

Kapitoly

Co si to nalháváme?

Nula nebo alternativa?

Soudní síň statistiky

ANOVA v akci

Pravidla pro ANOVU

Hlídač rozptylů

Kdo za to může?

ANOVA pro pokročilé

Svět korelace a regrese

Když přímka nestačí

Jak vybrat ten správný model?

Pozor na multikolinearitu

Co je to korelace

Od zvonu ke kopci

Co je časová řada?

Dva základní typy

Jak si zjednodušit život

Komponenty a faktory

Třídíme a shlukujeme

Příklad s kosatci

Shrnutí a rozloučení

Přepis

Lucie: ...a přesně takhle zjistíš, jestli máš pravdu, nebo jestli si jenom něco nalháváš!

Filip: Počkej, takže celá statistika je vlastně jenom o tom, jak se elegantně nepřiznat, že jsme se mýlili?

Lucie: Skoro! Ale zní to líp, když tomu říkáme "testování hypotéz".

Filip: Dobře, tak to musíme rozebrat. Právě posloucháte Studyfi Podcast a dnes se ponoříme do světa statistických hypotéz.

Lucie: Než začneme, musíme si ujasnit dva pojmy. Základní soubor, neboli populace, a výběrový soubor.

Filip: To je to s těmi písmenky, že? Pro populaci řecká jako sigma nebo mí, a pro výběr ta naše, latinka.

Lucie: Přesně tak. A hypotéza je vlastně jen tvrzení o tom základním souboru. Máme dvě – nulovou, značíme H0, a alternativní.

Filip: Nulová je takový ten status quo, že? To, co předpokládáme, že platí, a snažíme se to vyvrátit.

Lucie: Ano, a alternativní je její pravý opak, negace. Důležité je, že jsou disjunktní – nemůžou platit obě zároveň.

Filip: A jak se tedy rozhodneme, která platí?

Lucie: K tomu slouží testové kritérium. To je nějaká statistika, u které známe její pravděpodobnostní rozdělení.

Filip: Zní to složitě.

Lucie: Představ si to jako soud. Nulová hypotéza je "obžalovaný je nevinný". A my sbíráme důkazy – to je to testové kritérium.

Filip: Aha! A když důkazy stačí, tak ho odsoudíme.

Lucie: Přesně. A ten "dostatek důkazů" je takzvaný kritický obor. Pokud tam naše testové kritérium spadne, nulovou hypotézu zamítáme. Pokud ne, spadne do oboru přijetí a H0 nezamítáme.

Filip: Ale u soudu se občas stane chyba...

Lucie: I ve statistice! Máme chybu prvního a druhého druhu. Chyba I. druhu, alfa, je když zamítneme platnou H0. To je jako poslat do vězení nevinného.

Filip: Au. A ta druhá?

Lucie: Chyba II. druhu, beta, je když nezamítneme neplatnou H0. Takže pustíme viníka na svobodu. Chceme, aby pravděpodobnost chyby alfa, takzvaná hladina významnosti, byla co nejmenší, obvykle 5 %.

Filip: A co síla testu?

Lucie: To je super otázka! Síla testu je 1 mínus beta. Je to pravděpodobnost, že správně zamítneme nesprávnou hypotézu. Tedy že toho viníka odhalíme.

Filip: Dobře, teorii máme. Jak se to ale používá v praxi? Třeba když chci zjistit, jestli vzdělání ovlivňuje plat?

Lucie: Skvělý příklad! Tady máme jednu proměnnou kategoriální, vzdělání, a jednu číselnou, plat. Na to použijeme analýzu rozptylu, známou jako ANOVA.

Filip: ANOVA... Zní jako nějaká hvězda.

Lucie: Skoro. Cílem ANOVA je ověřit, jestli číselná proměnná, ten plat, závisí na té kategoriální, na vzdělání.

Filip: Jak to dělá?

Lucie: Rozkládá celkovou variabilitu platu na dvě části. Meziskupinovou – tedy jak se liší průměrný plat lidí se základním vzděláním od průměrného platu vysokoškoláků.

Filip: A ta druhá?

Lucie: Vnitroskupinová. Ta nám říká, jak moc se liší platy mezi samotnými vysokoškoláky. Čím větší je rozdíl mezi skupinami a menší uvnitř nich, tím silnější je ta závislost.

Filip: Chápu! Takže když ANOVA řekne "zamítáme H0", znamená to, že vzdělání má na plat vliv.

Lucie: Alespoň jedna úroveň vzdělání se významně liší od ostatních. A sílu té závislosti pak měříme třeba poměrem determinace.

Filip: Paráda. To zní mnohem jasněji. A co když máme dvě číselné proměnné?

Lucie: To už je na regresní a korelační analýzu. Ale to si necháme zase na příště.

Filip: Super. Díky za vysvětlení. Ale co když ta naše kategoriální proměnná má víc než dvě úrovně? Třeba když neporovnáváme jen muže a ženy, ale lidi se základním, středním a vysokým vzděláním?

Lucie: Přesně pro tyhle případy máme skvělý nástroj. Jmenuje se analýza rozptylu, známá pod zkratkou ANOVA.

Filip: ANOVA. To zní důležitě. Má to nějaké speciální podmínky, než se do toho pustíme?

Lucie: Má, a jsou dost podstatné. Za prvé, předpokládáme, že data v každé skupině pocházejí z normálního rozdělení. A za druhé, ty skupiny musí být na sobě nezávislé.

Filip: Jasně, takže nemůžu testovat stejnou skupinu lidí před a po nějakém experimentu?

Lucie: Přesně tak. To by byly závislé výběry. A ten nejdůležitější předpoklad je shoda rozptylů. Všechny skupiny by měly mít podobnou 'roztříštěnost' dat.

Filip: Aha. A jak se kontroluje, jestli mají tu stejnou roztříštěnost?

Lucie: Na to máme speciální testy, třeba Bartlettův nebo Levennův test. Funguje to jako takový hlídač. Pokud test řekne, že rozptyly jsou odlišné, měli bychom být s použitím ANOVY opatrní.

Filip: Takže když Bartlettův test pískne faul, je po zápase?

Lucie: Ne tak docela! Pokud máme ve všech skupinách stejně lidí, tak nám menší rozdíly v rozptylech tolik nevadí. ANOVA je celkem robustní.

Filip: Dobře. Takže provedeme ANOVU a ta nám řekne: 'Ano, mezi vzděláním a platem je statisticky významný vztah!' Ale která úroveň vzdělání to způsobuje? Střední versus vysoká? Nebo základní versus všechny ostatní?

Lucie: Výborná otázka! ANOVA sama o sobě ti tohle neřekne. Jen potvrdí, že NĚKDE existuje rozdíl. Abychom našli konkrétního 'viníka', používáme takzvané metody mnohonásobného porovnání.

Filip: Aha, takže to je taková detektivní dohra.

Lucie: Dá se to tak říct. Metody jako Tukeyho HSD nebo Scheffeho metoda porovnají každou skupinu s každou a řeknou nám, mezi kterými konkrétně je ten významný rozdíl. Je to super užitečné.

Filip: To dává smysl. A jde to ještě dál? Co když chci zkoumat vliv dvou faktorů najednou? Třeba vzdělání A zároveň region, kde člověk bydlí?

Lucie: Samozřejmě! Na to slouží dvoufaktorová analýza rozptylu. Tam sledujeme nejen vliv faktoru A a faktoru B zvlášť, ale i jejich společné působení.

Filip: Společné působení? Jakože... interakce?

Lucie: Přesně tak. Někdy může být kombinace 'vysoké vzdělání v Praze' mnohem silnější, než bys čekal jen ze součtu obou vlivů. A to je právě ta interakce, kterou umíme změřit.

Filip: Paráda. Takže jsme pokryli závislost kategoriální a číselné proměnné. Ale co ty dvě číselné, které jsi zmínila minule?

Lucie: K těm se právě dostáváme. To je svět korelace a regrese. Ale to si opravdu necháme na příště.

Filip: Tak jo, Lucie, jsem připravený. Minule jsi nás nalákala na svět korelace a regrese. Co to přesně je?

Lucie: Jsem ráda, že jsi tak natěšený! Představ si, že chceš předpovědět jednu číselnou proměnnou pomocí jiné. Třeba jak moc se ti zvýší prodeje, když investuješ víc do reklamy. Přesně k tomu slouží regrese.

Filip: Takže kreslíme nějakou čáru mezi body v grafu?

Lucie: Přesně tak! V nejjednodušším případě je to přímka. A té se říká regresní přímka. Hledáme takovou, která nejlépe vystihuje vztah mezi těmi dvěma proměnnými.

Filip: A co když ten vztah není přímka? Co když je to nějaká zatáčka?

Lucie: Skvělá otázka! Právě proto máme i jiné modely. Třeba regresní hyperbolu nebo parabolu. A dokonce logaritmické a exponenciální funkce.

Filip: Počkat, to zní jako hodně pokročilá matematika.

Lucie: Neboj se, je to jednodušší, než to zní. Ten trik je, že data chytře ztransformujeme — třeba zlogaritmujeme — a pak na ně použijeme úplně stejné postupy jako u té jednoduché přímky. Ten software si ani nevšimne, že počítá něco složitějšího.

Filip: Takže si můžu vybrat z celé řady modelů. Jak poznám, který je ten nejlepší?

Lucie: Řídíme se dvěma pravidly. Chceme co nejvyšší takzvaný „upravený koeficient determinace“, který nám říká, jak dobře model vysvětluje naše data. Ale zároveň... chceme co nejjednodušší model.

Filip: Takže jako u všeho v životě, v jednoduchosti je krása.

Lucie: Přesně! I když bude mít složitější model o malinko lepší výsledky, často dáme přednost tomu jednoduššímu. Lépe se totiž interpretuje.

Filip: Dobře, a co když mám víc proměnných, kterými chci něco vysvětlit? Třeba prodeje nezávisí jen na reklamě, ale i na ceně a sezóně.

Lucie: To je vícenásobná regrese. Ale tady musíme být opatrní. Musíme si dát pozor na takzvanou multikolinearitu.

Filip: To zní jako nějaká nemoc.

Lucie: Trochu. Znamená to, že tvoje vysvětlující proměnné jsou si až moc podobné. Jakoby si navzájem napovídaly. Když se to stane, musíme jednu z nich z modelu vyřadit. Tu, která je pro nás méně důležitá.

Filip: Rozumím. Takže nechceme, aby nám v modelu vznikal šum. A co nás čeká dál?

Lucie: Dál nás čeká jeden z mých nejoblíbenějších konceptů a něco, co se v datech hledá skoro pořád — korelace!

Filip: Korelace. To slovo slýchám neustále. Ale co to vlastně znamená v řeči statistiků? Není to jen "něco s něčím souvisí"?

Lucie: V podstatě ano, ale ta definice je mnohem elegantnější. Abychom to pochopili, musíme udělat malý krok zpátky k normálnímu rozdělení. Pamatuješ si na Gaussovu křivku?

Filip: Jasně, ten symetrický zvon. Ten popisoval jednu jedinou proměnnou, třeba výšku lidí ve třídě.

Lucie: Přesně tak. A měl dva klíčové parametry, které ho definovaly: střední hodnotu, tedy kde je vrchol, a rozptyl, tedy jak moc je ten zvon placatý.

Filip: To dává smysl. Takže kde se v tomhle obrázku objeví korelace?

Lucie: Objeví se, jakmile přidáme další rozměr. Teď si představ, že neměříš jen výšku, ale zároveň i váhu každého studenta. Najednou nemáme jednu proměnnou, ale dvě.

Filip: Takže místo 2D grafu se zvonem máme... co? Nějaký 3D graf?

Lucie: Přesně tak! Už to není zvon, ale spíš takový kopec nebo hora v prostoru. Tomu se říká dvourozměrné normální rozdělení.

Filip: Páni, kopec dat. A ten má taky svoje parametry jako ten zvon?

Lucie: Má. Pro výšku má svoji střední hodnotu a rozptyl. Pro váhu taky. A pak má jeden úplně nový, speciální parametr, který popisuje právě ten vztah mezi nimi.

Filip: A to je korelační koeficient!

Lucie: Bingo! Tohle je hrozně důležité pochopit. Korelační koeficient není jen nějaké číslo, které si spočítáme. Je to přímo parametr, který definuje tvar toho vícerozměrného rozdělení.

Filip: Takže nám vlastně říká, jestli je ten náš datový "kopec" nějak protažený nebo nakloněný jedním směrem?

Lucie: Přesně jsi to vystihl. A právě o tom, jaké hodnoty může nabývat a co znamenají, si povíme hned vzápětí.

Filip: Přesně jsi to vystihl. A právě o tom, jaké hodnoty může nabývat a co znamenají, si povíme hned vzápětí.

Filip: Lucie, takže když jsme se bavili o korelaci, dívali jsme se na data v jednom bodě. Ale co když chceme sledovat něco... no, v čase? Třeba cenu akcií nebo počet návštěvníků v aquaparku?

Lucie: Skvělá otázka, Filipe! Tím se dostáváme do úplně nového světa. Do světa časových řad. Je to vlastně hrozně jednoduchý koncept.

Filip: Povídej, jsem jedno ucho.

Lucie: Časová řada, kterou značíme jako y s malým t, je prostě posloupnost hodnot, která je jednoznačně uspořádaná podle času. Cokoliv, co máš přiřazené k časové ose, je časová řada.

Filip: Takže denní teploty, měsíční tržby, počet lajků za hodinu... to všechno jsou časové řady?

Lucie: Přesně tak. V podstatě sledujeme příběh nějakého ukazatele v čase.

Filip: Dobře, to dává smysl. Ale jsou všechny časové řady stejné? Ta denní teplota mi přijde trochu jiná než měsíční zisk.

Lucie: Máš pravdu, nejsou. Rozlišujeme dva hlavní typy. Zaprvé máme intervalové časové řady. To jsou hodnoty za nějaký časový úsek. Třeba ten tvůj zisk za měsíc, nebo náklady za čtvrtletí. Jsou to takzvané tokové veličiny.

Filip: Jasně, něco, co se za ten interval

Lucie: ...nashromáždí. Přesně tak. A ten druhý typ jsou okamžikové časové řady. To je třeba ta denní teplota, nebo stav na účtu k určitému datu. Ale co když těch proměnných, které sledujeme, máme mnohem víc? Nejen měsíční zisk, ale i náklady, počet zaměstnanců, spokojenost zákazníků… a chceme v tom najít nějaký řád?

Filip: Tak to zní jako data z každé druhé firmy. Naprostý chaos, kde všechno souvisí se vším.

Lucie: Přesně! A přesně pro tyhle situace tu máme metody vícečlenné, neboli multivariační, statistické analýzy.

Filip: Dobře, multivariační analýza. Co je jejím hlavním cílem? Uklidit ten datový nepořádek?

Lucie: V podstatě ano. Hlavním cílem je často redukce dimenze. To znamená snížit počet proměnných, se kterými pracujeme, ale přitom ztratit co nejméně informací.

Filip: A proč bych to dělal? Víc dat přece znamená víc informací, ne?

Lucie: Ne vždy. Představ si, že měříš u lidí výšku v centimetrech a zároveň výšku v palcích. Máš dvě proměnné, ale obě říkají v podstatě to samé. Jsou na sobě závislé. A právě tahle vzájemná závislost, odborně korelace, je klíčová.

Filip: Aha! Takže hledáme proměnné, které tak trochu „mluví o tom samém“ a chceme je spojit do jedné?

Lucie: Perfektně řečeno. A na to máme dva hlavní nástroje. Prvním je metoda hlavních komponent, zkráceně PCA.

Filip: Metoda hlavních komponent... to zní důležitě. Co dělá?

Lucie: Vytvoří z původních, vzájemně závislých proměnných, úplně nové proměnné. Těm říkáme hlavní komponenty. A teď to nejlepší – tyhle nové komponenty jsou už vzájemně nezávislé.

Filip: Super. A co znamenají? Když spojím zisk a náklady, co je ten výsledek?

Lucie: A to je právě ten háček. Hlavní komponenty se neinterpretují. Jsou to jen matematické konstrukce, které nám pomáhají vysvětlit co nejvíce variability v původních datech. Zjednodušeně řečeno, je to metoda, jak odstranit závislost a zredukovat data.

Filip: Takže mám nové, super-efektivní proměnné, ale vlastně nevím, co jsou zač?

Lucie: Přesně tak. Pokud ale chceme těm novým proměnným dát nějaký smysl, sáhneme po druhé metodě. A tou je faktorová analýza.

Filip: Takže ta je chytřejší?

Lucie: Je spíš… kreativnější. Cíl je stejný – redukce dimenze. Ale nově vytvořené proměnné, kterým říkáme faktory, se snažíme interpretovat. Snažíme se jim dát nějaký věcný význam.

Filip: Třeba že jeden faktor reprezentuje „velikost firmy“ a druhý „finanční zdraví“?

Lucie: Přesně tak! Problém je, že tahle interpretace je hodně subjektivní. Co jeden analytik vidí jako „finanční zdraví“, může druhý vidět jinak. Je to velká nevýhoda téhle metody.

Filip: Dobře, rozumím. Takže umíme zjednodušit proměnné. Co dál? Můžeme třídit i samotné objekty? Třeba zákazníky?

Lucie: Určitě. A na to máme další sadu metod. První je shluková analýza. Představ si, že máš hromadu zákazníků a nevíš, jaké typy v ní jsou. Shluková analýza je jako detektiv, který hledá přirozené skupinky.

Filip: Hledá „shluky“ lidí, co se chovají podobně?

Lucie: Přesně. Cílem je, aby objekty uvnitř jednoho shluku byly co nejpodobnější a shluky mezi sebou co nejodlišnější. A co je důležité – dopředu nevíme, kolik těch shluků bude, ani jaké budou.

Filip: Takže je to takové objevování. A co když ty skupiny znám dopředu? Třeba vím, že mám zákazníky „věrné“, „občasné“ a „ztracené“.

Lucie: Skvělá otázka! Pokud skupiny znáš, použiješ diskriminační analýzu. Ta nedělá nic jiného, než že se snaží najít dokonalé pravidlo, jak zařadit nový objekt do jedné z těch předem známých skupin.

Filip: Takže shluková analýza je ten detektiv, co hledá gangy ve městě. A diskriminační analýza je vyhazovač v klubu, co má seznam hostů a rozhoduje, jestli tě pustí do VIP zóny.

Lucie: To je naprosto dokonalé přirovnání! Líp bych to neřekla.

Filip: Tohle všechno je super teorie, ale pojďme na příklad. Máš nějaký?

Lucie: Mám. Klasický školní příklad je datový soubor s kosatci. Máme data o 150 kytkách, které patří do tří různých druhů. U každé měříme čtyři věci: délku a šířku okvětního a kališního lístku.

Filip: Čtyři proměnné. To není moc, ale pro ukázku stačí.

Lucie: Přesně. A tyhle čtyři proměnné jsou na sobě dost závislé – když má kytka dlouhé lístky, mívá je i široké. Ideální pro metodu hlavních komponent. Analýza nám ukáže, že místo čtyř proměnných nám stačí jen dvě hlavní komponenty, abychom popsali skoro 96 % veškeré variability! Zredukovali jsme dimenzi na polovinu.

Filip: Páni. A co ta faktorová analýza?

Lucie: Tam bychom se snažili ty dva nové faktory pojmenovat. Po nějakých úpravách, kterým říkáme rotace, bychom mohli zjistit, že první faktor souvisí hlavně s délkou lístků a druhý s jejich šířkou. První faktor by byl „délková charakteristika“ a druhý „šířková“.

Filip: A shluková a diskriminační?

Lucie: Kdybychom nevěděli, že tam jsou tři druhy kosatců, shluková analýza by se nám je pokusila najít. Různé metody by měly různou úspěšnost, ale nejlepší by se trefily skoro dokonale. A kdybychom ty tři druhy znali, diskriminační analýza by vytvořila rovnici, do které dosadíš rozměry lístků nového kosatce a ona ti řekne: „Tohle je na 98 % kosatec versicolor.“

Filip: Dobře, pojďme si to na závěr shrnout. Když mám moc proměnných, které spolu souvisí, a chci si zjednodušit život, sáhnu po metodě hlavních komponent nebo po faktorové analýze.

Lucie: Správně. S tím, že komponenty neinterpretuješ, zatímco faktory ano, ale je to subjektivní.

Filip: A když chci třídit samotné objekty, třeba zákazníky nebo kytky, mám dvě možnosti. Pokud skupiny neznám a chci je objevit, je tu shluková analýza.

Lucie: Ano. A pokud skupiny znám a chci jen vytvořit pravidlo pro zařazování nových, použiju diskriminační analýzu.

Filip: Perfektní. Lucie, já myslím, že tímhle jsme pokryli základy statistiky od A do Z. Bylo to skvělé a já ti moc děkuju za všechny informace a trpělivost.

Lucie: Já děkuju tobě, Filipe, za skvělé otázky a postřehy. Doufám, že jsme našim posluchačům ukázali, že statistika není žádná nuda, ale neuvěřitelně mocný nástroj.

Filip: Přesně tak. Takže, milí posluchači, děkujeme, že jste s námi byli u Studyfi Podcastu. Doufáme, že jste se něco nového naučili a že se s námi potkáte i u našich dalších projektů.

Lucie: Mějte se krásně a pamatujte, že v datech je síla! Ahoj.

Filip: Ahoj.