Podcast na Základy deskriptivní a inferenční statistiky

Základy deskriptivní a inferenční statistiky: Kompletní průvodce

Shrnutí Test znalostí Kartičky Podcast Myšlenková mapa

Podcast

Statistická analýza: Jak čísla řídí svět0:00 / 21:03

0:001:00 zbývá

MatějKdyž jsi dneska ráno otevřel Instagram nebo TikTok, algoritmus, který rozhodoval, co uvidíš, dělal v podstatě přesně to, o čem se budeme bavit. Prováděl bleskovou statistickou analýzu.

KristýnaPřesně tak! Zní to jako něco složitého z učebnice, ale statistika je všude kolem nás. A pochopit její základy je skoro jako získat superschopnost vidět skryté souvislosti.

Kapitoly

Statistická analýza: Jak čísla řídí svět

Délka: 21 minut

Kapitoly

Úvod do světa dat

Popisná statistika – Detektiv v datech

Matematická statistika – Věštění z dat?

Co je testování hypotéz?

Soudní proces statistiky

Dáma, co ochutnává čaj

p-hodnota a její úskalí

Chyby v matrixu

Velikost má význam

Nebezpečí mnoha testů

Úvod do t-testu

Praktický příklad: výška mužů

Ověření předpokladů a hypotézy

Analýza výsledků

Shrnutí a rozloučení

Přepis

Matěj: Když jsi dneska ráno otevřel Instagram nebo TikTok, algoritmus, který rozhodoval, co uvidíš, dělal v podstatě přesně to, o čem se budeme bavit. Prováděl bleskovou statistickou analýzu.

Kristýna: Přesně tak! Zní to jako něco složitého z učebnice, ale statistika je všude kolem nás. A pochopit její základy je skoro jako získat superschopnost vidět skryté souvislosti.

Matěj: Superschopnost, jo? Tak to beru! Posloucháte Studyfi Podcast, kde si dnes ukážeme, že statistika není žádná nuda.

Kristýna: Dobře, tak začněme od základů. Statistiku můžeme rozdělit na dva hlavní druhy. Ten první je popisná statistika.

Matěj: Popisná... takže prostě popisuje, co vidí?

Kristýna: Přesně. Představ si, že jsi detektiv, který dorazí na místo činu. Nejdřív si všechno prohlédneš a zapíšeš fakta. Kolik je tam lidí? Co mají na sobě? Kde co leží? Nepokoušíš se hned hádat, kdo je vrah.

Matěj: Jasně, jen sbírám důkazy. Chápu.

Kristýna: A přesně to dělá popisná statistika. Vezme hromadu dat – třeba platy všech lidí v Česku – a přehledně je shrne. Ukáže ti průměr, medián, nebo vytvoří graf, ze kterého hned vidíš, jaké jsou rozdíly.

Matěj: Jako ten slavný příběh s cholerou v Londýně, že? Kde doktor John Snow jenom zakresloval úmrtí do mapy a zjistil, že jsou všechna kolem jedné konkrétní pumpy s vodou.

Kristýna: To je dokonalý příklad! Nic netestoval, pouze popisoval data, která měl. Použil jednoduchou grafickou metodu a zachránil tím tisíce životů. Ukázal sílu v tom, jen se dobře podívat na to, co už víme.

Matěj: Takže klíčový princip je... nezobecňovat, jen zobrazovat, co v těch datech skutečně je.

Kristýna: Přesně tak. Je to první, nezbytný krok každé analýzy.

Matěj: Dobře, takže popisná statistika nám ukáže, co se děje v datech, která máme. Ale co když chci z těch dat odvodit něco víc? Třeba předpovědět, jestli nový lék bude fungovat na všechny lidi, i když jsem ho otestoval jen na stovce z nich?

Kristýna: A to je přesně chvíle, kdy na scénu přichází ta druhá, matematická statistika. Ta dělá ten velký skok od malého vzorku, který vidíme, k celé populaci, o které chceme něco zjistit.

Matěj: Takže to je ta část s testováním hypotéz a... p-hodnotami a tak? Zní to trochu jako věštění z křišťálové koule.

Kristýna: Trochu! Ale místo magie používáme pravděpodobnost. Je to jako když šéfkuchař ochutná jednu lžičku polévky, aby posoudil, jestli je celý hrnec dost slaný.

Matěj: A riskuje, že zrovna ta jeho lžička byla bez soli, a pak přesolí celý hrnec.

Kristýna: Přesně! A matematická statistika ti dokáže spočítat, jak velká je šance, že se pleteš. Pomáhá nám rozhodnout, jestli je ten efekt, co vidíme, skutečný, nebo jen náhoda.

Matěj: Takže nám dává odvahu říct: „Ano, tenhle lék s velkou pravděpodobností funguje,“ a nejen „fungoval na naši malou testovací skupinu“.

Kristýna: Perfektně řečeno. Umožňuje nám zobecňovat. A to je klíčové jak ve vědě, tak v medicíně nebo byznysu. Bez ní bychom se dívali jen na jednotlivé stromy a nikdy neviděli celý les.

Matěj: Super, myslím, že ten základní rozdíl už chápu. Popisná kreslí mapu a matematická nám říká, kam se podle ní vydat dál.

Kristýna: Přesně tak! A právě to, *jak* nám říká, kam se vydat, to je jádro testování hypotéz. Je to vlastně takový formalizovaný způsob, jak se ptát dat na otázky a nenechat se ošálit náhodou.

Matěj: Nenechat se ošálit náhodou… to zní jako něco, co bych potřeboval každý den. Takže jak to funguje v praxi?

Kristýna: Úplně jednoduše. Představ si, že máš nějaké tvrzení, nějakou hypotézu. Třeba: „Náš nový lék na bolest hlavy funguje rychleji než ten starý.“ To je tvoje hypotéza.

Matěj: Dobře, to dává smysl. Chci vědět, jestli je to pravda.

Kristýna: Přesně. Ale nemůžeš to otestovat na všech lidech na světě. Takže vezmeš vzorek – třeba sto lidí dostane nový lék a sto lidí ten starý. Změříš, jak rychle jim zabral, a porovnáš průměry. A teď přichází ta klíčová otázka.

Matěj: Jestli je ten rozdíl dost velký?

Kristýna: Ano, ale co je „dost velký“? Co když byl nový lék v průměru rychlejší jen o minutu? Je to skutečný rozdíl, nebo jen náhodný výkyv v naší testovací skupině? A přesně na tohle nám dává odpověď testování hypotéz. Řekne nám, jaká je pravděpodobnost, že takový rozdíl vidíme jen čirou náhodou.

Matěj: Aha! Takže to není jen o tom, že je něco v průměru lepší, ale jestli je to *tak moc* lepší, že už to nemůže být náhoda.

Kristýna: Bingo! A to se používá všude. Třeba výrobce jogurtů. Deklaruje, že kelímek má 150 gramů. Inspekce jich pak pár zváží a pomocí testování hypotéz zjistí, jestli je případná odchylka v rámci tolerance, nebo jestli výrobce systematicky šidí zákazníky.

Matěj: Takže statistika chrání můj jogurt. To se mi líbí.

Kristýna: Chrání tvůj jogurt, ověřuje, jestli nový tréninkový program ve fitku opravdu funguje líp než ten starý, nebo jestli existuje souvislost mezi socioekonomickým statusem a rizikem infarktu. Všude se ptáme: je tenhle vzorec, co vidím v datech, skutečný, nebo je to jen náhoda?

Matěj: Víš, co mi to připomíná? Soudní proces. Máš nějaké obvinění – „ten lék je lepší“ – a teď potřebuješ důkazy, které jsou tak silné, aby přesvědčily porotu.

Kristýna: To je naprosto dokonalá analogie! Statistici ji milují. V našem soudním procesu máme dvě hlavní postavy. Zaprvé, *nulovou hypotézu*, značíme ji H₀. To je takový ďáblův advokát. Vždycky tvrdí, že se nic neděje.

Matěj: Takže v případě léku by nulová hypotéza řekla: „Nový lék není o nic lepší než ten starý. Jakýkoli rozdíl je jen náhoda.“

Kristýna: Přesně tak! Je to ten výchozí stav, presumpce neviny. Nulová hypotéza říká: „Není tu žádný efekt. Není tu žádná souvislost.“ A proti ní stojí *alternativní hypotéza*, H₁, což je to, co se snažíme dokázat.

Matěj: Takže H₁ by byla: „Nový lék JE lepší.“ To je ten žalobce, který se snaží tu nevinu vyvrátit.

Kristýna: Ano. A my, jako statistici, jsme soudci. Naše data jsou důkazní materiál. A naším úkolem je rozhodnout, jestli jsou důkazy dostatečně silné na to, abychom zamítli nevinu – tedy nulovou hypotézu – a přiklonili se k alternativě.

Matěj: Super, ta analogie se soudem mi to hodně objasnila. Ale kde se to celé vlastně vzalo? Kdo s tímhle přišel jako první?

Kristýna: To je skvělá otázka, protože ten příběh je legendární. Všechno to začalo ve třicátých letech v Cambridgi u odpoledního čaje. Byla tam jedna dáma, botanička Muriel Bristol, která prohlásila, že dokáže poznat, jestli byl do šálku nalitý nejdřív čaj, nebo mléko.

Matěj: Počkej, to jako vážně? A to jde poznat?

Kristýna: No, ona tvrdila, že ano. A u stolu naštěstí seděl statistik Ronald Fisher, považovaný za jednoho z otců moderní statistiky. A ten, místo aby se s ní hádal, řekl: „Dobře, pojďme to otestovat.“

Matěj: A jak?

Kristýna: Vzal osm šálků. Do čtyř nalil nejdřív mléko a pak čaj, a do zbylých čtyř to udělal obráceně. Zamíchal je a dal jí je ochutnat. Věděla jen, že jsou čtyři a čtyři.

Matěj: A teď přichází ta statistika…

Kristýna: Přesně. Fisher si položil otázku, která je základem testování hypotéz. Jeho nulová hypotéza (H₀) byla: „Ta dáma si jen tipuje, nemá žádnou speciální schopnost.“ Kdyby to byla pravda, jaká je pravděpodobnost, že by náhodou správně určila všech osm šálků?

Matěj: Musí být dost malá.

Kristýna: A taky že byla. Fisher spočítal, že existuje 70 různých způsobů, jak vybrat čtyři šálky „s mlékem napřed“ z celkových osmi. A jen jeden z těch způsobů je ten správný. Takže pravděpodobnost, že by se trefila čistě náhodou, je jen 1 ku 70. To je asi 1,4 procenta.

Matěj: Takže kdyby se trefila do všech, bylo by extrémně nepravděpodobné, že jen hádala.

Kristýna: Přesně! A tenhle drobný postřeh – ta pravděpodobnost 1,4 % – to je to, čemu dnes říkáme *p-hodnota*. Je to základní kámen celého testování. A mimochodem, ta dáma prý uhodla všechny správně.

Matěj: Wow! Takže statistika dokázala, že existují čajoví fajnšmekři. To je skvělé.

Kristýna: Přesně tak. Ale teď se drž, protože ta p-hodnota, kterou Fisher tak elegantně odhalil, je asi nejvíce nepochopený koncept v celé statistice.

Matěj: Dobře, tak mi to zkus vysvětlit jednoduše. Ta p-hodnota je tedy pravděpodobnost, že výsledek, který vidím, je jen náhoda?

Kristýna: Pozor, to je přesně ta nejčastější chyba! P-hodnota *není* pravděpodobnost, že máš pravdu, nebo že je výsledek náhodný. Je to něco trochu jiného a ten rozdíl je klíčový.

Matěj: Okej, tak teď jsem zmatený.

Kristýna: Think of it this way: p-hodnota je pravděpodobnost, že uvidíš taková data, jaká máš (nebo ještě extrémnější), *za předpokladu, že nulová hypotéza je pravdivá*. V našem příkladu s čajem to znamená: „Pokud ta dáma opravdu jen hádá, jaká je šance, že by se i tak trefila do všech osmi?“ Odpověď je 1,4 %.

Matěj: Aha, takže ten předpoklad „kdyby hádala“ je tam strašně důležitý.

Kristýna: Naprosto. P-hodnota ti neřekne, jestli je nulová hypotéza pravdivá. To je další obrovský mýtus. Když ti vyjde p-hodnota 0,03, neznamená to, že je 3% šance, že se nic neděje. Znamená to, že kdyby se nic nedělo, měl bys jen 3% šanci vidět takový výsledek. Je to jemný, ale zásadní rozdíl.

Matěj: Takže nízká p-hodnota je pro mě dobrá zpráva, protože říká, že moje data jsou za stavu „nic se neděje“ hodně nepravděpodobná. A to mě vede k závěru, že se asi něco dít musí.

Kristýna: Přesně tak! V praxi si stanovíme hranici, nejčastěji 5 %, tedy 0,05. Říkáme jí hladina významnosti, alfa. Pokud je naše p-hodnota menší než tahle alfa, řekneme, že výsledek je „statisticky významný“ a zamítneme nulovou hypotézu.

Matěj: Dobře, ale co když se i tak spleteme? Co když ta dáma měla jen neuvěřitelné štěstí a my jsme zamítli nulovou hypotézu, i když byla pravdivá?

Kristýna: Skvělá otázka. A ano, to se může stát. V našem soudním procesu můžeme udělat dvě zásadní chyby. První je přesně to, co popisuješ. Říkáme tomu *chyba prvního druhu*, neboli alfa chyba.

Matěj: To je jako když odsoudíš nevinného člověka.

Kristýna: Přesně. Nulová hypotéza byla pravdivá – lék nefunguje, dáma hádá – ale naše data nám náhodou vyšla tak extrémně, že jsme ji zamítli. Pravděpodobnost, že tuhle chybu uděláme, je přesně ta naše hladina významnosti alfa. Když nastavíme alfu na 5 %, vlastně tím říkáme, že jsme ochotni akceptovat 5% riziko, že odsoudíme nevinného.

Matěj: A ta druhá chyba?

Kristýna: *Chyba druhého druhu*, neboli beta chyba. To je naopak situace, kdy necháš vinného odejít na svobodu.

Matěj: Takže lék opravdu funguje, ale naše data z testu nebyla dostatečně přesvědčivá, takže jsme nulovou hypotézu nezamítli a řekli jsme: „Asi se nic neděje.“

Kristýna: Přesně. Nezamítnout nulovou hypotézu totiž neznamená, že jsme dokázali, že je pravdivá. Znamená to jen, že jsme nenašli dostatek důkazů k jejímu zamítnutí. Možná byl náš vzorek moc malý, nebo efekt léku byl příliš slabý na to, abychom ho zachytili.

Matěj: Což je horší? Odsoudit nevinného, nebo nechat jít vinného?

Kristýna: To záleží na kontextu. Ve zdravotnictví je chyba prvního druhu – tedy schválit neúčinný lék – často považována za horší. V jiných oblastech to může být naopak. Je to vždy o vyvažování rizik.

Matěj: Ještě jedna věc mi vrtá hlavou. Řekněme, že testuju nějaký lék na obrovském vzorku, třeba na milionu lidí. A vyjde mi p-hodnota 0,0001. To je super nízké číslo, takže je to statisticky významné. Znamená to, že jsem objevil nějaký zázračný lék?

Kristýna: Ne nutně. A to je další past p-hodnoty. Statistická významnost se nerovná praktická významnost. Při obrovském vzorku dat můžeš najít statisticky významný rozdíl i u naprosto zanedbatelného efektu.

Matěj: Jak to myslíš?

Kristýna: Představ si, že ten tvůj lék snižuje krevní tlak v průměru o 0,1 bodu. Pro pacienta je to naprosto bezvýznamné, vůbec to nepozná. Ale protože máš milion lidí, tvoje měření je tak přesné, že ti test s jistotou řekne: „Ano, tenhle efekt, i když je miniaturní, není náhodný.“ P-hodnota bude maličká, ale praktický dopad je nulový.

Matěj: Aha! Takže potřebuju ještě něco dalšího, co mi řekne, jak *velký* ten efekt vlastně je.

Kristýna: A to něco se jmenuje *velikost účinku* (effect size). Je to metrika, která je nezávislá na velikosti vzorku a kvantifikuje sílu toho jevu. Například Cohenovo d nám řekne, jestli je rozdíl mezi dvěma skupinami malý, střední, nebo velký.

Matěj: Takže správný postup je koukat se na obojí? Nejdřív p-hodnota, abych věděl, jestli ten efekt asi není jen náhoda, a pak velikost účinku, abych zjistil, jestli to vůbec stojí za řeč.

Kristýna: Perfektně řečeno. Vždycky reportujeme obojí. P-hodnota ti dá signál, ale velikost účinku ti řekne, jak je ten signál silný.

Matěj: Dobře, myslím, že to začínám chápat. Mám hypotézu, udělám test, podívám se na p-hodnotu a velikost účinku. To zní docela přímočaře.

Kristýna: Zní. Ale je tu ještě jedno velké nebezpečí, kterému se říká problém mnohonásobného testování. Představ si, že jsi vědec a testuješ, jestli konzumace želé bonbonů způsobuje akné.

Matěj: Dobře, jsem na to zvědavý.

Kristýna: Tvoje nulová hypotéza je, že želé bonbony s akné nesouvisí. Uděláš studii a p-hodnota ti vyjde 0,4. Takže žádný důkaz. Jsi zklamaný. Ale pak tě napadne: „A co když to nejsou želé bonbony obecně? Co když je to jen jedna barva?“

Matěj: Aha, už vidím, kam míříš.

Kristýna: Tak otestuješ zvlášť červené, zelené, modré, žluté… celkem dvacet různých barev. Dvacet samostatných testů. A u zelených ti najednou vyjde p-hodnota 0,04! To je pod naší hranicí 0,05. Takže napíšeš do novin: „Vědci objevili souvislost mezi zelenými želé bonbony a akné!“

Matěj: Ale to zní podezřele.

Kristýna: A taky že je! Pamatuj, že naše hranice 0,05 znamená, že i když se nic neděje, v 5 % případů dostaneme falešně pozitivní výsledek jen náhodou. Pokud uděláš 20 testů, je docela pravděpodobné, že ti jeden z nich vyjde „významný“ jen díky smůle.

Matěj: Je to jako když dvacetkrát hodíš kostkou a čekáš, jestli padne šestka. Dřív nebo později padne.

Kristýna: Přesně! A tomuhle se říká „p-hacking“ nebo „data dredging“. Prostě se tak dlouho hrabeš v datech, dokud nenajdeš něco, co vypadá zajímavě. Proto existují statistické korekce na mnohonásobná porovnání, třeba Bonferroniho korekce, které tu naši hranici 0,05 zpřísní podle toho, kolik testů děláme.

Matěj: Super, takže když to shrnu: testování hypotéz je jako soudní proces. Máme nevinnou nulovou hypotézu, kterou se snažíme vyvrátit. Důkazy jsou data. P-hodnota nám říká, jak silné ty důkazy jsou, ale musíme si dát pozor na její špatnou interpretaci a na to, abychom ji nepoužívali na malý efekt u obřího vzorku. A vždycky bychom měli reportovat i velikost účinku.

Kristýna: To je naprosto dokonalé shrnutí. A hlavně, pamatovat si, že statistika nikdy nedává absolutní jistotu. Vždycky mluví jen v pravděpodobnostech. Ale dává nám ten nejlepší nástroj, jaký máme, abychom se mohli rozhodovat na základě dat a ne jen pocitů.

Matěj: Skvělé. Myslím, že teď už mám mnohem jasnější představu. A co kdybychom se teď podívali na konkrétní typy testů, které se v praxi používají nejčastěji? Jak třeba porovnám průměry dvou skupin?

Kristýna: Perfektní otázka! Přesně na porovnání průměrů dvou skupin, nebo jedné skupiny vůči nějaké pevné hodnotě, se používá jeden z nejslavnějších testů vůbec – t-test.

Matěj: T-test? To nezní moc dramaticky. Čekal jsem něco jako 'Statistický gladiátor'.

Kristýna: Možná ne tak dramaticky, ale je to neuvěřitelně silný a užitečný nástroj. Je to takový švýcarský nůž pro porovnávání průměrů.

Matěj: Dobře, tak mi ukaž ten nůž v akci. Jak bych ho použil?

Kristýna: Jasně. Let's get practical. Představ si, že máme data o výšce českých mužů a chceme otestovat, jestli je jejich průměrná výška opravdu 180 cm, jak se někdy traduje.

Matěj: To je dobrý příklad. Takže co dál?

Kristýna: Takže, krok jedna: formulace problému, to máme. Krok dva: zvolíme si hladinu významnosti. Zůstaneme u té klasické, tedy alfa je 0,05.

Matěj: Pět procent. Rozumím. A pak přijde na řadu ten t-test?

Kristýna: Skoro. Ještě předtím musíme ověřit jeho předpoklady. T-test funguje nejlépe, když naše data pocházejí z takzvaného normálního rozdělení. Zjednodušeně řečeno, když jejich histogram vypadá jako zvon.

Matěj: Aha, takže data nesmí být úplně 'divoká'. Co když nejsou normální?

Kristýna: Pak bychom museli sáhnout po jiných testech, takzvaných neparametrických. Ale dejme tomu, že normalita je v pořádku. Pak formulujeme hypotézy.

Matěj: Dobře, takže nulová hypotéza, H nula, bude... 'Průměrná výška mužů JE 180 cm'.

Kristýna: Přesně. A alternativní, H jedna, bude 'Průměrná výška mužů NENÍ 180 cm'.

Matěj: Super. A teď ta výpočetní část, kterou naštěstí dělá software za nás.

Kristýna: Přesně tak. Takže, v našem vzorku bylo 224 mužů a jejich skutečná průměrná výška vyšla 177,18 cm.

Matěj: To je o skoro tři centimetry méně. Ale stačí to na zamítnutí nulové hypotézy?

Kristýna: A to je ta klíčová otázka. Software nám vyplivne tabulku a v ní hledáme hlavně p-hodnotu. V našem příkladu vyšla p-hodnota menší než 0,01.

Matěj: Což je mnohem méně než naše alfa 0,05. Takže... zamítáme nulovou hypotézu! Průměrná výška českých mužů se statisticky významně liší od 180 cm.

Kristýna: Bingo! A je tu ještě jedna pojistka. Interval spolehlivosti. Pro rozdíl mezi průměrem a hodnotou 180 cm vyšel od -3,73 do -1,92.

Matěj: A protože tenhle interval neobsahuje nulu, je to další důkaz, že rozdíl je reálný. Je to tak?

Kristýna: Vidím, že jsi dával pozor! Přesně tak. Dva různé pohledy, stejný závěr.

Matěj: A co velikost účinku, o které jsme mluvili? Ten Cohen's d?

Kristýna: Skvělá poznámka! Ten tady vyšel -0,41, což se považuje za malý až střední efekt. Takže ano, rozdíl je statisticky významný, ale v reálném světě není nijak obrovský. Což dává smysl, bavíme se o pár centimetrech.

Matěj: Perfektní. Takže shrnuto: t-test nám pomohl zjistit, že průměrná výška mužů v našem vzorku se statisticky liší od 180 cm, ale zároveň nám velikost účinku řekla, že ten rozdíl není dramatický. Kristýno, moc ti děkuju. Myslím, že teď je mi svět statistiky mnohem jasnější.

Kristýna: Já děkuju za pozvání a za skvělé otázky. A doufám, že i našim posluchačům. Pamatujte, statistika není strašák, ale neuvěřitelně mocný nástroj, jak se rozhodovat na základě dat, ne jen pocitů.

Matěj: Přesně tak. Tímto se s vámi pro dnešek loučíme. Děkujeme za poslech a těšíme se na vás u dalšího dílu Studyfi Podcastu. Mějte se fajn!

Kristýna: Na slyšenou!