Podcast na Základy statistických metod

Základy statistických metod: Korelace, t-test, Regrese

Shrnutí Test znalostí Kartičky Podcast Myšlenková mapa

Podcast

Korelace a regresní analýza0:00 / 4:51

0:001:00 zbývá

PetrPočkej, takže jedno jediné číslo mi dokáže říct, jestli víc prosezených hodin u televize opravdu znamená horší známky ve škole? To je neuvěřitelné.

KláraPřesně tak, Petře. To je síla korelačního koeficientu.

Kapitoly

Korelace a regresní analýza

Délka: 4 minut

Kapitoly

Jedno číslo vládne všem

Síla vztahu a skrytá úskalí

Srovnáváme nesrovnatelné?

Předpovídání budoucnosti statistikou

Co je lineární regrese?

Shrnutí a rozloučení

Přepis

Petr: Počkej, takže jedno jediné číslo mi dokáže říct, jestli víc prosezených hodin u televize opravdu znamená horší známky ve škole? To je neuvěřitelné.

Klára: Přesně tak, Petře. To je síla korelačního koeficientu.

Petr: Dobře, tak tohle si myslím, že musí slyšet úplně každý. Vítejte zpátky u Studyfi Podcast, dnes se s Klárou ponoříme do korelace a regresní analýzy. Tak Kláro, co to číslo přesně znamená?

Klára: Představ si škálu od mínus jedné do plus jedné. To je celé hřiště pro korelaci. Mínus jedna znamená dokonalý nepřímý vztah – čím víc jedné věci, tím míň druhé. Třeba ty hodiny u televize a studijní výsledky.

Petr: A plus jedna je opak? Čím víc se učím, tím lepší mám známky?

Klára: Přesně. Čím vyšší vzdělání, tím vyšší plat. To je klasický příklad kladné korelace. A nula znamená, že mezi věcmi není žádný lineární vztah.

Petr: A co ty hodnoty mezi tím? Třeba 0,5?

Klára: Dobrá otázka. Těsnost vztahu měříme podle vzdálenosti od nuly. Cokoli do 0,4 je spíš slabý vztah. Od 0,4 do 0,7 je to středně těsný vztah a nad 0,7 už mluvíme o opravdu těsném vztahu.

Petr: Takže hodnota 0,9 je skoro jako statistická věštecká koule?

Klára: Skoro, ale pozor! A to je klíčové. Vysoká korelace neznamená příčinu. Jen to, že můžeme jednu hodnotu použít k odhadu druhé. Například více absencí ve škole může předpovídat horší prospěch, ale příčinou může být něco úplně jiného, třeba nemoc.

Petr: Dobře, tomu rozumím. A co když chci porovnat dvě skupiny? Třeba jestli jsou se vzdělávacím systémem spokojenější muži, nebo ženy?

Klára: K tomu slouží takzvaný dvouvýběrový t-test. Ten porovnává průměry dvou nezávislých skupin. V podstatě nám řekne, jestli je rozdíl mezi jejich průměrnou spokojeností statisticky významný, nebo jen náhodný.

Petr: Takže žádné dohady, ale tvrdá data.

Klára: Přesně tak. Pomocí p-hodnoty zjistíme, jestli můžeme zamítnout nulovou hypotézu, která říká, že se průměry rovnají. Pokud je p-hodnota vyšší než 0,05, tak říkáme, že mezi muži a ženami v průměrné spokojenosti není rozdíl.

Petr: A co ta regrese? To zní ještě víc high-tech. Můžeme s ní i něco předpovídat?

Klára: Určitě! Regresní analýza nám dává přímo rovnici. Představ si rovnici přímky Y = a + bX. Díky ní můžeme odhadnout výsledek na základě nějakého vstupu. Třeba, jaký bude tvůj výsledek u zkoušky, když budeš chodit na určitý počet seminářů.

Petr: Ukaž příklad!

Klára: Řekněme, že rovnice je: výsledek ve zkoušce se rovná 3,25 plus 6,34 krát počet seminářů. Kolik procent bude mít student, který byl na sedmi seminářích?

Petr: Počkat... takže 6,34 krát 7... plus 3,25. To je... 47,63 %?

Klára: Naprosto správně! A vidíš, jak jednoduché je to použít? Čím víc seminářů, tím lepší odhadovaný výsledek. Samozřejmě to není stoprocentní, ale je to skvělý nástroj pro predikci.

Petr: Okay, takže to, co jsme si právě ukázali, je ta slavná lineární regrese?

Klára: Přesně tak! Je to metoda, kterou používáme k odhadu nebo predikci jedné proměnné, řekněme Y, na základě znalosti jiné proměnné X.

Petr: A proč se tomu říká 'lineární'? Zní to tak nějak... rovně.

Klára: Protože to rovné je! Předpokládáme, že vztah mezi těmi dvěma proměnnými se dá znázornit přímkou v grafu.

Petr: Aha, takže jako v tom našem příkladu – čím víc seminářů, tím lepší výsledek. Kdybychom to dali do grafu, ty body by ležely zhruba na jedné čáře?

Klára: Přesně tak. Na grafu, kterému říkáme scatterplot, by se ty body shlukovaly kolem pomyslné přímky. A ta přímka nám právě ukazuje ten vztah.

Petr: Super, takže ta přímka je vlastně taková statistická křišťálová koule!

Klára: Krásně řečeno! Místo budoucnosti předpovídá třeba výsledek testu na základě hodin učení.

Petr: Takže abychom to shrnuli, lineární regrese nám pomáhá najít přímku v datech, abychom mohli lépe odhadovat a předpovídat. Jednoduché a geniální!

Klára: Přesně tak! A to je pro dnešek z naší statistické kuchyně vše. Děkuji za skvělou diskuzi, Petře, a díky všem za poslech!

Petr: Já taky děkuju, Kláro. Mějte se krásně a u dalšího dílu Studyfi Podcastu zase na slyšenou!