Základy statistických metod: Korelace, t-test, Regrese
Korelace a regresní analýza pomáhají zjistit, jak spolu souvisí dvě proměnné a jak jednu z nich použít pro odhad druhé. Tento materiál vysvětlí, co znamená korelační koeficient, jak interpretovat jeho hodnoty, kdy korelace neznamená příčinnost, a ukáže praktické kroky testování hypotéz (F-test, t-test) a práce se scatterploty včetně využití regresní přímky pro predikce.
Definice: Korelační koeficient udává míru lineárního vztahu mezi dvěma proměnnými a nabývá hodnot v rozmezí $-1$ až $1$.
Definice: Pokud je korelační koeficient blízko $0$, lineární vztah je zanedbatelný; pokud je blízko $\pm 1$, vztah je velmi těsný.
| Co porovnává | Výstup | Interpretace |
|---|---|---|
| Věk vs. Plat | korelace (kladná/ záporná) | směr a síla vztahu |
Příklad: Změna metody vyučování 🡪 lepší výsledky, ale zároveň mohlo dojít k nárůstu doučování; tedy nelze automaticky tvrdít příčinu.
Definice: F-test se používá k porovnání dvou rozptylů; nulová hypotéza je $H_0:\ \sigma_1^2 = \sigma_2^2$.
Postup (prakticky, např. v Gretlu):
Interpretace: Pokud je $p$-hodnota větší než $0{,}05$, na hladině významnosti $5%$ nemůžeme zamítnout hypotézu o shodnosti rozptylů.
Definice: Dvouvýběrový t-test porovnává střední hodnoty dvou nezávislých populací; často se předpokládá shodnost rozptylů, pokud to test ukáže.
Postup (prakticky, např. v Gretlu):
Příklad interpretace výsledku: Oboustranná $p$-hodnota $=0{,}5061$ $>$ $0{,}05$ → na hladině významnosti $5%$ nemůžeme zamítnout $H_0$; tedy nelze prokázat rozdíl průměrné spokojenosti mezi muži a ženami.
Definice: Scatterplot (bodový graf) zobrazuje hodnoty dvou proměnných, díky čemuž snadno vidíme směr a sílu lineárního vztahu.
Postup vytvoření a práce se scatterplotem (prakticky v Gretlu):
Příklad: Odvozená přímka (pouze pro predikci)
$$Y = 3{,}25 + 6{,}34\cdot X$$
Predikce pro studenty:
Interpretace: Čím vyšší počet seminářů, tím vyšší predikovaný výsledek
Už máš účet? Přihlásit se
Klíčová slova: Korelace a regresní analýza, Lineární regrese
Klíčové pojmy: Korelační koeficient měří lineární vztah mezi dvěma proměnnými v rozmezí $-1$ až $1$., Znaménko korelace určuje směr vztahu: kladný nebo záporný., Velikost absolutní hodnoty korelace určuje těsnost: do $0{,}2$ zanedbatelný až od $0{,}9$ extrémně těsný., Vysoká korelace neimplikuje příčinnost; může být confounder nebo obrácená kauzalita., F-test: nulová hypotéza $H_0:\ \sigma_1^2 = \sigma_2^2$, porovnává rozptyly., T-test: porovnává průměry dvou nezávislých populací; často předpokládá shodné rozptyly., Před testováním vždy vizualizujte data pomocí scatterplotu., Pro predikci lze použít regresní přímku, např. $Y = 3{,}25 + 6{,}34\cdot X$, a dosadit hodnoty $X$., Při $p$-hodnotě $>0{,}05$ na hladině $5\%$ nemůžeme zamítnout nulovou hypotézu., Vždy ověřte předpoklady testů: normálnost, nezávislost, homogenitu rozptylů.