Statistika - přehled
Klíčová slova: Geografie, Fyzická geografie, Geoinformační systémy - základy a komponenty, Ekonomická geografie, Demografie, Statistika, Kartografie a geodézie, Kartografická zobrazení a tematická kartografie, Kartografická generalizace a kompozice, Geoinformační systémy - dálkový průzkum a družice
Klíčové pojmy: Aritmetický průměr, medián a kvartily popisují polohu dat, Rozptyl a směrodatná odchylka měří variabilitu kardinálních dat, Normální rozdělení má parametry $\mu$ a $\sigma$ a pravidlo $\mu\pm3\sigma$, Výběrové odhady: bodový a intervalový odhad; interval má spolehlivost $1-\alpha$, Testování hypotéz: formuluj $H_0$, $H_1$, zvol $\alpha$, vypočti testovou statistiku, Parametrické testy vyžadují normalitu; pokud ne, použij neparametrické testy, ANOVA porovnává průměry více skupin; Kruskal-Wallis je neparametrická alternativa, Pearson pro kardinální, Spearman pro ordinální a Cramér pro nominální závislosti, Regresní model $y=a\cdot x + b$ odhadujeme metodou nejmenších čtverců, Koeficient determinace $r^2$ udává část vysvětlené variability
## Úvod
Statistika pomáhá shrnout, popsat a vyvozovat závěry z dat. Tento materiál tě provede základními pojmy popisné statistiky, teoretickými rozděleními, odhady parametrů, testováním hypotéz, korelační a regresní analýzou a analýzou rozptylu. Obsah je sestaven tak, aby byl srozumitelný i pro samouka.
> Definice: Statistika je soubor metod pro sběr, popis a analýzu dat s cílem pochopit vlastnosti základního souboru pomocí výběrového souboru.
## 1. Popisná statistika — měření polohy a variability
### Základní měřítka polohy
- **Aritmetický průměr**: průměr hodnot, vhodný pro kardinální data. Příklad: průměrná teplota vzduchu za týden.
- **Medián**: prostřední hodnota ve vzestupném pořadí; odolný vůči odlehlým hodnotám.
- **Kvartily a kvantily**: rozdělují data na části (např. kvartily dělí na čtvrtiny).
> Definice: Medián je hodnota, která dělí vzestupně seřazená data na dvě stejně početné části.
### Charakteristiky variability
- **Rozsah (variační rozpět́ı)**: rozdíl maxima a minima.
- **Mezikvartilové rozpětí (IQR)**: rozdíl horního a dolního kvartilu; vyčteme z krabicového grafu.
- **Rozptyl**: průměr čtverců odchylek od průměru; vhodný pro kardinální data.
- **Směrodatná odchylka**: odmocnina z rozptylu; udává průměrnou odchylku od průměru.
- **Variační koeficient**: relativní míra variability, vhodná pro porovnání datasetů (v %).
> Definice: Směrodatná odchylka je odmocnina rozptylu a je to absolutní míra variability dat.
### Specifické míry pro kategorie
- **Nominální varianta** (0 až 1): měří variabilitu u nominálních proměnných; využívá relativní četnosti $p_i$ a počet kategorií $k$.
- **Ordinální varianta** (0 až 1): obdobně pro ordinální proměnné.
Tabulka: porovnání charakteristik variability
| Metrika | Typ proměnné | Citlivost na odlehlé hodnoty | Použití |
|---------|--------------|-------------------------------|---------|
| Rozsah | kard./ordin. | vysoká | rychlá orientace |
| IQR | kard./ordin. | nízká | robustní popis rozložení |
| Rozptyl / SD | kardinální | střední | matematické modely |
| Variační koef. | kardinální | relativní | porovnání mezi soubory |
Did you know že mezikvartilové rozpětí není ovlivněné extrémními hodnotami a proto se často používá při vizualizaci pomocí krabicového (boxplot) grafu?
## 2. Teoretická rozdělení četností
### Náhodná veličina
- Spojitá: může nabýt libovolné hodnoty v intervalu (např. teplota).
- Nespojitá: pouze některé hodnoty (např. počet srážkových období).
> Definice: Teoretické rozdělení udává pravděpodobnost, s jakou náhodná veličina nabývá určitých hodnot.
### Normální (Gaussovo) rozdělení
- Nejčastější spojité rozdělení, zvonovitý tvar.
- Parametry: střední hodnota $\mu$ a směrodatná odchylka $\sigma$.
- Pravidlo šesti sigma: téměř všechny hodnoty leží v intervalu $$\mu - 3\sigma \;\text{až}\; \mu + 3\sigma$$
- Normalizované normální rozdělení: $\mu = 0$, $\sigma = 1$; přechod na $z$-skóre pro stanovení pravděpodobností.
### Další rozdělení
- **Studentovo $t$-rozdělení**: používá se, když je $\sigma$ neznámé a vzorek malý.
- **Chi-kvadrát ($\chi^2$)**: pro testy závislosti a odhady rozptylu.
- **Binomické rozdělení**: pro diskrétní pokusy s výsledky úspěch/neúspěch.
Fun fact: Normální rozdělení se objevuje v přírodě a technice často díky centrální limitní větě, která říká, že součet mnoha nezávislých náhodných vlivů má přibližně normální rozdělení.
## 3. Výběr a odhady parametrů
### Výběrový soubor
- Práce se základním souborem je často nepraktická; proto používáme výběr.
- Pokud je výběr náhodný, lze z něj odhadovat vlastnosti populace.
- Pravidlo: pro $n > 30$ lze většinou použít aproximaci normálním rozdělením; pro $n < 30$ volte opatrně (např. $t$-rozdělení).
### Typy odhadů
- **Bodový odhad**: jediné číslo (např. průměr výběru jako odhad populace).
- **Intervalový odhad**: interval, v němž se parametr s pravděpodobností $1-\alpha$ nachází (např. 95\% interval).
> Definice: Interval spolehlivosti je rozmezí, ve kterém se s určitou pravděpodob