Základy štatistiky
Klíčová slova: Štatistika, Metodológia výskumu, Premenné, Korelačná analýza, Kontingenčná analýza, Regresná analýza
Klíčové pojmy: Štatistika: zber, spracovanie a interpretácia dát, Náhodný výber zvyšuje reprezentatívnosť vzorky, Nenáhodný výber môže spôsobiť skreslenie výsledkov, Priemer je citlivý na extrémne hodnoty, medián nie, Modus označuje najčastejšiu hodnotu v súbore, Rozptyl a smerodajná odchýlka merajú variabilitu, Variačný koeficient porovnáva variabilitu relatívne k priemeru, P-hodnota udáva pravdepodobnosť pozorovania extrémnych dát pri $H_0$, Chyba I. druhu = zamietnutie pravdivého $H_0$, chyba II. druhu = nezamietnutie nepravdivého $H_0$, Pri výbere testu zvážte normalitu a typ premennej
## Úvod
Štúdium štatistiky pomáha porozumieť, ako získavame, zhrňujeme a vyhodnocujeme číselné údaje o javoch v spoločnosti a prírode. Tento materiál poskytuje prehľad kľúčových pojmov deskriptívnej a inferenčnej štatistiky, výberových postupov, základných mier polohy a variability, a princípov testovania štatistických hypotéz. Cieľom je, aby si študent bez prezenčnej výučby rýchlo osvojil praktické pravidlá a vedel ich aplikovať pri riešení jednoduchých úloh.
> Definícia: Štatistika je veda a súbor metód na zber, usporiadanie, analýzu a interpretáciu číselných údajov o hromadných javoch.
## 1. Typy výberov (výberové metódy)
### Náhodné (pravdepodobnostné) výbery
- Všetky jednotky základného súboru majú rovnakú pravdepodobnosť vybrať sa.
- Výhodou je zvýšená šanca na reprezentatívnosť vzorky.
Hlavné typy:
- **Jednoduchý náhodný výber**: potrebujeme zoznam všetkých jednotiek a náhodne vyberáme jednotky.
- **Viacstupňový (skupinový) výber**: vhodný pri veľkých populáciách; najprv sa náhodne vyberú skupiny, potom jednotky v nich.
- **Stratifikovaný náhodný výber**: populáciu rozdelíme na homogénne vrstvy (napr. podľa veku, pohlavia) a z každej vrstvy náhodne vyberáme.
- **Systematický výber**: prvky sú zoradené a berie sa každý k-tý prvok, ak je poradie nezávislé od skúmaného znaku.
Praktický príklad: Pri prieskume študentov univerzity rozdelíme podľa fakúlt (strata) a z každej fakulty náhodne vyberieme určitý počet respondentov.
### Nenáhodné (nepravdepodobnostné) výbery
- Jednotky nemajú rovnakú šancu vstúpiť do vzorky; môže viesť ku skresleniu.
- Výsledky nemusia byť zovšeobecniteľné na celú populáciu.
Hlavné typy:
- **Snehová guľa**: respondent odporučí ďalších respondentov (užitočné pri ťažko dostupných skupinách).
- **Zámerný výber**: výber podľa rozhodnutia výskumníka (napr. expertíza).
- **Konvenčný výber**: prvky sa berú v poradí, v akom sú dostupné.
- **Kvótny výber**: vyberáme tak, aby boli splnené kvóty podľa vopred stanovených charakteristík.
- **Dostupný (pohodlný) výber**: berieme respondentov, ktorí sú ľahko dostupní.
Fun fact: Výskumníci často kombinujú metódy — napríklad náhodný výber v rámci skupín vybraných snehovou guľou — aby dosiahli praktickú realizovateľnosť výskumu.
## 2. Spracovanie dát: tabuľky a grafy
- Spracovanie dát znamená zhrnúť a usporiadať údaje do prehľadnej podoby pomocou tabuliek a grafov.
- Tabuľka by mala mať jasný názov, popis riadkov a stĺpcov a zdroj údajov.
- Tabuľky početností obsahujú: absolútne početnosti, relatívne početnosti (percentá) a kumulatívne početnosti.
Bežné grafy a ich použitie:
- Bodový graf: zobrazenie jednotlivých pozorovaní.
- Stĺpcový graf: porovnanie kategórií.
- Histogram: rozdelenie frekvencií kvantitatívnej premennej.
- Spojnicový graf: vývoj v čase.
- Krabicový graf (box-plot): vizualizácia mediánu, kvartilov a odľahlých hodnôt.
Praktický tip: menšie tabulky dávajte priamo do textu, veľké tabuľky do príloh.
## 3. Miery polohy (centrálnej tendencie)
> Definícia: Charakteristiky polohy vyjadrujú typickú hodnotu znaku v súbore údajov.
### Aritmetický priemer
- Vypočíta sa ako súčet všetkých hodnôt delený počtom pozorovaní.
- Je citlivý na extrémne hodnoty (outliery).
Matematicky: pri hodnôt $x_1, x_2, \dots, x_n$ platí
$$\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i$$
- Variácie priemeru: vážený priemer, geometrický priemer (pre multiplikatívne vzťahy), harmonický priemer (pre priemery pomerov).
### Medián
- Stredná hodnota usporiadaného súboru; 50% pozorovaní je menších alebo rovnakých mediánu a 50% väčších.
- Nie je ovplyvnený extrémnymi hodnotami.
### Modus
- Najčastejšia hodnota v súbore.
- Môže byť jednovrcholový alebo viacvrcholový.
### Kvantily
- Rozdeľujú usporiadaný súbor na rovnaké časti: medián (50%), kvartily (25% kroky), decily, percentily.
Porovnanie priemer vs. medián (tabuľka):
| Vlastnosť | Priemer | Medián |
| --- | ---: | ---: |
| Citlivosť na extrémy | vysoká | nízka |
| Využíva všetky hodnoty | áno | nie (iba poradie) |
| Vh