Štatistika – základné pojmy
Klíčová slova: Štatistika – metódy a aplikácie, Metodológia výskumu, Štatistika – základné pojmy, Štatistika – inferenčné metódy, Korelácia, Regresia
Klíčové pojmy: Veľkosť vzorky závisí od výskumného problému, veľkosti populácie a metódy zberu., Priemer $\bar{x}$ = súčet hodnôt delený počtom, citlivý na extrémy., Medián delí usporiadaný súbor na 50% nižších a 50% vyšších hodnôt a je odolný voči extrémom., Modus je najčastejšia hodnota; môže byť viacero modusov., Kvantily delia súbor na $q$ rovnakých častí; medián je $q=2$ kvantil., Variačné rozpätie = max - min; jednoduché, ale citlivé na extrémy., IQR = $Q_3 - Q_1$ zachytáva stredných 50% hodnôt a je odolné voči extrémom., Rozptyl $\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2$ a smerodajná odchýlka $\sigma = \sqrt{\sigma^2}$., Variačný koeficient $CV = \frac{\sigma}{\bar{x}}$ porovnáva relatívnu variabilitu., Použite box-plot na vizualizáciu IQR a odľahlých hodnôt., Pri plánovaní vzorky využite online kalkulačky pre požadovanú presnosť., Pri analýze kombinujte viac ukazovateľov (priemer, medián, smerodajná odchýlka) pre lepší obraz o dátach.
## Úvod
Štúdium základov štatistiky pomáha pochopiť, ako sa zhromažďujú, popisujú a interpretujú dáta. Tento materiál sa zameriava výhradne na deskriptívnu štatistiku: ako charakterizovať súbor pomocou ukazovateľov polohy a variability a ako určiť vhodnú veľkosť výberového súboru pri kvantitatívnom výskume.
> Definícia: Veľkosť výberového súboru je počet respondentov, ktorých zahrnieme do výskumu.
## 1. Veľkosť výberového súboru (vzorky)
### Čo ovplyvňuje veľkosť vzorky
- **Výskumný problém**: Ak zisťujeme napr. predvolebné preferencie, vzorka 100 respondentov môže byť príliš malá.
- **Veľkosť populácie**: Čím väčšia populácia, tým zvyčajne väčšia vzorka.
- **Spôsob zberu údajov**: Pri dotazníkoch býva vhodné mať rozsiahlejší súbor.
- **Členitosť premenných**: Ak premenná nadobúda veľa rôznych hodnôt, každá kategória bude mať menej pozorovaní.
- **Počet stupňov triedenia**: Viac stupňov znamená potrebu väčšej vzorky.
- **Miera pravdepodobnosti štatistických výpovedí**: Potrebujeme zistiť, či dáta spĺňajú kritériá pre parametrické alebo neparametrické testy.
- **Možnosti štatistického spracovania**: Niektoré metódy vyžadujú väčšie vzorky.
> Tip: Použite online kalkulačky na výpočet potrebnej veľkosti vzorky podľa požadovanej presnosti a spoľahlivosti.
## 2. Deskriptívna štatistika – prehľad
> Definícia: Deskriptívna štatistika sú číselné hodnoty, ktoré charakterizujú celý štatistický súbor. Patrí sem **miera polohy**, **miera variability** a **miera tvaru**.
### Hlavné časti deskriptívnej štatistiky
1. **Miera polohy** (typická hodnota): priemer, medián, modus, kvantily.
2. **Miera variability**: variačné rozpätie, medzikvartilové rozpätie, rozptyl, smerodajná odchýlka, variačný koeficient.
3. **Miera tvaru** (nie je obsiahnuté v tomto texte podrobne a rieši sa inde).
## 3. Štatistické ukazovatele miery polohy
### Priemer
> Definícia: Priemer je súčet všetkých hodnôt znaku delený ich počtom.
- Použitie: Aritmetický priemer používame, ak má význam súčet hodnôt (napr. priemerný zárobok).
- Nevýhoda: Silne ovplyvnený extrémnymi hodnotami (outliers).
Druhy priemerov:
- **Vážený aritmetický priemer** – používa sa pri rozdelení do tried s početnosťami.
- **Geometrický priemer** – pre hodnoty s multiplikatívnym vzťahom.
- **Harmonický priemer** – keď má zmysel súčet prevrátených hodnôt.
### Medián
> Definícia: Medián je hodnota, ktorá delí usporiadaný súbor tak, že 50% hodnôt je menších alebo rovnakých a 50% väčších alebo rovnakých.
- Výhoda: Nie je ovplyvnený extrémnymi hodnotami.
- Nevhodný pre nominálne premenné bez usporiadania.
- Pre párny počet pozorovaní sa medián počíta ako priemer dvoch stredných hodnôt.
Príklad: Porovnanie priemeru a mediánu
- Platy zamestnancov: $600$, $700$, $700$, $700$, $800$, $800$, $900$. Aritmetický priemer je $742.9$, medián je $700$.
- Po pridaní platu majiteľa $5000$ sa priemer zmení na $1275$, medián bude $750$. Medián lepšie vystihuje bežné platové pomery.
### Modus
> Definícia: Modus je najpočetnejšia hodnota premennej (najčastejšia hodnota).
- Použitie: Užitočný pre nominálne a ordinálne dáta.
- Jednoznačný je len pri jednovrcholovom rozdelení; môže existovať viac modusov pri viacvrcholovom rozdelení.
Príklad: V súbore $1,2,5,6,7,9,9,9,9,9,4,2,5,1$ je modus $9$.
### Kvantily
> Definícia: Kvantily delia vzostupne usporiadaný súbor na $q$ rovnako početných častí.
- $q=2$ – jediný kvantil je medián.
- $q=4$ – kvartily $Q_1$, $Q_2$ (medián), $Q_3$.
- $Q_1$: dolný kvartil, oddeľuje 25% najnižších hodnôt od 75% vyšších.
- $Q_2$: medián.
- $Q_3$: horný kvartil, oddeľuje 75% najnižších hodnôt od 25% najvyšších.
- $q=10$ – decily $D_1$ až $D_9$.
- $q=100$ – percentily $P_1$ až $P_{99}$.
- $q=1000$ – promile.
Fun fact: Kvantily sa široko používajú v ekonómii a medicíne, napríklad percentilové grafy sú bežné pri hodnotení rastu detí.
## 4. Štatistické ukazovatele miery variability
### Variačné rozpätie
> Definícia: Variačné rozpätie je rozdiel medzi najväčšou a najmenšo