Deskriptívna štatistika: Základy a aplikácie pre študentov
Deskriptívna štatistika sumarizuje a popisuje súbory údajov pomocou jednoduchých číselných miér a grafov. Cieľom je pochopiť, kde sa údaje sústreďujú, ako sa rozptyľujú a aké majú tvary rozdelenia bez zovšeobecňovania na populáciu.
Definícia: Deskriptívna štatistika sú nástroje na zhrnutie a vizualizáciu údajov pomocou charakteristík polohy, variability a tvaru rozdelenia.
Definícia: Priemer je súčet všetkých hodnôt delený počtom hodnôt.
Použitie: vhodný pre kvantitatívne (kardinálne) údaje bez výrazných odľahlých hodnôt.
Definícia: Medián je hodnota v strede usporiadaného súboru, ktorá delí dáta na dve polovice.
Príklad: Medián hodnoty košíka často lepšie vystihuje „typickú“ objednávku ako priemer, pretože je odolnejší voči veľmi veľkým objednávkam.
Definícia (formálne): Pre nepárne $n$ je medián $\widehat{x} = x_{\frac{n+1}{2}}$, pre párne $n$ je $\widehat{x} = \frac{x_{\frac{n}{2}} + x_{\frac{n}{2}+1}}{2}$.
Definícia: Modus je hodnota, ktorá sa v súbore vyskytuje najčastejšie.
Praktické príklady polohy:
Definícia: Rozdiel medzi maximom a minimom.
$$R_q = x_{\max} - x_{\min}$$
Rýchly prehľad stability tržieb: napr. min 800 €, max 3400 € → rozpätie 2600 €.
Definícia: IQR je rozdiel medzi horným kvartilom $Q_3$ a dolným kvartilom $Q_1$ a pokrýva stredných 50 % dát.
$$IQR = Q_3 - Q_1$$
IQR je menej citlivé na extrémy ako rozpätie. Príklad: IQR = 9 € znamená, že stredných 50 % objednávok je v intervale danej šírky.
Definícia: Rozptyl je priemerný štvorcový odstup hodnôt od aritmetického priemeru.
$$s^2 = \frac{1}{n} \sum_{j=1}^{n} \left(x_j - \hat{x}\right)^2$$
Použitie: základ pre výpočet štandardnej odchýlky.
Definícia: Štandardná odchýlka je druhá odmocnina rozptylu.
$$s = \sqrt{s^2}$$
Príklad: Priemer košíka 30 €, SD $5$ € → typická odchýlka objednávok od priemeru je približne $5$ €.
Definícia: Relatívna mierka variability v percentách, nezávislá od jednotiek.
$$v = \frac{s}{\bar{x}} \times 100$$
Príklad: Produkt A: priemer $100$, SD $20$ → CV $20%$. Produkt B: priemer $10$, SD $4$ → CV $40%$. CV umožňuje porovnávať variabilitu medzi rôznymi meraniami.
Definícia: Šikmosť meria asymetriu rozdelenia okolo priemeru.
Definícia: Špicatosť meria koncentráciu hodnôt v okolí stredu a pravdepodobnosť extrémov.
Príklad: Počas akcií (Black Friday) sa môže zvýšiť špica
Už máš účet? Prihlásiť sa
Klíčová slova: Deskriptívna štatistika v marketingu, Deskriptívna štatistika
Klíčové pojmy: Priemer, medián a modus opisujú stred dát, Medián je odolný voči extrémom a delí dáta na dve polovice, Modus je najčastejšia hodnota, vhodný pre nominálne údaje, Rozpätie $R_q = x_{\max} - x_{\min}$ zachytí extrémy, IQR $= Q_3 - Q_1$ meria rozptyl stredných 50 % dát, Rozptyl $s^2 = \frac{1}{n} \sum_{j=1}^{n} (x_j - \hat{x})^2$ a $s = \sqrt{s^2}$, Variačný koeficient $v = \frac{s}{\bar{x}} \times 100$ porovnáva relatívnu variabilitu, Šikmosť určuje asymetriu; kladná = pravostranná, záporná = ľavostranná, Špicatosť $\gamma_2$ ukazuje tendenciu k extrémom; $\gamma_2>0$ = špicaté, Histogram a boxplot sú základné vizualizácie pre tvar a odľahlé hodnoty