Deskriptívna štatistika: Základy a aplikácie pre študentov
Délka: 9 minut
Úvod do štatistiky
Prečo je to dôležité?
Tri druhy priemerov
Rozptýlené dáta
Porovnávame jablká a hrušky
Tvar je dôležitý
Špicaté alebo ploché?
Zhrnutie a na záver
Simona: ...počkať, takže všetky tie tisíce riadkov v tabuľke o nákupoch, správaní zákazníkov a kliknutiach na webe sa dajú zhrnúť do jedného jediného, zrozumiteľného čísla? To je neuveriteľné.
Tomáš: Presne tak. Je to ako mať super schopnosť vidieť les cez stromy. A presne to je tá krása deskriptívnej štatistiky. Vezme obrovský chaos a spraví z neho niečo, s čím môžeš reálne pracovať.
Simona: Dobre, tak o tomto sa musíme porozprávať, pretože to znie ako niečo, čo potrebuje každý. Počúvate Studyfi Podcast a dnes sa s expertom Tomášom ponoríme do sveta čísel v marketingu.
Tomáš: Predstav si, že máš e-shop. Každý deň stovky objednávok. Ak sa ťa šéf spýta, ako sa ti darí, nepovieš mu predsa zoznam všetkých objednávok za posledný mesiac, však?
Simona: To by som dostala výpoveď skôr, ako by som došla na koniec zoznamu. Povedala by som asi niečo ako... "v priemere celkom dobre"?
Tomáš: A máš to! To "v priemere" je deskriptívna štatistika. Pomáha nám odpovedať na kľúčové otázky. Aká je typická hodnota objednávky? Ktoré produkty sú bestsellery? Sú tržby stabilné, alebo nám to lieta hore-dole?
Simona: Alebo či máme nejaké extrémne nákupy! Napríklad nejaká firma si objedná sto kusov, alebo naopak, systém spraví chybu a zaznamená nulovú objednávku.
Tomáš: Presne tak. A ako teda zistíme, čo je "typické"? Na to slúžia takzvané miery polohy. To je len fancy názov pre hľadanie "stredu" dát.
Simona: Takže ten môj slávny priemer, ktorý poznám zo školy?
Tomáš: Áno, ale pozor! Nie je priemer ako priemer. Ten najznámejší je **aritmetický priemer**. To je klasika: sčítaš všetky hodnoty, napríklad hodnoty objednávok, a vydelíš ich počtom. Ideálne na zistenie priemernej hodnoty košíka.
Simona: Super, to je jednoduché. Ale hovoril si, že sú aj iné. Prečo by som potrebovala iný?
Tomáš: Skvelá otázka. Predstav si, že meriaš mesačný rast tržieb. Prvý mesiac +10 %, druhý +50 %. Aritmetický priemer by bol 30 %, ale to je zavádzajúce. Tu prichádza na rad **geometrický priemer**, ktorý je ideálny na priemerný rast v percentách. Dáva nám realistickejšie "typické" tempo.
Simona: Aha, takže na percentá a násobky je lepší geometrický. A čo ten tretí? Znel dosť... technicky.
Tomáš: To bol **harmonický priemer**. Ten je hrdina, keď pracuješ s pomermi, napríklad s cenou za kilogram alebo rýchlosťou. Ak porovnávaš výhodnosť dvoch balení čipsov, kde jedno je malé a drahé a druhé veľké a lacné, harmonický priemer ti pomôže nájsť tú skutočnú priemernú cenu "na jednotku".
Simona: Uf, takže na každú situáciu iný nástroj. To je naozaj dôležité vedieť, kedy ktorý použiť. To je presne ten typ chytáku, ktorý môže byť na skúške.
Tomáš: Presne tak. A o tom, ako merať, či sú tie hodnoty natesno okolo priemeru, alebo sú rozlietané po celom grafe, si povieme nabudúce.
Simona: Tak poďme na to! Ako teda zistíme, či sú tie dáta pekne pokope, alebo lietajú kade-tade, ako si spomínal?
Tomáš: Presne na to slúžia miery variability. Predstav si, že priemer je centrum mesta. My teraz zisťujeme, či všetci bývajú v tom centre, alebo sú roztrúsení po rôznych predmestiach.
Simona: A ktorý je ten hlavný nástroj? Taký... univerzálny meter na rozlietané dáta?
Tomáš: Tým metrom je **smerodajná odchýlka**, niekedy sa jej hovorí aj štandardná. V podstate nám hovorí, ako ďaleko sú jednotlivé hodnoty v priemere od toho celkového priemeru. Je to taký priemerný rozptyl.
Simona: Dobre, vráťme sa k nášmu e-shopu. Povedzme, že priemerná hodnota nákupného košíka je 30 eur. Čo mi v tomto prípade povie smerodajná odchýlka?
Tomáš: Ak by bola smerodajná odchýlka napríklad 5 eur, znamená to, že typické objednávky sa pohybujú v rozmedzí plus-mínus 5 eur od tých tridsiatich. Čiže väčšina ľudí nakúpi v hodnote od 25 do 35 eur. Zákazníci sú teda celkom konzistentní.
Simona: Aha, takže čím je to číslo menšie, tým sú nákupy stabilnejšie a predvídateľnejšie. Chápem.
Tomáš: Presne tak. Ale pozor, má to jeden háčik.
Simona: Aký? Znie to celkom priamočiaro.
Tomáš: Čo ak chceš porovnať stabilitu predaja dvoch úplne odlišných produktov? Napríklad... predaj luxusných hodiniek, kde je priemerná cena 1000 eur, a predaj ceruziek, kde je priemerná cena 1 euro.
Simona: No, tam by mi asi smerodajná odchýlka veľmi nepomohla. Odchýlka pri hodinkách bude v stovkách eur a pri ceruzkách v centoch. To sa nedá porovnať.
Tomáš: Správne! A presne na to máme iný nástroj — **variačný koeficient**. Ten meria variabilitu v percentách, teda relatívne voči priemeru. Vďaka nemu je jedno, či porovnávaš eurá, kilogramy alebo počet kusov.
Simona: V percentách? To znie oveľa univerzálnejšie.
Tomáš: A aj je. Povedzme, že jeden produkt má priemerný predaj 100 kusov s odchýlkou 20. Jeho variačný koeficient je 20 %. Druhý produkt má priemerný predaj len 10 kusov s odchýlkou 4. V absolútnych číslach je tá odchýlka menšia, ale relatívne? Jeho koeficient je až 40 %! Je teda dvakrát nestabilnejší.
Simona: Takže variačný koeficient odhalí skrytú drámu aj v malých číslach!
Tomáš: Presne tak. Je to taký detektív relatívnej stability.
Simona: Super. Takže už vieme merať stred aj rozptyl. Ale čo tvar dát? Keď si ich predstavím na grafe, sú to vždy len tie pekné, symetrické zvonovité krivky, ako nás učili v škole?
Tomáš: Kiežby! Reálny svet je oveľa pestrejší. A práve na opis tvaru slúži **šikmosť**. Meria, či je rozdelenie dát symetrické, alebo sa nakláňa na jednu stranu.
Simona: Asymetria... čo si pod tým mám predstaviť?
Tomáš: Sú tri základné prípady. Prvý je ten ideálny, symetrický, kde priemer, medián aj modus sú rovnaké. Potom je tu **kladné zošikmenie**. To si predstav ako graf, ktorý má dlhý chvost napravo. Väčšina hodnôt je nízka, ale pár extrémne vysokých hodnôt ťahá priemer doprava, preč od väčšiny.
Simona: Napríklad príjmy v nejakej krajine? Väčšina ľudí má priemerný plat, ale zopár miliardárov ten celkový priemer extrémne zdvihne.
Tomáš: To je dokonalý príklad! A opakom je **záporné zošikmenie**, kde chvost smeruje doľava. Väčšina hodnôt je vysoká, ale pár extrémne nízkych ťahá priemer nadol. Napríklad hodnotenie veľmi obľúbeného filmu — väčšina ľudí dá 9 alebo 10 hviezdičiek, ale zopár kritikov dá jednu, a tým priemer trochu pokazia.
Simona: Fascinujúce. Takže dáta môžu byť nielen rozptýlené a šikmé, je tam ešte niečo ďalšie?
Tomáš: Áno, je. Posledná dôležitá charakteristika tvaru je **špicatosť**. Tá nám hovorí, ako veľmi sú hodnoty skoncentrované okolo priemeru a či máme v dátach veľa extrémnych hodnôt, teda odľahlých pozorovaní.
Simona: Špicatosť... to neznie veľmi vedecky.
Tomáš: Možno nie, ale je to veľmi výstižné. Predstav si graf. Ak je veľmi vysoký a úzky, znamená to, že väčšina dát je natesno pri priemere a rozdelenie je špicatejšie ako to normálne. To často znamená aj väčšiu pravdepodobnosť extrémnych hodnôt.
Simona: Ako napríklad tržby e-shopu počas Black Friday? Veľa bežných nákupov, ale zrazu aj pár extrémne veľkých objednávok, ktoré vytvoria tú špicu.
Tomáš: Presne tak. Na druhej strane, ak je rozdelenie plochejšie ako normálne, vyzerá to ako široký, nízky kopec. Dáta sú viac rozložené a extrémne hodnoty sú menej pravdepodobné.
Simona: Uf, to bolo naozaj veľa informácií. Takže, ak to mám celé zhrnúť. Keď analyzujeme dáta, nestačí nám poznať len priemer. Musíme sa pozrieť na tri hlavné veci. Prvá je, kde je centrum — to sú miery polohy ako priemer, medián a modus.
Tomáš: Správne. Druhá je, ako veľmi sú dáta rozptýlené — na to máme smerodajnú odchýlku alebo variačný koeficient.
Simona: A tretia je, aký majú tie dáta tvar — či sú symetrické alebo šikmé, a či sú špicaté alebo ploché.
Tomáš: Presne si to zhrnula. A kľúčové je pamätať si, že nie každá charakteristika sa hodí na každý typ dát. Napríklad pre nominálne dáta, ako sú farby áut, vieme určiť len modus. Ale pre kardinálne, teda číselné dáta, môžeme použiť celý tento štatistický arzenál.
Simona: Skvelé. Myslím, že deskriptívna štatistika už pre mňa nie je taká záhada. A dúfam, že ani pre našich poslucháčov. Tomáš, ďakujem ti veľmi pekne za všetky tieto cenné rady a vysvetlenia.
Tomáš: Aj ja ďakujem za pozvanie, Simona. Bola to radosť.
Simona: A vám, milí poslucháči, ďakujeme, že ste boli s nami. Toto bola posledná časť nášho miniseriálu o štatistike v rámci Studyfi Podcastu. Dúfame, že sme vám pomohli lepšie sa pripraviť na skúšky a že sa na dáta už budete pozerať inými očami. Majte sa krásne a dopočutia nabudúce!
Tomáš: Dopočutia!