Podcast o Základy štatistiky a výskumných metód

Základy štatistiky a výskumných metód: Komplexný Sprievodca

Zhrnutie Test znalostí Kartičky Podcast Myšlienková mapa

Podcast

Štatistika: Od priemeru k hypotézam0:00 / 25:15

0:001:00 zbývá

LenkaToto je jedna vec, ktorá na skúške zo štatistiky potrápi osemdesiat percent študentov — rozdiel medzi výskumom, prieskumom, a kedy použiť kvalitatívny a kedy kvantitatívny prístup. Znie to zložito, ale sľubujem, že o pár minút v tom budete mať úplne jasno a už nikdy sa v tom nepomýlite.

FilipPresne tak. Ukážeme vám, ako na to, aby to dávalo zmysel. A hlavne, ako to reálne využiť.

Kapitoly

Štatistika: Od priemeru k hypotézam

Délka: 25 minut

Kapitoly

Úvod do štatistiky

Dva hlavné typy štatistiky

Výskum vs. Prieskum

Kvalitatívny vs. Kvantitatívny výskum

Kroky kvantitatívneho výskumu

Hľadáme stred - Miery polohy

Aký je rozptyl? - Miery variability

Overovanie nápadov - Testovanie hypotéz

P-hodnota a rozhodovanie

Ako na správne hypotézy

Zber dát: Primárne vs. Sekundárne

Upratovanie v dátach

Koho sa vlastne pýtame?

Čo sú premenné?

Rozdiely medzi premennými

Čo je korelácia?

Pozitívna vs. Negatívna

Pearsonov superhrdina

Spearmanov záchranca

Keď čísla nestačia

Pravidlá hry pre Chí-kvadrát

Sila vzťahu

Úvod do regresie

Jednoduchá vs. viacnásobná

Na čo si dať pozor

Záverečné zhodnotenie

Přepis

Lenka: Toto je jedna vec, ktorá na skúške zo štatistiky potrápi osemdesiat percent študentov — rozdiel medzi výskumom, prieskumom, a kedy použiť kvalitatívny a kedy kvantitatívny prístup. Znie to zložito, ale sľubujem, že o pár minút v tom budete mať úplne jasno a už nikdy sa v tom nepomýlite.

Filip: Presne tak. Ukážeme vám, ako na to, aby to dávalo zmysel. A hlavne, ako to reálne využiť.

Lenka: Počúvate Studyfi Podcast. Sme tu, aby sme vám pomohli zvládnuť aj tie najzložitejšie témy. Tak sa do toho poďme pustiť. Filip, čo je to vlastne tá štatistika? Lebo pre mnohých je to len strašiak plný čísel a grafov.

Filip: Dobrý začiatok. V podstate, štatistika je veda aj umenie. Je to veda o zbere, analýze a interpretácii dát. Ale je to aj umenie, ako tie dáta premeniť na zmysluplné príbehy a rozhodnutia.

Lenka: Príbehy? To sa mi páči. Takže to nie sú len nudné tabuľky?

Filip: Vôbec nie! Štatistiku používame každý deň. Od predpovede počasia, cez prieskumy verejnej mienky až po riadenie kvality v továrni na vaše obľúbené čipsy. Je to o hľadaní zákonitostí v hromadných javoch.

Lenka: Okej, takže štatistika je... vedná disciplína, praktická činnosť so zberom dát, ale aj samotné číselné údaje. Chápem to správne?

Filip: Absolútne presne. Tri v jednom. Je to nástroj, ktorý nám pomáha pochopiť svet okolo nás na základe dát, nie len pocitov.

Lenka: V materiáloch sa často spomína deskriptívna a induktívna štatistika. Aký je medzi nimi rozdiel? Povedz nám to prosím nejako jednoducho.

Filip: Jasné. Predstav si, že máš triedu 30 študentov a chceš vedieť, aká bola ich priemerná známka z testu. Zoberieš všetky známky, spočítaš priemer, urobíš pekný graf. Toto je deskriptívna, čiže opisná štatistika. Jednoducho opisuješ dáta, ktoré máš.

Lenka: Dobre, to dáva zmysel. A tá druhá?

Filip: Induktívna štatistika ide o krok ďalej. Na základe tej jednej triedy sa pokúsiš odhadnúť, aká je priemerná známka na celej škole. Robíš teda záver o veľkom celku na základe malej vzorky. Je to vlastne také kvalifikované hádanie.

Lenka: Aha! Takže deskriptívna hovorí, 'čo je', a induktívna, 'čo by mohlo byť' pre všetkých?

Filip: Perfektné zhrnutie! A presne tam vstupuje do hry teória pravdepodobnosti a testovanie hypotéz, aby naše 'hádanie' bolo čo najpresnejšie. Tomu sa hovorí aj inferenčná štatistika.

Lenka: Super. Ďalšia vec, v ktorej sa často robia chyby: výskum a prieskum. Je to to isté?

Filip: Nie je, aj keď to spolu úzko súvisí. Výskum je širší a systematickejší proces. Má presné pravidlá, etapy, začína teóriou, formuluješ hypotézy, zbieraš dáta, analyzuješ a na konci zvyšuješ celkové poznanie o nejakej téme.

Lenka: A prieskum?

Filip: Prieskum je často len jednou časťou výskumu. Je to tá časť, keď ideš do terénu a zbieraš dáta, napríklad dotazníkom. Môže byť aj samostatný, ale väčšinou nemá taký hlboký teoretický základ. Je to skôr rýchle zmapovanie situácie.

Lenka: Takže každý výskum môže obsahovať prieskum, ale nie každý prieskum je plnohodnotný výskum.

Filip: Presne tak. Výskum je celá detektívka, prieskum je vypočúvanie jedného svedka.

Lenka: A sme pri ďalšej dôležitej dvojici: kvalitatívny a kvantitatívny výskum. To znie ako slová a čísla.

Filip: A presne o tom to je! Kvantitatívny výskum pracuje s číslami. Pýta sa 'koľko?', 'ako často?'. Zaujíma ho rozsah, frekvencia. Používaš dotazníky s uzavretými otázkami, napríklad škály od 1 do 5, a výsledky potom spracuješ štatisticky v programoch ako STATA alebo aj v Exceli.

Lenka: Čiže, ak by som chcela zistiť, koľko študentov je spokojných s jedálňou, použijem kvantitatívny výskum.

Filip: Presne. A kvalitatívny výskum sa pýta 'prečo?'. Chce pochopiť jav do hĺbky z pohľadu jednotlivca. Namiesto čísel zbieraš slová – cez rozhovory, otvorené otázky. Výsledkom nie je graf, ale podrobný opis a interpretácia.

Lenka: Takže ak by som chcela vedieť, *prečo* sú nespokojní s jedálňou, čo presne im vadí, urobila by som pár hĺbkových rozhovorov a to by bol kvalitatívny výskum.

Filip: Bingo! Je to o rozdiele medzi meraním a chápaním. Často sa dokonca kombinuje oboje v zmiešanom výskume pre najlepší výsledok.

Lenka: Dobre, zostaňme pri tom kvantitatívnom, lebo tam je tá štatistika najviditeľnejšia. Aké sú jeho základné kroky? Znie to ako nejaký zložitý proces.

Filip: Vôbec nie. Je to logická postupnosť. Ako keď varíš podľa receptu. Prvý krok je definovať si výskumný problém a otázku. Čo vlastne chcem zistiť?

Lenka: Napríklad: 'Existuje rozdiel v úrovni stresu medzi študentmi prvého a tretieho ročníka?'

Filip: Perfektná výskumná otázka. Potom si naštuduješ teóriu – čo už o strese u študentov vieme. Na základe toho si stanovíš hypotézy. Napríklad 'Predpokladám, že tretiaci majú vyššiu úroveň stresu'.

Lenka: A potom?

Filip: Potom príde na rad operacionalizácia – to je len fancy slovo pre to, že si povieš, ako presne budeš ten 'stres' merať. Potom si vyberieš vzorku študentov, zozbieraš dáta, napríklad dotazníkom, a nakoniec ich štatisticky vyhodnotíš, aby si potvrdila alebo vyvrátila svoju hypotézu.

Lenka: Super, máme dáta. Čo s nimi ako prvé? Asi ich treba nejak zhrnúť, však? Tu prichádza na rad ten slávny priemer.

Filip: Áno, priemer je najznámejšia miera polohy alebo centrálnej tendencie. Hľadáme typickú hodnotu v súbore. Aritmetický priemer je jednoducho súčet všetkých hodnôt delený ich počtom.

Lenka: Ale počula som, že priemer môže klamať.

Filip: Veru môže! A to je dôležité si pamätať. Predstav si deväť ľudí s platom 1000 eur a jedného s platom 100 000 eur. Priemerný plat v tejto skupine bude vyše 10 000 eur! Ale to vôbec neodráža realitu pre väčšinu.

Lenka: Jasné, ten jeden extrém to úplne pokrivil. Čo sa s tým dá robiť?

Filip: Na to máme medián! Keď si zoradíš všetky hodnoty od najmenšej po najväčšiu, medián je presne tá hodnota v strede. V našom platovom príklade by bol medián stále 1000 eur, čo je oveľa presnejší obraz.

Lenka: A čo je modus?

Filip: Modus je úplne najjednoduchší. Je to hodnota, ktorá sa v dátach vyskytuje najčastejšie. Ak by v triede bolo najviac dvojkárov, modus by bola známka 2.

Lenka: Dobre, takže vieme nájsť stred. Ale dáta predsa nie sú všetky rovnaké. Ako zmeriame, nakoľko sú 'rozlietané' okolo toho stredu?

Filip: Skvelá otázka. Na to slúžia miery variability. Tie nám hovoria, či sú hodnoty natesno pri sebe, alebo sú veľmi rozptýlené. Základnou mierou je variačné rozpätie – rozdiel medzi najväčšou a najmenšou hodnotou.

Lenka: Ale to je asi tiež citlivé na extrémy, však?

Filip: Presne tak. Preto častejšie používame rozptyl a smerodajnú odchýlku. Tie berú do úvahy odchýlku každej jednej hodnoty od priemeru. Čím je smerodajná odchýlka väčšia, tým sú dáta viac 'rozhádzané'.

Lenka: Takže ak majú dve triedy rovnaký priemer známok, ale jedna má oveľa vyššiu smerodajnú odchýlku...

Filip: ...znamená to, že v tej druhej triede sú oveľa väčšie rozdiely medzi študentmi. Sú tam aj géniovia, aj tí, ktorým to až tak nejde. V prvej triede sú všetci výkonnostne bližšie pri sebe.

Lenka: Dobre, poďme na to najdôležitejšie. Hypotézy. Povedal si, že si na začiatku stanovíme nejaký predpoklad. Ako ho potom štatisticky overíme?

Filip: Toto je srdce induktívnej štatistiky. Vždy pracujeme s dvoma hypotézami. Nulová hypotéza, značená H0, ktorá v podstate hovorí: 'Nič sa nedeje. Žiadny rozdiel, žiadny vzťah neexistuje.' Je to taký status quo.

Lenka: Akože 'Neexistuje rozdiel v strese medzi prvákmi a tretiakmi.'

Filip: Presne. A proti nej stojí alternatívna hypotéza, H1. To je to, čo si my ako výskumníci myslíme, že je pravda. Teda: 'Existuje rozdiel v strese medzi prvákmi a tretiakmi.'

Lenka: A cieľom je vyvrátiť tú nudnú nulovú hypotézu.

Filip: Presne! Snažíme sa nájsť dostatok dôkazov v našich dátach, aby sme mohli H0 zamietnuť a povedať, že platí naša alternatívna, zaujímavejšia hypotéza.

Lenka: A ako sa rozhodneme, či tie dôkazy stačia? Počula som o nejakej p-hodnote.

Filip: Áno, p-hodnota je kľúčová. Je to pravdepodobnosť, že by sme pozorovali také výsledky, aké sme pozorovali, ak by v skutočnosti platila nulová hypotéza. Znie to zložito, ale predstav si to jednoducho.

Lenka: Prosím!

Filip: Čím je p-hodnota menšia, tým je menej pravdepodobné, že naše výsledky sú len náhoda. Predstav si to ako 'mieru prekvapenia'. Ak je veľmi malá, sme veľmi prekvapení a povieme si: 'Toto nemôže byť náhoda, nulová hypotéza asi neplatí.'

Lenka: A aká malá musí byť?

Filip: Vo väčšine vied sme sa dohodli na hranici, ktorá sa volá hladina významnosti, a zvyčajne je to 5 percent, teda 0,05. Pravidlo je jednoduché: ak je p-hodnota menšia ako 0,05, zamietame nulovú hypotézu. Hovoríme, že výsledok je štatisticky významný.

Lenka: Takže ak mi test vyjde s p-hodnotou 0,02, môžem s radosťou vyhlásiť, že som našla rozdiel v strese medzi ročníkmi?

Filip: Presne tak! Našla si štatisticky významný rozdiel. A ak by ti vyšla p-hodnota 0,35, tak povieš, že nulovú hypotézu nevieme zamietnuť. Nemáš dosť dôkazov.

Lenka: Super, to je oveľa jasnejšie. Takže sme sa pozreli na základy štatistiky, výskumu a aj na to, ako testovať naše nápady. Zhrnuli by sme to na záver?

Filip: Určite. Štatistika nie je len o číslach, ale o pochopení sveta. Rozlišujeme opisnú a induktívnu štatistiku. Pamätajte na rozdiel medzi kvantitatívnym (koľko?) a kvalitatívnym (prečo?) výskumom. A pri testovaní hypotéz je vaším najlepším kamarátom p-hodnota. Ak je menšia ako 0,05, našli ste niečo zaujímavé!

Lenka: Jasné! Takže p-hodnota je kľúč. Ale kým sa k nejakej p-hodnote vôbec dostaneme, musíme mať plán. A to je asi tá metodológia, o ktorej všetci hovoria, však Filip?

Filip: Presne tak, Lenka! Metodológia je vlastne recept na tvoj výskum. A každý dobrý recept začína hlavnou ingredienciou – hypotézou.

Lenka: Hypotéza... to je vlastne môj odhad, čo sa stane, však? Taká predpoveď.

Filip: V podstate áno. Je to predpokladaná odpoveď na tvoju výskumnú otázku. Ale musí byť overiteľná. Nemôžeš mať hypotézu, že „čokoláda je najlepšia na svete”.

Lenka: Škoda, to by som dokázala veľmi rada! Tak aké sú pravidlá?

Filip: Sú tri hlavné. Po prvé, hypotéza je vždy oznamovacia veta. Po druhé, musí obsahovať dve premenné, ktoré vieš porovnať. A po tretie, tie premenné musia byť merateľné.

Lenka: Čiže napríklad: „Študenti, ktorí pijú kávu, majú lepšie známky.” Premenná jedna je pitie kávy, premenná dva sú známky. A oboje viem zmerať.

Filip: Perfektný príklad! A potom máme rôzne typy hypotéz. Od takých všeobecných, východiskových, až po tie štatistické, kde máme nulovú a alternatívnu hypotézu. Pamätáš? Nulovú sa snažíme vyvrátiť.

Lenka: Super, hypotézu mám. Ale na jej overenie potrebujem dáta. Kde ich vezmem?

Filip: Dobrá otázka. Máš dve hlavné cesty. Buď si zozbieraš vlastné, takzvané primárne dáta – cez dotazníky, experimenty, pozorovania. To je ako keď si varíš večeru úplne od nuly.

Lenka: A tá druhá cesta? Objednať si pizzu?

Filip: Presne! To sú sekundárne dáta. Sú to dáta, ktoré už niekto pred tebou zozbieral. Rôzne štatistiky, databázy, staršie výskumy. Ušetrí ti to kopu času, ale nemusíš tam nájsť presne to, čo hľadáš.

Lenka: Dobre, predstavme si, že som si spravila dotazník. Mám teraz stovky odpovedí. Čo s tým chaosom?

Filip: Teraz prichádza fáza upratovania. Volá sa to spracovanie dát. Najprv musíš dáta kódovať.

Lenka: Kódovať? To znie hackersky.

Filip: Je to jednoduchšie. V podstate každej odpovedi priradíš nejaký symbol, najčastejšie číslo. Napríklad „áno” bude 1, „nie” bude 0. Alebo „muž” bude 1 a „žena” 2.

Lenka: Aha, aby s tým počítač vedel pracovať. Chápem.

Filip: Presne. A pri tomto upratovaní je dôležité odhaliť takzvané odľahlé hodnoty. Sú to dáta, ktoré tam očividne nepatria.

Lenka: Ako keď sa v dotazníku na vek niekto pomýli a napíše, že má 250 rokov?

Filip: To je presne ono! Takáto hodnota by ti úplne pokazila výsledky, takže ju musíš nájsť a rozumne sa jej zbaviť. Potom nasleduje triedenie, kde si dáta zoskupíš do logických celkov, napríklad podľa veku alebo pohlavia, aby si v tom videla nejaké vzorce.

Lenka: Dobre, takže mám hypotézu aj plán, ako spracovať dáta. Ale ešte jedna vec... koho sa mám vlastne pýtať? Nemôžem predsa osloviť všetkých študentov na Slovensku.

Filip: Správna úvaha. Tu prichádzajú na rad dva kľúčové pojmy: základný súbor a výberový súbor.

Lenka: Okej, poďme na to pomaly.

Filip: Základný súbor, alebo populácia, sú všetci, ktorých sa tvoj výskum týka. V tvojom prípade všetci študenti na Slovensku. Keďže ich je príliš veľa, vyberieš si z nich menšiu skupinku. A to je tvoj výberový súbor, alebo vzorka.

Lenka: A asi je dôležité, aby tá vzorka bola dobrým odrazom celej populácie, však?

Filip: Absolútne kľúčové! Hovoríme tomu, že vzorka musí byť reprezentatívna. Musí mať podobné zloženie ako celá populácia – podobný pomer mužov a žien, ľudí z rôznych regiónov a podobne.

Lenka: A ako to zaistím?

Filip: Najlepší je náhodný výber. To znamená, že každý jeden človek zo základného súboru má rovnakú šancu dostať sa do tvojho výberu. Tým zaistíš, že tvoje zistenia budú naozaj platné pre celú skupinu.

Lenka: Super, takže metodológia je vlastne krok za krokom návod, ako spraviť výskum poriadne. Od hypotézy, cez zber dát až po výber správnych ľudí. Rozumiem. Aký je teda najčastejší spôsob, ako tie dáta od ľudí reálne získať? Predpokladám, že nejaký dotazník?

Filip: Presne tak, dotazník je klasika. Ale to dôležité nie je ani tak ten dotazník samotný, ako to, čo ním zisťujeme. A tomu hovoríme premenné.

Lenka: Premenné? To znie ako niečo z matematiky. Už sa začínam báť.

Filip: Žiadny strach. Je to jednoduchšie, než to znie. Premenná je v podstate akákoľvek vlastnosť, ktorá sa môže u ľudí meniť. Napríklad farba očí, vek, alebo názor na niečo.

Lenka: Dobre, to dáva zmysel. Takže v mojom výskume o prokrastinácii by premenná bola napríklad... miera prokrastinácie?

Filip: Presne! A delíme ich na dva základné typy. Prvým sú kvalitatívne premenné. Tie opisujeme slovami. Napríklad pohlavie, rodinný stav, alebo najobľúbenší predmet v škole.

Lenka: Takže ak sa v dotazníku opýtam, či študenti sú “muž” alebo “žena”, je to kvalitatívna premenná?

Filip: Áno. A volá sa nominálna. Tým kategóriám môžeme priradiť čísla, napríklad 1 pre muža a 2 pre ženu, ale tie čísla nevyjadrujú žiadne poradie. Je to len kód.

Lenka: A čo ak tie kategórie majú nejaké poradie? Napríklad... stupeň spokojnosti od “veľmi nespokojný” po “veľmi spokojný”.

Filip: Výborný postreh! To je druhý typ kvalitatívnej premennej – ordinálna. Vieme, že “veľmi spokojný” je viac ako “spokojný”, ale nevieme presne o koľko. Ten odstup nie je jasne daný.

Lenka: Chápem. A aký je teda ten druhý hlavný typ premenných?

Filip: To sú kvantitatívne, kde hodnoty sú reálne čísla. Napríklad počet bodov v teste alebo výška v centimetroch. Tu už vieme presne určiť, o koľko je jedna hodnota väčšia ako druhá.

Lenka: Takže tam môžem povedať, že 180 cm je presne o 10 cm viac ako 170 cm.

Filip: Presne tak. A tu je posledný dôležitý detail. Niektoré majú prirodzený nulový bod, ako hmotnosť alebo vek. Nula kíl znamená, že tam nie je žiadna hmotnosť. To sú pomerové premenné.

Lenka: A ktoré ho nemajú?

Filip: Napríklad teplota v stupňoch Celzia. Nula stupňov neznamená, že neexistuje žiadna teplota. A toto rozdelenie je kľúčové, pretože nám neskôr povie, aké štatistické metódy môžeme použiť.

Lenka: Dobre, tak už vieme, aké typy premenných máme. A ako nám to teda pomôže vybrať tie správne štatistické metódy, o ktorých si hovoril?

Filip: Skvelá otázka. Začnime jednou z najčastejších metód — korelačnou analýzou. Je to vlastne len spôsob, ako zistiť, či dve veci spolu nejako súvisia. Teda či zmena jednej premennej ovplyvňuje tú druhú.

Lenka: Takže napríklad, či viac hodín učenia súvisí s lepšou známkou?

Filip: Presne! A tu je dôležité rozlišovať. Máme koreláciu pre číselné premenné, poradovú koreláciu pre tie zoradené, a kontingenciu pre kvalitatívne, napríklad farbu očí a vlasov.

Lenka: Dobre, poďme na tie číselné. Aké typy vzťahov tam môžeme nájsť?

Filip: V podstate dva hlavné. Pozitívnu koreláciu, kde ak rastie jedna hodnota, rastie aj druhá. Ako tvoj príklad s učením a známkami. Viac učenia, lepšia známka.

Lenka: A tá druhá je asi opak, však?

Filip: Áno, to je negatívna korelácia. Ak jedna hodnota rastie, druhá klesá. Napríklad... čím viac času stráviš na sociálnych sieťach, tým menej času ti ostane na úlohy.

Lenka: To znie až príliš povedome. Takže to meriame nejakým koeficientom?

Filip: Presne tak. Najznámejším je Pearsonov korelačný koeficient. Ten meria silu *lineárnej* závislosti. Predstav si to ako dokonalú priamku.

Lenka: Čo to znamená?

Filip: Hodnoty má od mínus jedna do plus jedna. Plus jedna je dokonalá priama korelácia – keď jedno rastie, druhé rastie presne v tom istom pomere. Mínus jedna je dokonalá nepriama korelácia.

Lenka: A čo keď je výsledok nula?

Filip: A tu je ten chyták! Nula znamená, že tam nie je *lineárna* závislosť. Ale pozor, tie premenné môžu byť stále závislé, len inak, napríklad do oblúka. Pearson to ale neuvidí.

Lenka: Takže je trochu obmedzený.

Filip: A extrémne citlivý na odľahlé hodnoty. Jedna divná hodnota ti môže úplne zmeniť výsledok. Ale na to máme iného pomocníka!

Lenka: Sem s ním!

Filip: Je to Spearmanov koeficient poradovej korelácie. Používa sa pre ordinálne dáta, ale skvele funguje aj pre kvantitatívne, hlavne ak máš podozrenie na odľahlé hodnoty.

Lenka: Takže je odolnejší?

Filip: Presne. Nie je taký citlivý. Tiež má hodnoty od mínus jedna do jedna, ale nemeria len priamku, ale akýkoľvek monotónny vzťah – teda či to stále rastie alebo stále klesá, aj keď nie dokonale rovno.

Lenka: Super! Takže máme Pearsona pre dokonalé priamky a Spearmana, keď sú dáta trochu... divokejšie. Čo nás čaká ďalej v tejto štatistickej džungli?

Filip: Teraz sa presunieme od čísel k niečomu inému. Čo ak chceme zistiť, či existuje vzťah medzi dvoma kvalitatívnymi premennými? Napríklad, či farba vlasov súvisí s obľúbenou značkou telefónu.

Lenka: To znie zaujímavo. Takže už nemeriame čísla, ale kategórie. Ako sa to volá?

Filip: Presne. A tomu sa hovorí kontingencia. Na overenie, či sú takéto premenné na sebe závislé, použijeme Pearsonov chí-kvadrát test nezávislosti.

Lenka: Chí-kvadrát... to znie ako nejaké kúzlo.

Filip: Trochu áno, ale je to čistá matematika. Musíme však dodržať pár pravidiel. Po prvé, v žiadnej sledovanej skupine by sme nemali očakávať menej ako 5 ľudí.

Lenka: Takže nemôžem urobiť prieskum na troch kamarátoch a vyvodzovať závery?

Filip: Presne tak. A celkovo by si mala mať aspoň 40 respondentov. To je druhé pravidlo.

Lenka: Rozumiem. Aspoň 40 ľudí a žiadne malé skupinky.

Filip: Super. Ale pozor, tento test ti povie len to, či tam nejaká závislosť *je*, alebo *nie je*. Nehovorí ti, aká je silná.

Lenka: Aha! Takže povie "áno, súvisí to", ale nepovie "ako veľmi"? Čo s tým?

Filip: Na to máme ďalšie nástroje. Sú to koeficienty, ktoré merajú intenzitu. Najznámejší je asi Cramerov V koeficient, ale existuje aj koeficient fí alebo kontingenčný koeficient C.

Lenka: A tie už nám dajú konkrétne číslo?

Filip: Áno. Pohybujú sa od nula do jedna. Čím bližšie je hodnota k nule, tým sú premenné od seba nezávislejšie.

Lenka: Paráda. Takže chí-kvadrát pre "áno/nie" a Cramerovo V pre "ako veľmi". Kam sa posunieme odtiaľto?

Filip: Posunieme sa k niečomu, čo nám dovolí predpovedať budúcnosť. Teda... štatisticky. Volá sa to regresná analýza.

Lenka: Znie to ako niečo, čo robí môj pes, keď urobí neplechu. O čom to presne je?

Filip: Blízko, ale nie úplne. Regresná analýza nám pomáha odhadnúť vzťah medzi premennými. Ale kľúčové slovo je tu "odhadnúť".

Lenka: Takže už nehovoríme len o tom, či spolu súvisia, ale ako jedna ovplyvňuje druhú?

Filip: Presne tak! Máme závislú premennú, to je to, čo chceme predpovedať, označme ju Y. A potom nezávislú premennú, X, ktorá nám v tom pomáha.

Lenka: Napríklad... ak Y je moja známka z testu, tak X by mohol byť počet hodín, ktoré som sa učila?

Filip: Perfektný príklad! A cieľom je vytvoriť model, ktorý ti povie, akú známku asi dostaneš, keď sa budeš učiť určitý počet hodín.

Lenka: A stačí mi na to len jedna premenná? Čo ak na známku vplýva aj to, koľko som spala?

Filip: Skvelá otázka, a to je presne ten rozdiel. Ak použiješ len jednu nezávislú premennú, ako hodiny učenia, robíš jednoduchú regresnú analýzu.

Lenka: Logické. Takže keď pridám spánok...

Filip: ...robíš viacnásobnú regresnú analýzu. Môžeš pridať viac premenných, ktoré by mohli výsledok ovplyvniť.

Lenka: Super, takže môj model bude presnejší. Ako taký model vlastne vyzerá?

Filip: Je to v podstate rovnica. Máme tam takzvanú konštantu... to je akoby tvoja základná známka, aj keby si sa neučila ani minútu.

Lenka: Dúfam, že nie je nula.

Filip: Potom tam máš regresný koeficient. Ten ti povie, o koľko sa tvoja známka zlepší s každou ďalšou hodinou učenia. A nakoniec je tam ešte rezíduum, taká náhodná chyba.

Lenka: Čo je to náhodná chyba?

Filip: To sú všetky tie veci, ktoré nemeriame. Napríklad, akú si mala náladu, alebo či boli otázky v teste ťažké. Proste veci, ktoré model nevie vysvetliť.

Lenka: Okej, chápem. Takže si len nahádžem do modelu čo najviac premenných a mám hotovo?

Filip: Keby to bolo také jednoduché. Musíš si dať pozor na pár vecí. Prvá je multikolinearita.

Lenka: Multiko... čože?

Filip: Znamená to, že tvoje nezávislé premenné sú si príliš podobné. Napríklad, ak by si do modelu dala "hodiny učenia" a zároveň "minúty učenia". Obe merajú to isté a pletú model.

Lenka: Rozumiem. A tá druhá vec?

Filip: Homoskedasticita. To je len fancy slovo pre to, že chyby tvojho modelu by mali byť konzistentné. Nemal by predpovedať super presne pre ľudí, čo sa učia málo, a úplne zle pre tých, čo sa učia veľa.

Lenka: A ako zistím, či je môj model vôbec dobrý?

Filip: Na to slúži koeficient determinácie, alebo R-kvadrát. Povie ti, koľko percent variability tvojej známky vie model vysvetliť. Čím vyššie číslo, tým lepšie.

Lenka: Paráda. Takže na záver, kým korelácia nám povie, *či* veci spolu súvisia, regresia nám povie *ako* a dovolí nám dokonca predpovedať.

Filip: Presne tak. Je to extrémne silný nástroj. A tým sme vlastne na konci nášho dnešného prehľadu štatistických metód.

Lenka: Super! Verím, že sme našim poslucháčom dodali sebavedomie pred skúškami. Ďakujeme, že ste nás počúvali.

Filip: Držíme vám palce. Dopočutia nabudúce v Studyfi Podcaste!