Podcast o Aplikovaná štatistika a kvantitatívny výskum

Aplikovaná štatistika a kvantitatívny výskum – Sprievodca pre študentov

Zhrnutie Test znalostí Kartičky Podcast Myšlienková mapa

Podcast

Štatistika: Od hernej stoličky k vedeckému dôkazu0:00 / 24:08

0:001:00 zbývá

NinaPredstav si študenta, volajme ho Adam. Adam zúfalo chce novú hernú stoličku a tvrdí rodičom, že mu pomôže lepšie sa sústrediť pri učení. Jeho otec, skeptik, mu povie: „Dobre, dokáž to.“

FilipKlasický rodičovský ťah. A čo urobí Adam?

Kapitoly

Štatistika: Od hernej stoličky k vedeckému dôkazu

Délka: 24 minut

Kapitoly

Problém s hernou stoličkou

Čo je vlastne štatistika?

Opisná verzus induktívna štatistika

Rozdiel medzi výskumom a prieskumom

Kvantitatívny vs. kvalitatívny prístup

Od otázky k dátam

Čo vlastne meriame?

Dva svety premenných

Stávka na istotu: Hypotéza

Kde leží stred?

Ako sú dáta rozhádzané?

Odhadovanie z malého kúska

Súdny proces s hypotézami

Čarovné p-číslo

Dva druhy omylov

Parametrickí puntičkári

Kedy použiť ktorý test?

Keď veci spolu súvisia

Hojdačka pozitívnej a negatívnej korelácie

Pearsonov prísny koeficient

Spearmanov odolný záchranca

Úvod do regresie

Koeficienty a ich význam

Keď jedna premenná nestačí

Zhrnutie a záver

Přepis

Nina: Predstav si študenta, volajme ho Adam. Adam zúfalo chce novú hernú stoličku a tvrdí rodičom, že mu pomôže lepšie sa sústrediť pri učení. Jeho otec, skeptik, mu povie: „Dobre, dokáž to.“

Filip: Klasický rodičovský ťah. A čo urobí Adam?

Nina: No práve! Ako by niečo také vôbec mohol dokázať? A presne tu prichádza na rad veda. Počúvate Studyfi Podcast.

Filip: Ten Adamov problém je perfektný úvod do štatistiky. Štatistika nie sú len nudné tabuľky a čísla. Je to veda, ktorá nám pomáha skúmať a pochopiť svet okolo nás... aj to, či herná stolička naozaj funguje.

Nina: Takže je to vlastne nástroj na hľadanie odpovedí?

Filip: Presne tak. Štatistika je vedná disciplína, ktorá sa zaoberá metódami, ako zbierať, spracovať a analyzovať údaje, aby sme mohli robiť závery. Používa sa všade – od predpovedania počasia až po odhadovanie poistných rizík.

Nina: Dobre, takže Adam potrebuje nejaké dáta. Čo ďalej? Aký druh štatistiky by mal použiť?

Filip: Výborná otázka. Najprv by použil deskriptívnu, teda opisnú štatistiku. Zbieral by údaje – napríklad, koľko hodín sa dokázal sústrediť na starej stoličke a koľko na novej. Potom by tieto dáta jednoducho opísal.

Nina: Akože... urobil by si graf, ktorý by ukázal „Aha, tu som sa učil o 20% dlhšie“?

Filip: Presne. Vytvoril by tabuľky, grafy, vypočítal priemer... proste by zhrnul, čo zistil. Ale to je len opis jeho vlastnej skúsenosti.

Nina: A čo ak chce tvrdiť, že tá stolička pomôže *všetkým* študentom?

Filip: A to je moment, kedy na scénu prichádza induktívna štatistika! Tá sa snaží robiť závery o celku na základe malej vzorky. Na základe svojich dát by Adam mohol odhadnúť, či by stolička mala podobný efekt aj na iných.

Nina: Takže by sa z neho stal vedec, ktorý obhajuje investíciu do herného vybavenia.

Filip: V podstate áno. Ale aby jeho tvrdenie malo váhu, musel by urobiť poriadny výskum, nie len prieskum.

Nina: Počkaj, aký je v tom rozdiel? Myslela som, že je to to isté.

Filip: Nie tak celkom. Prieskum je často len súčasťou výskumu. Je to skôr nesystematické zisťovanie. Keby sa Adam spýtal dvoch kamarátov, či sa im lepšie sedí na jeho novej stoličke, to by bol prieskum.

Nina: Čiže... nie veľmi vedecké.

Filip: Vôbec nie. Vedecký výskum je systematický proces. Má presné etapy: prípravu, zber dát, spracovanie a vyhodnotenie. Cieľom je objaviť nejaké zákonitosti, nielen získať pár náhodných názorov.

Nina: Chápem. Takže Adam by si musel presne naplánovať, ako bude merať svoje sústredenie. A to nás privádza k poslednej otázke – ako by to meral? Slovami alebo číslami?

Filip: Super otázka, ktorá rozlišuje dva hlavné druhy výskumu. Keby sa Adam pýtal „Ako sa *cítiš* pri učení na tejto stoličke?“, robil by kvalitatívny výskum. Ten pracuje so slovami a hľadá hlbší význam.

Nina: Ale rodičom by asi nestačilo, keby povedal „Cítim sa produktívnejšie“.

Filip: A presne preto by mal zvoliť kvantitatívny výskum. Ten pracuje s číslami. Meral by čas, počet prečítaných strán, skóre v testoch... Tieto číselné údaje sa dajú ľahko spracovať a porovnať.

Nina: Takže, aby som to zhrnula: Adam potrebuje urobiť kvantitatívny výskum, kde bude systematicky zbierať číselné dáta o svojom sústredení, tie potom opíše pomocou deskriptívnej štatistiky a nakoniec, ak bude odvážny, použije induktívnu štatistiku, aby zovšeobecnil svoje výsledky.

Filip: Perfektné zhrnutie! A presne takto štatistika funguje – premieňa otázky na merateľné problémy a dáva nám nástroje, ako na ne nájsť odpovede podložené dátami.

Nina: Takže vďaka štatistike si Adam môže urobiť poriadok vo svojom učení. To je super! Ale... kde presne začne? Nemôže si len tak povedať „idem merať sústredenie“. Znie to príliš... všeobecne.

Filip: Presne tak! A práve preto je prvým krokom každého výskumu formulácia správnej výskumnej otázky. Je to ako nastaviť si cieľ v navigácii. Bez neho len tak blúdiš.

Nina: Čiže Adamova všeobecná otázka „Ako sa lepšie sústrediť?“ nestačí?

Filip: Je to skvelý začiatok, ale nie, nestačí. To je všeobecná otázka. Potrebuje ju zúžiť na špecifickú. Napríklad: „Zlepší sa moje skóre v teste pozornosti, ak sa budem učiť tridsať minút pri počúvaní lo-fi hudby v porovnaní s učením v úplnom tichu?“

Nina: Aha! To je oveľa konkrétnejšie. Vlastne mu to presne hovorí, čo má robiť a čo má merať. Takže z „chcem byť zdravší“ sa stane „zníži sa môj krvný tlak, ak budem chodiť na prechádzky trikrát týždenne?“

Filip: Perfektný príklad! Dobrá špecifická otázka ti rovno napovie, aké dáta potrebuješ zozbierať, aby si na ňu mohla odpovedať. To je kľúčové.

Nina: Dobre, takže Adam má otázku. A spomínal si dáta... čo presne sú tie veci, ktoré meriame? Ako sa volajú?

Filip: Volajú sa premenné. Premenná je v podstate čokoľvek, čoho hodnotu môžeme vo výskume merať alebo nejak ovplyvňovať. Je to vlastnosť, ktorá sa môže meniť.

Nina: Ako napríklad?

Filip: V Adamovom prípade je jedna premenná „prostredie na učenie“. Tá má dve hodnoty: „s lo-fi hudbou“ a „v tichu“. Druhá premenná je „skóre v teste pozornosti“. A tá môže mať rôzne číselné hodnoty.

Nina: Takže premenná musí mať aspoň dve možné hodnoty? Nemôže byť len jedna?

Filip: Presne. Ak by mala len jednu hodnotu, nemali by sme čo porovnávať. Bolo by to ako snažiť sa zmerať rýchlosť auta, ktoré stojí na mieste.

Nina: To dáva zmysel.

Filip: A teraz sa to trošku skomplikuje, ale len trošku. Premenné delíme na dve hlavné skupiny: kvalitatívne a kvantitatívne.

Nina: Dobre, som pripravená. Čo sú tie kvalitatívne?

Filip: Tie opisujeme slovami, vyjadrujú kategóriu. Napríklad farba očí – hnedá, modrá, zelená. Alebo pohlavie – muž, žena. Tieto slová môžeme pri spracovaní označiť číslami, napríklad muž je 1, žena je 2, ale to číslo je len kód. Neznamená, že 2 je viac ako 1.

Nina: Takže nemôžem povedať, že ženy sú dvakrát lepšie ako muži? Škoda.

Filip: Štatisticky určite nie. A potom máme v tejto skupine ešte ordinálne premenné. Tie majú prirodzené poradie. Ako medaily – zlatá, strieborná, bronzová. Vieme, že zlatá je lepšia ako strieborná, ale nevieme presne o koľko.

Nina: Rozumiem. A tie kvantitatívne sú teda asi... čísla?

Filip: Bingo! Kvantitatívne premenné vyjadrujú množstvo a sú to reálne čísla. S nimi už môžeme normálne počítať. Napríklad tvoja výška v centimetroch, váha v kilogramoch alebo Adamove skóre v teste. Tam vieme presne povedať, že 10 bodov je o 5 viac ako 5 bodov.

Nina: Dobre, takže zhrniem to. Máme špecifickú otázku. Vieme, aké premenné budeme merať. A čo ďalej? Ideme rovno na vec a začneme merať?

Filip: Skoro. Ešte predtým si stanovíme hypotézu. Hypotéza je vlastne taký náš kvalifikovaný odhad, predpokladaná odpoveď na našu výskumnú otázku.

Nina: Ako nejaká stávka so sebou samým?

Filip: Presne tak! Je to stávka, ktorú sa potom snažíš potvrdiť alebo vyvrátiť dátami. Musí to byť oznamovacia veta, ktorá hovorí o vzťahu medzi dvoma premennými. Napríklad: „Počúvanie lo-fi hudby počas učenia zvyšuje skóre v teste pozornosti.“

Nina: A nie „Zvýši lo-fi hudba moje skóre?“

Filip: Správne. Hypotéza je tvrdenie, nie otázka. A musí byť testovateľná. Musíš ju vedieť empiricky, teda dátami, overiť. V podstate si povieš: „Stavím sa, že to takto dopadne.“ A potom ideš zistiť, či si mala pravdu.

Nina: Takže máme otázku, premenné aj hypotézu. Cesta je vytýčená. Čo nasleduje?

Filip: Potom prichádza tá najzaujímavejšia časť – samotný zber dát! Ale to, ako si správne vybrať vzorku ľudí alebo ako zostaviť dobrý dotazník, to si už necháme nabudúce.

Nina: Takže, Filip, minule sme skončili pri zbere dát. Ale počula som, že kým sa do toho pustíme, musíme si najprv urobiť poriadok v číslach. Predstavuješ nám teda svet štatistiky?

Filip: Presne tak, Nina. Vstupujeme do ríše deskriptívnej štatistiky. Znie to zložito, ale nie je. Predstav si, že máš vrece plné dát. Deskriptívna štatistika ti jednoducho pomôže to vrece popísať a zhrnúť, čo v ňom vlastne je.

Nina: Dobre, takže popisujeme, čo vidíme. Kde zvyčajne začneme? Asi v strede, nie?

Filip: Správna intuícia. Hľadáme takzvané miery polohy. Najznámejší je aritmetický priemer. Sčítaš všetky hodnoty a vydelíš ich počtom. Jednoduché.

Nina: Až príliš jednoduché. V čom je háčik?

Filip: Hádaj. Háčik je v tom, že priemer je veľmi citlivý na extrémne hodnoty. Dám ti príklad. Vo firme pracuje 7 zamestnancov s platmi okolo 700-800 eur. Ich priemerný plat je, povedzme, 743 eur. To sedí.

Nina: Okej...

Filip: Ale teraz prirátajme plat riaditeľa, ktorý je 5000 eur. Zrazu je priemerný plat v celej firme 1275 eur! A to predsa vôbec nevystihuje realitu väčšiny zamestnancov.

Nina: Aha! Takže plat jedného človeka úplne pokazil štatistiku. Čo s tým?

Filip: Na scénu prichádza hrdina menom medián. Keď si všetky platy zoradíš od najnižšieho po najvyšší, medián je presne ten plat, ktorý sa nachádza v strede. A na rozdiel od priemeru, extrémne hodnoty ho takmer neovplyvnia.

Nina: To znie oveľa férovejšie. A čo je ten modus?

Filip: Modus je najväčší trendsetter v dátach. Je to hodnota, ktorá sa v súbore vyskytuje najčastejšie. Ak má päť zamestnancov plat 700 eur, tak modus je 700.

Nina: Trendsetter, to si zapamätám.

Filip: Keď už poznáme stred, musíme zistiť, ako sú dáta okolo neho „rozhádzané“. Tomu hovoríme miery variability.

Nina: Čiže meriame ten... chaos?

Filip: V podstate áno. Najjednoduchšie je variačné rozpätie — rozdiel medzi najväčšou a najmenšou hodnotou. Ale to má rovnaký problém ako priemer... zase ho môžu skresliť extrémy.

Nina: Takže potrebujeme niečo sofistikovanejšie.

Filip: Presne. A tu prichádza na rad smerodajná odchýlka. Predstav si, že strieľaš lukom na terč. Ak sú všetky tvoje šípy pekne zoskupené v strede, máš nízku smerodajnú odchýlku. Ak sú rozlietané po celom terči, je vysoká.

Nina: Takže mi to povie, ako veľmi sa jednotlivé hodnoty líšia od priemeru. Či sú dáta pekne pokope, alebo rozlietané.

Filip: Bingo. Je to kľúčový ukazovateľ. Takže na základný popis dát nám stačia dve veci: vedieť, kde je stred, a vedieť, aký je okolo neho chaos.

Nina: Perfektné. Cítim sa o dosť múdrejšia. Takže dáta máme popísané. Ale často ich chceme aj nejako pekne ukázať. Graficky, napríklad.

Filip: Výborný postreh! A presne o tom, ako dáta správne vizualizovať, sa budeme rozprávať nabudúce. Ukážeme si, kedy je lepší koláčový graf a kedy sa oplatí použiť stĺpcový.

Nina: Filip, minule sme si teda upratali v dátach. Zistili sme, kde majú stred a aký je okolo neho chaos. Ale to bol len popis, však?

Filip: Presne tak, Nina. To bola deskriptívna, čiže opisná štatistika. Dnes sa posunieme o krok ďalej, do sveta inferenčnej štatistiky. Je to ako detektívna práca!

Nina: Ooo, detektívka! To znie zaujímavo. Takže už nebudeme len opisovať, čo vidíme?

Filip: Bingo. Budeme sa snažiť z malého kúska, z takzvanej vzorky, odhadnúť vlastnosti celého veľkého súboru. Napríklad z prieskumu na 1000 ľuďoch usúdiť na názory celého Slovenska.

Nina: Dobre, to dáva zmysel. A ako taká detektívka prebieha? Kde začneme?

Filip: Začneme tvrdením. V štatistike tomu hovoríme hypotéza. Je to nejaký predpoklad o svete, o ktorom nevieme, či je pravdivý. Napríklad: „Muži sú vyšší ako ženy.“

Nina: Fajn, to je jasné tvrdenie. Ale ako dokážeme, či platí alebo nie?

Filip: Predstav si to ako súdny proces. Máme dve hypotézy. Tá prvá, nulová hypotéza H0, je ako obžalovaný – je nevinný, kým sa nedokáže opak. Takže H0 by znela: „Medzi výškou mužov a žien nie je žiadny rozdiel.“

Nina: A tá druhá? To je prokurátor, ktorý tvrdí, že je vinný?

Filip: Presne tak! To je alternatívna hypotéza H1, ktorá hovorí: „Muži a ženy majú rozdielnu výšku.“ A našou úlohou je na základe dôkazov, teda dát, rozhodnúť.

Nina: A aké silné musia byť tie dôkazy, aby sme mohli „obžalovaného“, teda tú nulovú hypotézu, poslať preč?

Filip: Výborná otázka! Kľúčovým dôkazom je takzvaná p-hodnota. Zjednodušene povedané, p-hodnota nám hovorí, aká je pravdepodobnosť, že rozdiel, ktorý vidíme v našich dátach, je len čistá náhoda.

Nina: Takže ak je tá pravdepodobnosť veľmi malá, tak to asi náhoda nebude, však?

Filip: Presne. V spoločenských vedách sme si stanovili takú hranicu, hladinu významnosti alfa. Najčastejšie je to 5 percent, alebo inak povedané 0,05.

Nina: Dobre, takže porovnávam moje p-číslo s tou hranicou 0,05?

Filip: Správne. Ak je tvoja p-hodnota menšia ako 0,05, znamená to, že šanca na náhodu je extrémne malá. Preto máme dosť dôkazov, aby sme zamietli nulovú hypotézu a priklonili sa k tej alternatívnej.

Nina: Znie to celkom nepriestrelne. Ale... môžeme sa aj pomýliť? Aj súdy sa občas mýlia.

Filip: Samozrejme. A v štatistike poznáme presne dva typy omylov. Chyba prvého druhu je, keď zamietneme nulovú hypotézu, aj keď v skutočnosti platí. V našej analógii – pošleme nevinného do väzenia.

Nina: Au. A tá druhá chyba?

Filip: Chyba druhého druhu je presný opak. Nulovú hypotézu nezamietneme, hoci v skutočnosti neplatí. Takže... prepustíme vinníka na slobodu. Cieľom je, samozrejme, robiť tieto chyby čo najmenej.

Nina: Dobre, chápem princíp. Ale ako si vyberiem ten správny nástroj, ten správny „test“, na overenie hypotézy?

Filip: To závisí od povahy tvojich dát. Testy sa v zásade delia na dve veľké skupiny: parametrické a neparametrické. Parametrické testy sú ako puntičkári – sú silnejšie, ale vyžadujú, aby dáta spĺňali isté podmienky.

Nina: A aká je tá hlavná podmienka?

Filip: Najčastejšie je to takzvané normálne rozdelenie dát. To si musíš overiť špeciálnym testom, napríklad Shapiro-Wilkovým testom. Ak tvoje dáta túto podmienku nespĺňajú, musíš siahnuť po neparametrických testoch.

Nina: Takže neparametrické testy sú také benevolentnejšie, pre horšie dáta?

Filip: Dá sa to tak povedať. Sú robustnejšie a nezaujíma ich tak veľmi, ako sú dáta rozdelené. Každý parametrický test má svoju neparametrickú dvojičku.

Nina: Môžeš mi dať nejaký konkrétny príklad? Nech si to viem predstaviť.

Filip: Jasné. Povedzme, že chceš porovnať priemerný plat mužov a žien. Máš dve nezávislé skupiny. Ak dáta spĺňajú podmienky, použiješ parametrický Studentov t-test.

Nina: A ak ich nespĺňajú?

Filip: Ak ich nespĺňajú, siahneš po jeho neparametrickej alternatíve, ktorou je Mann-Whitneyov U-test. Výsledok ti povie to isté – či je medzi platmi štatisticky významný rozdiel.

Nina: A čo ak by som mala skupín viac? Napríklad by som porovnávala platy v Bratislave, Košiciach a Banskej Bystrici?

Filip: Vtedy by si namiesto t-testu použila test zvaný ANOVA. A jeho neparametrická dvojička sa volá Kruskal-Wallisov test. Princíp je vždy rovnaký, len nástroj je iný.

Nina: Perfektné, začína mi to do seba zapadať. Takže zhrnuté: stanovím hypotézy, vyberiem správny test, pozriem sa na p-hodnotu a rozhodnem. Znie to zvládnuteľne!

Filip: Presne tak. Ale zatiaľ sme sa bavili len o číselných dátach. Nabudúce sa pozrieme na to, ako zistiť závislosť medzi premennými, ktoré sú vyjadrené slovne. Napríklad... súvisí pohlavie s obľúbenou farbou?

Nina: Takže, Filip, minule si spomenul tú otázku... súvisí pohlavie s obľúbenou farbou? Ako by sme na to prišli? To znie presne ako to, čomu hovoríme korelácia.

Filip: Si veľmi blízko! Ale v štatistike sme presní. Keď zisťujeme závislosť medzi slovnými premennými ako farba a pohlavie, voláme to kontingencia. Korelácia je pre číselné, kvantitatívne dáta.

Nina: Aha, takže rôzne typy dát majú vlastné kluby a názvy. Ale princíp je rovnaký, však? Zistiť, či spolu nejako súvisia?

Filip: Presne tak. Dnes sa pozrieme na tú najznámejšiu partiu — klasickú koreláciu. Teda, ako spolu súvisia dve číselné veci.

Nina: Dobre, tak poďme na to. Ako to funguje v praxi? Počula som o pozitívnej a negatívnej korelácii.

Filip: Je to úplne intuitívne. Predstav si predaj zmrzliny a vonkajšiu teplotu. Čím je teplejšie, tým viac zmrzliny predáš. Obe hodnoty spolu rastú. To je pozitívna korelácia.

Nina: Jasné, to dáva zmysel. A negatívna je opak?

Filip: Presne. Čím viac hodín denne cvičíš, tým menej času ti zostane na pozeranie filmov. Jedna hodnota rastie, druhá klesá. To je negatívna korelácia.

Nina: Takže je to ako hojdačka. Keď ide jeden hore, druhý musí ísť dole.

Filip: Perfektné prirovnanie! Presne taký jednoduchý vzťah to v základe je.

Nina: A ako tú silu vzťahu vlastne zmeriame? Existuje na to nejaké konkrétne číslo?

Filip: Áno, a to je kľúčové. Najčastejšie sa používa Pearsonov korelačný koeficient. Označujeme ho písmenom 'r'.

Nina: Dobre, a čo mi to 'r' povie?

Filip: Jeho hodnota je vždy v rozmedzí od mínus jedna do plus jedna. Čím bližšie je k plus jednotke, tým je pozitívny vzťah silnejší. Ako naša zmrzlina a teplota.

Nina: A čím bližšie k mínus jednotke, tým je silnejší ten negatívny, hojdačkový vzťah?

Filip: Presne tak. A ak je hodnota okolo nuly, znamená to, že medzi premennými nie je *lineárna* závislosť. Ale pozor... to neznamená, že nie sú závislé vôbec!

Nina: Počkaj, ako je to možné?

Filip: Pearson dobre meria iba vzťahy, ktoré tvoria priamku. Ak by vzťah tvoril napríklad oblúk, Pearson by ho nemusel odhaliť. Je trochu... krátkozraký.

Nina: Čo teda robíme, ak naše dáta nie sú dokonalé alebo vzťah netvorí peknú priamku?

Filip: Vtedy na scénu prichádza jeho kolega — Spearmanov koeficient poradovej korelácie. Je to taký štatistický superhrdina.

Nina: Prečo superhrdina?

Filip: Lebo je oveľa odolnejší voči extrémnym, odľahlým hodnotám. Nepracuje totiž priamo s číslami, ale s ich poradím. Je mu jedno, či je najvyššia hodnota 100 alebo 1000, stále je pre neho prvá v poradí.

Nina: To je šikovné. Takže zhrnuté: Pearson pre pekné, učebnicové dáta. A Spearman, keď sú dáta trochu divokejšie alebo sú vyjadrené len poradím, ako napríklad známky v škole.

Filip: Perfektné zhrnutie. A pri oboch potom ešte testujeme, či je tá korelácia štatisticky významná. Použijeme na to rovnaký princíp s p-hodnotou, o ktorom sme hovorili minule.

Nina: Super, už v tom mám oveľa jasnejšie. Takže vieme zmerať, ako silno spolu veci súvisia. A čo ďalej? Vieme z jednej veci predpovedať tú druhú?

Filip: Chytáš sa! Presne tam mierime. Nabudúce sa pozrieme na regresnú analýzu, ktorá robí presne toto. Je to ako mať krištáľovú guľu, ale podloženú matematikou.

Nina: Krištáľová guľa podložená matematikou? Tak to znie parádne! Pusti ma do toho, čo presne je tá regresná analýza?

Filip: Predstav si, že korelácia nám povedala, že medzi učením a známkami je silný vzťah. Regresia ide o krok ďalej. Snaží sa ten vzťah presne opísať jednou čiarou.

Nina: Čiarou? Akože v grafe, kde máme všetky naše dáta ako bodky?

Filip: Presne tak. Cieľom je nájsť tú najlepšiu možnú priamku, ktorá sa najviac hodí k tým bodkám. Takú, ktorá je od nich všetkých v priemere čo najbližšie.

Nina: A ako ju nájdeme? To asi len tak neodhadneme pohľadom, že?

Filip: To veru nie. Používame na to takzvanú metódu najmenších štvorcov. Znie to zložito, ale v podstate len minimalizuje celkovú vzdialenosť všetkých bodov od tej našej priamky.

Nina: Dobre, takže máme čiaru. Čo nám tá čiara povie? Spomínal si nejaké koeficienty.

Filip: Áno. Každá priamka má dva kľúčové parametre, ktoré odhadujeme. Označujeme ich b0 a b1. B0 je vlastne bod, kde naša priamka pretne zvislú os y.

Nina: Počkaj, takže ak by sme sa pozerali na vzťah hodín učenia a známky... b0 by bola známka, ktorú dostanem, ak sa neučím ani minútu?

Filip: Teoreticky áno, je to taká naša štartovacia čiara. A potom je tu b1, a to je to najdôležitejšie. Hovorí nám, o koľko sa v priemere zmení y, keď sa x zmení o jeden bod.

Nina: Takže b1 mi povie, o koľko sa mi zlepší známka za každú jednu hodinu učenia navyše?

Filip: Presne! Ak je b1 kladné, priamka stúpa – viac učenia znamená lepšiu známku. Ak by bolo záporné, priamka by klesala.

Nina: Super, tomu rozumiem. Ale čo ak na známku vplýva viac vecí? Napríklad aj to, koľko hodín som spala.

Filip: Skvelá otázka! Vtedy prejdeme od jednoduchej regresie k takzvanej viacnásobnej regresii. Do modelu jednoducho pridáme viac nezávislých premenných – viac našich x.

Nina: Takže budeme mať jedno y – známku – ale viacero x, ako učenie a spánok. A každé x bude mať svoj vlastný koeficient?

Filip: Presne tak. Každý koeficient nám potom povie, aký vplyv má daná premenná, ak všetky ostatné ostanú nezmenené. Ale pozor, nemôžeme tam dať hocičo.

Nina: Ako to myslíš?

Filip: Nechceme, aby naše premenné boli príliš podobné. Napríklad merať učenie v hodinách a zároveň v minútach. To by model len zmiatlo. Volá sa to multikolinearita.

Nina: Zase ďalší cudzí pojem! Ale rozumiem, nedávať do predpovede dvakrát tú istú informáciu.

Filip: Perfektne si to zhrnula. A rovnako ako pri korelácii, aj tu testujeme, či sú naše koeficienty štatisticky významné. Teda či sa naozaj líšia od nuly.

Nina: Jasné, lebo ak by sa koeficient rovnal nule, znamenalo by to, že daná premenná nemá na výsledok žiadny lineárny vplyv.

Filip: Presne tak. A to je celé kúzlo. Z dát vieme vytvoriť model, ktorý nielen popisuje vzťahy, ale ich aj dokáže predpovedať.

Nina: Takže aby som to zhrnula za celú našu sériu... korelácia nám ukázala, *či* veci spolu súvisia a ako silno. A regresia nám ukázala *ako* presne a dovolí nám predpovedať. Fantastické!

Filip: Krásne zhrnutie. Od sily vzťahu sme sa dostali k jeho popisu a ku krištáľovej guli predikcie.

Nina: Filip, veľmi pekne ti ďakujem za všetky vysvetlenia. Myslím, že si nám štatistiku urobil oveľa zrozumiteľnejšou a menej strašidelnou.

Filip: Rado sa stalo, Nina. A ďakujem za pozvanie.

Nina: Našim poslucháčom tiež ďakujeme za pozornosť a dúfame, že vám to pomohlo. Počujeme sa pri ďalšej epizóde Studyfi Podcastu!