Moderní regresní metody v ekologii: Průvodce pro studenty
Kurz se zaměřuje na regresní modely používané v ekologii a na to, kdy a proč je použít. Cílem je naučit se rozeznat, jaký model je vhodný pro konkrétní typ dat, jaké předpoklady modely vyžadují a jak interpretovat výsledky tak, aby měly biologický smysl.
Definice: Regresní model je statistický nástroj pro popis vztahu mezi závislou proměnnou a jednou nebo více nezávislými proměnnými.
Regresní model = vztah mezi proměnnými. Typicky jde o to, jak faktor ovlivňuje odpověď, např. teplota → růst, pH → abundanci, disturbance → diverzitu.
Všechny tyto nástroje řeší situace, kdy klasická lineární regrese nestačí.
Snažíte se vysvětlit závislou proměnnou pomocí nezávislých proměnných. Např. $\text{biomasa} \sim \text{teplota}$, $\text{abundance} \sim \text{vlhkost}$.
Definice: Lineární model předpokládá, že vztah mezi prediktory a očekávanou hodnotou odpovědi je lineární, tj. $E(y) = \beta_0 + \beta_1 x_1 + \dots + \beta_p x_p$.
💡 Věděli jste?Zajímavost: ANOVA je speciální případ lineárního modelu, kde jsou prediktory kategoriální (faktory), takže mnoho testů lze chápat v rámci jedné obecné teorie.
Ekologická data často nejsou normální: početní data, proporce, mnoho nul. GLM umožňují modelovat jiné distribuční zákony než normální a zavádějí link funkci.
Definice: GLM se skládá ze tří částí — náhodná složka (distribuce odpovědi), systematická složka (lineární prediktor) a link funkce spojující střední hodnotu odpovědi s lineárním prediktorem.
| Distribuce | Typ dat | Příklady | Link funkce |
|---|---|---|---|
| Gaussian | spojitá, normální | biomasa, délka | identity |
| Binomial | proporce, presence/absence | přežil/nepřežil | logit |
| Poisson | count data | počet jedinců, návštěv | log |
Musíte chápat pravděpodobnosti, odds a logit transformaci: $\text{logit}(p)=\log\left(\dfrac{p}{1-p}\right)$.
Pro count data se často používá log link: $\log(E(y)) = \eta$. U Poissonu platí, že variance = mean; pokud variance > mean, jde o overdispersion.
Definice: Overdispersion nastává, když variance dat převyšuje střední hodnotu; u Poisson modelu to porušuje předpoklad equality variance a mean.
Řešení overdisperze: použít quasi-Poisson nebo negative binomial.
AIC měří kompromis mezi kvalitou fitu a složitostí modelu. Menší AIC znamená lepší model relativně mezi kandidáty. Neznamená to „více proměnných je lepší“.
Statistická významnost není totéž co biologická významnost. Sledujte velikost efektu a intervaly spolehlivosti.
Když jsou prediktory vzájemně korelované, koeficienty mohou být nestabilní a interpretace zavádějící. Diagnostika: VIF (variance inflation factor).
Místo předpokladu lineárního vztahu používá GAM hladké funkce: $g(E(y)) = \beta_0 + s_1(x_1) + s_2(x_2) + \dots$.
Definice: GAM modeluje vztahy pomocí aditivních hladkých funkcí $s_i(\cdot)$, které
Už máš účet? Přihlásit se
Klíčová slova: Regresní modely v ekologii, Ekologická statistika
Klíčové pojmy: Regresní model vysvětluje vztah mezi proměnnými., LM předpokládá linearitu, normalitu reziduí, homoskedasticitu a nezávislost., GLM používá różné distribuce a link funkce (např. logit, log)., Pro count data použij Poisson nebo negative binomial při overdisperzi., AIC porovnává fit a složitost; menší AIC = lepší model mezi kandidáty., Multicollinearity řeší VIF a zhoršuje interpretaci koeficientů., GAM modeluje nelineární vztahy pomocí hladkých funkcí $s(\cdot)$., Mixed models zahrnují random efekty k zohlednění hierarchie/pseudoreplikace., Survival analysis řeší censored data a používá Kaplan–Meier a Cox model., Vždy kontroluj předpoklady modelu před interpretací výsledků.