Shrnutí na Moderní regresní metody v ekologických datech

Moderní regresní metody v ekologii: Průvodce pro studenty

Shrnutí Test znalostí Kartičky Podcast Myšlenková mapa

Úvod

Kurz se zaměřuje na regresní modely používané v ekologii a na to, kdy a proč je použít. Cílem je naučit se rozeznat, jaký model je vhodný pro konkrétní typ dat, jaké předpoklady modely vyžadují a jak interpretovat výsledky tak, aby měly biologický smysl.

Definice: Regresní model je statistický nástroj pro popis vztahu mezi závislou proměnnou a jednou nebo více nezávislými proměnnými.

Základní myšlenka

Regresní model = vztah mezi proměnnými. Typicky jde o to, jak faktor ovlivňuje odpověď, např. teplota → růst, pH → abundanci, disturbance → diverzitu.

Obsah kurzu (shrnutí)

Lineární modely (LM)
Generalized Linear Models (GLM)
Generalized Additive Models (GAM)
Mixed-effect models
Survival analysis

Všechny tyto nástroje řeší situace, kdy klasická lineární regrese nestačí.

1. Lineární model (LM)

Princip

Snažíte se vysvětlit závislou proměnnou pomocí nezávislých proměnných. Např. $\text{biomasa} \sim \text{teplota}$, $\text{abundance} \sim \text{vlhkost}$.

Definice: Lineární model předpokládá, že vztah mezi prediktory a očekávanou hodnotou odpovědi je lineární, tj. $E(y) = \beta_0 + \beta_1 x_1 + \dots + \beta_p x_p$.

Rovnice a komponenty

Intercept $\beta_0$ — hodnota očekávané odpovědi při nulových prediktorech.
Slope $\beta_i$ — změna v očekávané odpovědi při jedné jednotce změny prediktoru $x_i$.
Residuals — odchylky pozorovaných hodnot od předpovězených.

Zásadní předpoklady LM

Normalita reziduí (ne dat!).
Homoskedasticita — konstantní variance reziduí.
Nezávislost pozorování.
Linearita vztahu mezi prediktory a odpovědí.

💡 Věděli jste?Zajímavost: ANOVA je speciální případ lineárního modelu, kde jsou prediktory kategoriální (faktory), takže mnoho testů lze chápat v rámci jedné obecné teorie.

2. Generalized Linear Models (GLM)

Proč GLM?

Ekologická data často nejsou normální: početní data, proporce, mnoho nul. GLM umožňují modelovat jiné distribuční zákony než normální a zavádějí link funkci.

Definice: GLM se skládá ze tří částí — náhodná složka (distribuce odpovědi), systematická složka (lineární prediktor) a link funkce spojující střední hodnotu odpovědi s lineárním prediktorem.

Struktura

Náhodná složka: volba distributu (Gaussian, Binomial, Poisson, aj.).
Systematická složka: $\eta = \beta_0 + \beta_1 x_1 + \dots$.
Link function $g(\cdot)$: $g(E(y)) = \eta$.

Důležité distribuce a příklady

Distribuce	Typ dat	Příklady	Link funkce
Gaussian	spojitá, normální	biomasa, délka	identity
Binomial	proporce, presence/absence	přežil/nepřežil	logit
Poisson	count data	počet jedinců, návštěv	log

Logistická regrese (Binomial + logit)

Musíte chápat pravděpodobnosti, odds a logit transformaci: $\text{logit}(p)=\log\left(\dfrac{p}{1-p}\right)$.

Poisson GLM

Pro count data se často používá log link: $\log(E(y)) = \eta$. U Poissonu platí, že variance = mean; pokud variance > mean, jde o overdispersion.

Definice: Overdispersion nastává, když variance dat převyšuje střední hodnotu; u Poisson modelu to porušuje předpoklad equality variance a mean.

Řešení overdisperze: použít quasi-Poisson nebo negative binomial.

3. Model selection

AIC a volba modelu

AIC měří kompromis mezi kvalitou fitu a složitostí modelu. Menší AIC znamená lepší model relativně mezi kandidáty. Neznamená to „více proměnných je lepší“.

P-values vs effect size

Statistická významnost není totéž co biologická významnost. Sledujte velikost efektu a intervaly spolehlivosti.

Multicollinearity

Když jsou prediktory vzájemně korelované, koeficienty mohou být nestabilní a interpretace zavádějící. Diagnostika: VIF (variance inflation factor).

4. GAM — Generalized Additive Models

Princip

Místo předpokladu lineárního vztahu používá GAM hladké funkce: $g(E(y)) = \beta_0 + s_1(x_1) + s_2(x_2) + \dots$.

Definice: GAM modeluje vztahy pomocí aditivních hladkých funkcí $s_i(\cdot)$, které

Zaregistruj se pro celé shrnutí

KartičkyTest znalostíShrnutíPodcastMyšlenková mapa

Začni zdarma

Už máš účet? Přihlásit se

Regresní modely v ekologii

Klíčová slova: Regresní modely v ekologii, Ekologická statistika

Klíčové pojmy: Regresní model vysvětluje vztah mezi proměnnými., LM předpokládá linearitu, normalitu reziduí, homoskedasticitu a nezávislost., GLM používá różné distribuce a link funkce (např. logit, log)., Pro count data použij Poisson nebo negative binomial při overdisperzi., AIC porovnává fit a složitost; menší AIC = lepší model mezi kandidáty., Multicollinearity řeší VIF a zhoršuje interpretaci koeficientů., GAM modeluje nelineární vztahy pomocí hladkých funkcí $s(\cdot)$., Mixed models zahrnují random efekty k zohlednění hierarchie/pseudoreplikace., Survival analysis řeší censored data a používá Kaplan–Meier a Cox model., Vždy kontroluj předpoklady modelu před interpretací výsledků.

## Úvod Kurz se zaměřuje na regresní modely používané v ekologii a na to, kdy a proč je použít. Cílem je naučit se rozeznat, jaký model je vhodný pro konkrétní typ dat, jaké předpoklady modely vyžadují a jak interpretovat výsledky tak, aby měly biologický smysl. > Definice: Regresní model je statistický nástroj pro popis vztahu mezi závislou proměnnou a jednou nebo více nezávislými proměnnými. ## Základní myšlenka Regresní model = vztah mezi proměnnými. Typicky jde o to, jak faktor ovlivňuje odpověď, např. teplota → růst, pH → abundanci, disturbance → diverzitu. ## Obsah kurzu (shrnutí) - **Lineární modely (LM)** - **Generalized Linear Models (GLM)** - **Generalized Additive Models (GAM)** - **Mixed-effect models** - **Survival analysis** Všechny tyto nástroje řeší situace, kdy klasická lineární regrese nestačí. ## 1. Lineární model (LM) ### Princip Snažíte se vysvětlit závislou proměnnou pomocí nezávislých proměnných. Např. $\text{biomasa} \sim \text{teplota}$, $\text{abundance} \sim \text{vlhkost}$. > Definice: Lineární model předpokládá, že vztah mezi prediktory a očekávanou hodnotou odpovědi je lineární, tj. $E(y) = \beta_0 + \beta_1 x_1 + \dots + \beta_p x_p$. ### Rovnice a komponenty - **Intercept** $\beta_0$ — hodnota očekávané odpovědi při nulových prediktorech. - **Slope** $\beta_i$ — změna v očekávané odpovědi při jedné jednotce změny prediktoru $x_i$. - **Residuals** — odchylky pozorovaných hodnot od předpovězených. ### Zásadní předpoklady LM 1. Normalita reziduí (ne dat!). 2. Homoskedasticita — konstantní variance reziduí. 3. Nezávislost pozorování. 4. Linearita vztahu mezi prediktory a odpovědí. > Zajímavost: ANOVA je speciální případ lineárního modelu, kde jsou prediktory kategoriální (faktory), takže mnoho testů lze chápat v rámci jedné obecné teorie. ## 2. Generalized Linear Models (GLM) ### Proč GLM? Ekologická data často nejsou normální: početní data, proporce, mnoho nul. GLM umožňují modelovat jiné distribuční zákony než normální a zavádějí link funkci. > Definice: GLM se skládá ze tří částí — náhodná složka (distribuce odpovědi), systematická složka (lineární prediktor) a link funkce spojující střední hodnotu odpovědi s lineárním prediktorem. ### Struktura 1. Náhodná složka: volba distributu (Gaussian, Binomial, Poisson, aj.). 2. Systematická složka: $\eta = \beta_0 + \beta_1 x_1 + \dots$. 3. Link function $g(\cdot)$: $g(E(y)) = \eta$. ### Důležité distribuce a příklady | Distribuce | Typ dat | Příklady | Link funkce | |---|---:|---|---| | Gaussian | spojitá, normální | biomasa, délka | identity | | Binomial | proporce, presence/absence | přežil/nepřežil | logit | | Poisson | count data | počet jedinců, návštěv | log | #### Logistická regrese (Binomial + logit) Musíte chápat pravděpodobnosti, odds a logit transformaci: $\text{logit}(p)=\log\left(\dfrac{p}{1-p}\right)$. #### Poisson GLM Pro count data se často používá log link: $\log(E(y)) = \eta$. U Poissonu platí, že variance = mean; pokud variance > mean, jde o overdispersion. > Definice: Overdispersion nastává, když variance dat převyšuje střední hodnotu; u Poisson modelu to porušuje předpoklad equality variance a mean. Řešení overdisperze: použít quasi-Poisson nebo negative binomial. ## 3. Model selection ### AIC a volba modelu AIC měří kompromis mezi kvalitou fitu a složitostí modelu. Menší AIC znamená lepší model relativně mezi kandidáty. Neznamená to „více proměnných je lepší“. ### P-values vs effect size Statistická významnost není totéž co biologická významnost. Sledujte velikost efektu a intervaly spolehlivosti. ### Multicollinearity Když jsou prediktory vzájemně korelované, koeficienty mohou být nestabilní a interpretace zavádějící. Diagnostika: VIF (variance inflation factor). ## 4. GAM — Generalized Additive Models ### Princip Místo předpokladu lineárního vztahu používá GAM hladké funkce: $g(E(y)) = \beta_0 + s_1(x_1) + s_2(x_2) + \dots$. > Definice: GAM modeluje vztahy pomocí aditivních hladkých funkcí $s_i(\cdot)$, které

Shrnutí na Moderní regresní metody v ekologických datech

Moderní regresní metody v ekologii: Průvodce pro studenty

Shrnutí Test znalostí Kartičky Podcast Myšlenková mapa

Úvod

Definice: Regresní model je statistický nástroj pro popis vztahu mezi závislou proměnnou a jednou nebo více nezávislými proměnnými.

Základní myšlenka

Regresní model = vztah mezi proměnnými. Typicky jde o to, jak faktor ovlivňuje odpověď, např. teplota → růst, pH → abundanci, disturbance → diverzitu.

Obsah kurzu (shrnutí)

Lineární modely (LM)
Generalized Linear Models (GLM)
Generalized Additive Models (GAM)
Mixed-effect models
Survival analysis

Všechny tyto nástroje řeší situace, kdy klasická lineární regrese nestačí.

1. Lineární model (LM)

Princip

Snažíte se vysvětlit závislou proměnnou pomocí nezávislých proměnných. Např. $\text{biomasa} \sim \text{teplota}$, $\text{abundance} \sim \text{vlhkost}$.

Definice: Lineární model předpokládá, že vztah mezi prediktory a očekávanou hodnotou odpovědi je lineární, tj. $E(y) = \beta_0 + \beta_1 x_1 + \dots + \beta_p x_p$.

Rovnice a komponenty

Intercept $\beta_0$ — hodnota očekávané odpovědi při nulových prediktorech.
Slope $\beta_i$ — změna v očekávané odpovědi při jedné jednotce změny prediktoru $x_i$.
Residuals — odchylky pozorovaných hodnot od předpovězených.

Zásadní předpoklady LM

Normalita reziduí (ne dat!).
Homoskedasticita — konstantní variance reziduí.
Nezávislost pozorování.
Linearita vztahu mezi prediktory a odpovědí.

💡 Věděli jste?Zajímavost: ANOVA je speciální případ lineárního modelu, kde jsou prediktory kategoriální (faktory), takže mnoho testů lze chápat v rámci jedné obecné teorie.

2. Generalized Linear Models (GLM)

Proč GLM?

Ekologická data často nejsou normální: početní data, proporce, mnoho nul. GLM umožňují modelovat jiné distribuční zákony než normální a zavádějí link funkci.

Definice: GLM se skládá ze tří částí — náhodná složka (distribuce odpovědi), systematická složka (lineární prediktor) a link funkce spojující střední hodnotu odpovědi s lineárním prediktorem.

Struktura

Náhodná složka: volba distributu (Gaussian, Binomial, Poisson, aj.).
Systematická složka: $\eta = \beta_0 + \beta_1 x_1 + \dots$.
Link function $g(\cdot)$: $g(E(y)) = \eta$.

Důležité distribuce a příklady

Distribuce	Typ dat	Příklady	Link funkce
Gaussian	spojitá, normální	biomasa, délka	identity
Binomial	proporce, presence/absence	přežil/nepřežil	logit
Poisson	count data	počet jedinců, návštěv	log

Logistická regrese (Binomial + logit)

Musíte chápat pravděpodobnosti, odds a logit transformaci: $\text{logit}(p)=\log\left(\dfrac{p}{1-p}\right)$.

Poisson GLM

Pro count data se často používá log link: $\log(E(y)) = \eta$. U Poissonu platí, že variance = mean; pokud variance > mean, jde o overdispersion.

Definice: Overdispersion nastává, když variance dat převyšuje střední hodnotu; u Poisson modelu to porušuje předpoklad equality variance a mean.

Řešení overdisperze: použít quasi-Poisson nebo negative binomial.

3. Model selection

AIC a volba modelu

AIC měří kompromis mezi kvalitou fitu a složitostí modelu. Menší AIC znamená lepší model relativně mezi kandidáty. Neznamená to „více proměnných je lepší“.

P-values vs effect size

Statistická významnost není totéž co biologická významnost. Sledujte velikost efektu a intervaly spolehlivosti.

Multicollinearity

Když jsou prediktory vzájemně korelované, koeficienty mohou být nestabilní a interpretace zavádějící. Diagnostika: VIF (variance inflation factor).

4. GAM — Generalized Additive Models

Princip

Místo předpokladu lineárního vztahu používá GAM hladké funkce: $g(E(y)) = \beta_0 + s_1(x_1) + s_2(x_2) + \dots$.

Definice: GAM modeluje vztahy pomocí aditivních hladkých funkcí $s_i(\cdot)$, které

Zaregistruj se pro celé shrnutí

KartičkyTest znalostíShrnutíPodcastMyšlenková mapa

Začni zdarma

Už máš účet? Přihlásit se

Regresní modely v ekologii

Klíčová slova: Regresní modely v ekologii, Ekologická statistika