Shrnutí na Statistické modelování a detekce anomálií

Statistické modelování a detekce anomálií: Průvodce GMM

Shrnutí Test znalostí Kartičky Podcast Myšlenková mapa

Úvod

Tento materiál představuje základní pojmy a praktické použití hustoty pravděpodobnosti a normálního (Gaussova) rozdělení. Cílem je vysvětlit, jak z naměřených dat vytváříme spojité modely pravděpodobnosti, jak interpretovat histogramy a jak pracovat s normálním rozdělením v praxi.

Definice: Hustota pravděpodobnosti je funkce $f(x)$ taková, že pravděpodobnost, že spojitá náhodná veličina $X$ leží v intervalu $[a,b]$, je dána plochou pod křivkou: $$P(a,b)=\int_{a}^{b} f(x),dx.$$

1. Zobecnění a motivace

Reálné systémy často nelze popsat přesně; pracujeme s omezenými nebo částečnými měřeními.
Z dostupných signálů odvozujeme rozdělení náhodné veličiny, které pak využíváme k modelování a simulaci.

Histogram jako první krok

Histogram zobrazuje četnost výskytu hodnot v datech a slouží jako diskrétní přiblížení hustoty.
Doporučený počet tříd histogramu: $k \approx 2{,}46 \cdot (N-1)^{0{,}4}$ nebo $k \approx \sqrt{N}$, kde $N$ je počet měření.
Histogram nám pomůže posoudit normalitu, symetrii, vícemodálnost a odlehlé hodnoty.

Definice: Histogram je rozdělení dat do tříd (binů) s vodorovnou osou pro hodnoty a svislou osou pro četnosti; plocha každého sloupce odpovídá četnosti dané třídy.

2. Hustota pravděpodobnosti (Probability Density Function)

Základní vlastnosti

Pro spojitou náhodnou veličinu $X$ existuje funkce $f(x)$ taková, že $$f(x)=\lim_{\Delta x\to 0}\frac{P(x,x+\Delta x)}{\Delta x}.$$
Celková pravděpodobnost je 1: $$\int_{-\infty}^{\infty} f(x),dx=1.$$
Pravděpodobnost v intervalu: $$P(a,b)=\int_{a}^{b} f(x),dx.$$

Distribuční funkce

Distribuční funkce $F(x)$ je antiderivací hustoty: $$F(x)=\int_{-\infty}^{x} f(t),dt.$$
Vlastnosti $F(x)$: je neklesající, $\lim_{x\to -\infty}F(x)=0$, $\lim_{x\to +\infty}F(x)=1$.

3. Normální (Gaussovo) rozdělení

Definice: Normální rozdělení s parametry $\mu$ a $\sigma$ má hustotu $$f(x)=\frac{1}{\sigma\sqrt{2\pi}}\exp\left( -\frac{(x-\mu)^2}{2\sigma^2} \right).$$

Vysvětlení parametrů

$\mu$ je střední hodnota a zároveň poloha maxima křivky.
$\sigma$ je směrodatná odchylka; větší $\sigma$ znamená širší a nižší křivku tak, aby plocha zůstala 1.

Vlastnosti normálního rozdělení

Symetrie kolem $\mu$.
Aproximuje mnoho přírodních jevů (chyby měření, biologické veličiny, IQ v populaci) díky centrální limitní větě.
Přesné pravděpodobnosti mezi body počítáme pomocí integrálů hustoty; v praxi se používají tabulky nebo funkce CDF.

Praktické použití

Modelování chyb měření: rozdíl mezi skutečnou a pozorovanou hodnotou často považujeme za normální.
Testování hypotéz a intervaly spolehlivosti v inferenci.
Simulace náhodných veličin v Monte Carlo metodách.

Definice: Standardní normální rozdělení má $\mu=0$, $\sigma=1$ a hustotu $$\varphi(z)=\frac{1}{\sqrt{2\pi}}\exp\left(-\frac{z^2}{2}\right).$$

Příklady

Měření délky součástky: naměřené odchylky od nominální délky $\approx$ normálně rozdělené s $\mu=0$, odhadnuté $\sigma$ z dat.
Výška dospělých v populaci: pokud je data symetrická a jednovrcholová, lze je aproximovat normálem a spočítat procenta nad/pod určitou hodnotou pomocí CDF.

Porovnání s výběrovými statistikami (tabulka)

Početnost dat	Histogram	Hustota (PDF)
Typ	diskrétní přiblížení	spojitá funkce
Údaj	četnost v binu	hodnota $f(x)$ (není pravděpodobností pro bod)
Použití	rychlá vizualizace	výpočty pravděpodobností a inference

4. Jak určovat, zda jsou data normální

Graficky: histogram, Q-Q plot (kvantil-kvantil) porovnávající kvantily dat s kvantily normálního rozdělení.
Statistické testy: Shapiro-Wilk, Kolmogorov-Smirnov (pozor na citlivost vůči velikosti vzorku).
Praktické kroky:
1. Vykreslete histogram a Q-Q plot.
2. Odhadněte $\mu$ a $\sigma$ z dat (průměr a směrodatná odchylka výběru).
3. Proveďte test normality a zvažte vliv odlehlých hodnot.

💡 Věděli jste?Did you know that the central limit theorem states that the s

Zaregistruj se pro celé shrnutí

KartičkyTest znalostíShrnutíPodcastMyšlenková mapa

Začni zdarma

Už máš účet? Přihlásit se

Hustota pravděpodobnosti a normální rozdělení

Klíčová slova: Hustota pravděpodobnosti a normální rozdělení, Gaussovská směs (GMM), Detekce anomálií pomocí GMM

Klíčové pojmy: Histogram ukazuje četnost hodnot a slouží jako diskrétní přiblížení hustoty, Počet binů: $k\approx2{,}46\cdot(N-1)^{0{,}4}$ nebo $k\approx\sqrt{N}$, Hustota $f(x)$ splňuje $\int_{-\infty}^{\infty} f(x)\,dx=1$, Pravděpodobnost v intervalu: $P(a,b)=\int_{a}^{b} f(x)\,dx$, Distribuční funkce: $F(x)=\int_{-\infty}^{x} f(t)\,dt$, Normální hustota: $f(x)=\dfrac{1}{\sigma\sqrt{2\pi}}\exp\left(-\dfrac{(x-\mu)^2}{2\sigma^2}\right)$, Standardní normál: $\varphi(z)=\dfrac{1}{\sqrt{2\pi}}\exp\left(-\dfrac{z^2}{2}\right)$, Transformace: pokud $Z\sim N(0,1)$, pak $X=\mu+\sigma Z\sim N(\mu,\sigma^2)$, Použijte Q-Q plot a testy (Shapiro-Wilk) pro kontrolu normality, Hodnota $f(x)$ není pravděpodobnost bodu, pravděpodobnost je plocha pod křivkou

## Úvod Tento materiál představuje základní pojmy a praktické použití **hustoty pravděpodobnosti** a **normálního (Gaussova) rozdělení**. Cílem je vysvětlit, jak z naměřených dat vytváříme spojité modely pravděpodobnosti, jak interpretovat histogramy a jak pracovat s normálním rozdělením v praxi. > **Definice:** Hustota pravděpodobnosti je funkce $f(x)$ taková, že pravděpodobnost, že spojitá náhodná veličina $X$ leží v intervalu $[a,b]$, je dána plochou pod křivkou: $$P(a,b)=\int_{a}^{b} f(x)\,dx.$$ ## 1. Zobecnění a motivace - Reálné systémy často nelze popsat přesně; pracujeme s omezenými nebo částečnými měřeními. - Z dostupných signálů odvozujeme rozdělení náhodné veličiny, které pak využíváme k modelování a simulaci. ### Histogram jako první krok - Histogram zobrazuje četnost výskytu hodnot v datech a slouží jako diskrétní přiblížení hustoty. - Doporučený počet tříd histogramu: $k \approx 2{,}46 \cdot (N-1)^{0{,}4}$ nebo $k \approx \sqrt{N}$, kde $N$ je počet měření. - Histogram nám pomůže posoudit normalitu, symetrii, vícemodálnost a odlehlé hodnoty. > **Definice:** Histogram je rozdělení dat do tříd (binů) s vodorovnou osou pro hodnoty a svislou osou pro četnosti; plocha každého sloupce odpovídá četnosti dané třídy. ## 2. Hustota pravděpodobnosti (Probability Density Function) ### Základní vlastnosti - Pro spojitou náhodnou veličinu $X$ existuje funkce $f(x)$ taková, že $$f(x)=\lim_{\Delta x\to 0}\frac{P(x,x+\Delta x)}{\Delta x}.$$ - Celková pravděpodobnost je 1: $$\int_{-\infty}^{\infty} f(x)\,dx=1.$$ - Pravděpodobnost v intervalu: $$P(a,b)=\int_{a}^{b} f(x)\,dx.$$ ### Distribuční funkce - Distribuční funkce $F(x)$ je antiderivací hustoty: $$F(x)=\int_{-\infty}^{x} f(t)\,dt.$$ - Vlastnosti $F(x)$: je neklesající, $\lim_{x\to -\infty}F(x)=0$, $\lim_{x\to +\infty}F(x)=1$. ## 3. Normální (Gaussovo) rozdělení > **Definice:** Normální rozdělení s parametry $\mu$ a $\sigma$ má hustotu $$f(x)=\frac{1}{\sigma\sqrt{2\pi}}\exp\left( -\frac{(x-\mu)^2}{2\sigma^2} \right).$$ ### Vysvětlení parametrů - $\mu$ je střední hodnota a zároveň poloha maxima křivky. - $\sigma$ je směrodatná odchylka; větší $\sigma$ znamená širší a nižší křivku tak, aby plocha zůstala 1. ### Vlastnosti normálního rozdělení - Symetrie kolem $\mu$. - Aproximuje mnoho přírodních jevů (chyby měření, biologické veličiny, IQ v populaci) díky centrální limitní větě. - Přesné pravděpodobnosti mezi body počítáme pomocí integrálů hustoty; v praxi se používají tabulky nebo funkce CDF. ### Praktické použití - Modelování chyb měření: rozdíl mezi skutečnou a pozorovanou hodnotou často považujeme za normální. - Testování hypotéz a intervaly spolehlivosti v inferenci. - Simulace náhodných veličin v Monte Carlo metodách. > **Definice:** Standardní normální rozdělení má $\mu=0$, $\sigma=1$ a hustotu $$\varphi(z)=\frac{1}{\sqrt{2\pi}}\exp\left(-\frac{z^2}{2}\right).$$ ### Příklady 1) Měření délky součástky: naměřené odchylky od nominální délky $\approx$ normálně rozdělené s $\mu=0$, odhadnuté $\sigma$ z dat. 2) Výška dospělých v populaci: pokud je data symetrická a jednovrcholová, lze je aproximovat normálem a spočítat procenta nad/pod určitou hodnotou pomocí CDF. ### Porovnání s výběrovými statistikami (tabulka) | Početnost dat | Histogram | Hustota (PDF) | |---|---:|---:| | Typ | diskrétní přiblížení | spojitá funkce | | Údaj | četnost v binu | hodnota $f(x)$ (není pravděpodobností pro bod) | | Použití | rychlá vizualizace | výpočty pravděpodobností a inference | ## 4. Jak určovat, zda jsou data normální - Graficky: histogram, Q-Q plot (kvantil-kvantil) porovnávající kvantily dat s kvantily normálního rozdělení. - Statistické testy: Shapiro-Wilk, Kolmogorov-Smirnov (pozor na citlivost vůči velikosti vzorku). - Praktické kroky: 1. Vykreslete histogram a Q-Q plot. 2. Odhadněte $\mu$ a $\sigma$ z dat (průměr a směrodatná odchylka výběru). 3. Proveďte test normality a zvažte vliv odlehlých hodnot. Did you know that the central limit theorem states that the s