Hustota pravděpodobnosti a normální rozdělení
Klíčová slova: Hustota pravděpodobnosti a normální rozdělení, Gaussovská směs (GMM), Detekce anomálií pomocí GMM
Klíčové pojmy: Histogram ukazuje četnost hodnot a slouží jako diskrétní přiblížení hustoty, Počet binů: $k\approx2{,}46\cdot(N-1)^{0{,}4}$ nebo $k\approx\sqrt{N}$, Hustota $f(x)$ splňuje $\int_{-\infty}^{\infty} f(x)\,dx=1$, Pravděpodobnost v intervalu: $P(a,b)=\int_{a}^{b} f(x)\,dx$, Distribuční funkce: $F(x)=\int_{-\infty}^{x} f(t)\,dt$, Normální hustota: $f(x)=\dfrac{1}{\sigma\sqrt{2\pi}}\exp\left(-\dfrac{(x-\mu)^2}{2\sigma^2}\right)$, Standardní normál: $\varphi(z)=\dfrac{1}{\sqrt{2\pi}}\exp\left(-\dfrac{z^2}{2}\right)$, Transformace: pokud $Z\sim N(0,1)$, pak $X=\mu+\sigma Z\sim N(\mu,\sigma^2)$, Použijte Q-Q plot a testy (Shapiro-Wilk) pro kontrolu normality, Hodnota $f(x)$ není pravděpodobnost bodu, pravděpodobnost je plocha pod křivkou
## Úvod
Tento materiál představuje základní pojmy a praktické použití **hustoty pravděpodobnosti** a **normálního (Gaussova) rozdělení**. Cílem je vysvětlit, jak z naměřených dat vytváříme spojité modely pravděpodobnosti, jak interpretovat histogramy a jak pracovat s normálním rozdělením v praxi.
> **Definice:** Hustota pravděpodobnosti je funkce $f(x)$ taková, že pravděpodobnost, že spojitá náhodná veličina $X$ leží v intervalu $[a,b]$, je dána plochou pod křivkou: $$P(a,b)=\int_{a}^{b} f(x)\,dx.$$
## 1. Zobecnění a motivace
- Reálné systémy často nelze popsat přesně; pracujeme s omezenými nebo částečnými měřeními.
- Z dostupných signálů odvozujeme rozdělení náhodné veličiny, které pak využíváme k modelování a simulaci.
### Histogram jako první krok
- Histogram zobrazuje četnost výskytu hodnot v datech a slouží jako diskrétní přiblížení hustoty.
- Doporučený počet tříd histogramu: $k \approx 2{,}46 \cdot (N-1)^{0{,}4}$ nebo $k \approx \sqrt{N}$, kde $N$ je počet měření.
- Histogram nám pomůže posoudit normalitu, symetrii, vícemodálnost a odlehlé hodnoty.
> **Definice:** Histogram je rozdělení dat do tříd (binů) s vodorovnou osou pro hodnoty a svislou osou pro četnosti; plocha každého sloupce odpovídá četnosti dané třídy.
## 2. Hustota pravděpodobnosti (Probability Density Function)
### Základní vlastnosti
- Pro spojitou náhodnou veličinu $X$ existuje funkce $f(x)$ taková, že
$$f(x)=\lim_{\Delta x\to 0}\frac{P(x,x+\Delta x)}{\Delta x}.$$
- Celková pravděpodobnost je 1: $$\int_{-\infty}^{\infty} f(x)\,dx=1.$$
- Pravděpodobnost v intervalu: $$P(a,b)=\int_{a}^{b} f(x)\,dx.$$
### Distribuční funkce
- Distribuční funkce $F(x)$ je antiderivací hustoty:
$$F(x)=\int_{-\infty}^{x} f(t)\,dt.$$
- Vlastnosti $F(x)$: je neklesající, $\lim_{x\to -\infty}F(x)=0$, $\lim_{x\to +\infty}F(x)=1$.
## 3. Normální (Gaussovo) rozdělení
> **Definice:** Normální rozdělení s parametry $\mu$ a $\sigma$ má hustotu
$$f(x)=\frac{1}{\sigma\sqrt{2\pi}}\exp\left( -\frac{(x-\mu)^2}{2\sigma^2} \right).$$
### Vysvětlení parametrů
- $\mu$ je střední hodnota a zároveň poloha maxima křivky.
- $\sigma$ je směrodatná odchylka; větší $\sigma$ znamená širší a nižší křivku tak, aby plocha zůstala 1.
### Vlastnosti normálního rozdělení
- Symetrie kolem $\mu$.
- Aproximuje mnoho přírodních jevů (chyby měření, biologické veličiny, IQ v populaci) díky centrální limitní větě.
- Přesné pravděpodobnosti mezi body počítáme pomocí integrálů hustoty; v praxi se používají tabulky nebo funkce CDF.
### Praktické použití
- Modelování chyb měření: rozdíl mezi skutečnou a pozorovanou hodnotou často považujeme za normální.
- Testování hypotéz a intervaly spolehlivosti v inferenci.
- Simulace náhodných veličin v Monte Carlo metodách.
> **Definice:** Standardní normální rozdělení má $\mu=0$, $\sigma=1$ a hustotu
$$\varphi(z)=\frac{1}{\sqrt{2\pi}}\exp\left(-\frac{z^2}{2}\right).$$
### Příklady
1) Měření délky součástky: naměřené odchylky od nominální délky $\approx$ normálně rozdělené s $\mu=0$, odhadnuté $\sigma$ z dat.
2) Výška dospělých v populaci: pokud je data symetrická a jednovrcholová, lze je aproximovat normálem a spočítat procenta nad/pod určitou hodnotou pomocí CDF.
### Porovnání s výběrovými statistikami (tabulka)
| Početnost dat | Histogram | Hustota (PDF) |
|---|---:|---:|
| Typ | diskrétní přiblížení | spojitá funkce |
| Údaj | četnost v binu | hodnota $f(x)$ (není pravděpodobností pro bod) |
| Použití | rychlá vizualizace | výpočty pravděpodobností a inference |
## 4. Jak určovat, zda jsou data normální
- Graficky: histogram, Q-Q plot (kvantil-kvantil) porovnávající kvantily dat s kvantily normálního rozdělení.
- Statistické testy: Shapiro-Wilk, Kolmogorov-Smirnov (pozor na citlivost vůči velikosti vzorku).
- Praktické kroky:
1. Vykreslete histogram a Q-Q plot.
2. Odhadněte $\mu$ a $\sigma$ z dat (průměr a směrodatná odchylka výběru).
3. Proveďte test normality a zvažte vliv odlehlých hodnot.
Did you know that the central limit theorem states that the s