Podcast na Statistické modelování a detekce anomálií

Statistické modelování a detekce anomálií: Průvodce GMM

Shrnutí Test znalostí Kartičky Podcast Myšlenková mapa

Podcast

Hustota pravděpodobnosti a normální rozdělení0:00 / 8:28

0:001:00 zbývá

FilipPředstavte si studentku, třeba Evu. Dělá experiment – měří, za jak dlouho vyklíčí semínka hrášku. Po padesáti měřeních má… chaos. Jedno za 3 dny, druhé za 5, další za 4,2. Jen hromada čísel. Jak v tomhle zmatku najít nějaký smysl?

AdélaPřesně takový problém řešíme dnes. V reálném světě totiž málokdy dostaneme jedno jediné správné číslo. Data jsou skoro vždycky trochu „rozcuchaná“.

Kapitoly

Hustota pravděpodobnosti a normální rozdělení

Délka: 8 minut

Kapitoly

Problém s reálnými daty

Jak zkrotit data histogramem

Tajemství hustoty pravděpodobnosti

Seznamte se: Gaussova křivka

Jeden zvon nestačí

Hlídání turbíny

Síla více dimenzí

Výhody a nevýhody

Jak naučit model normálu

Chytání podivných dat

Shrnutí a rozloučení

Přepis

Filip: Představte si studentku, třeba Evu. Dělá experiment – měří, za jak dlouho vyklíčí semínka hrášku. Po padesáti měřeních má… chaos. Jedno za 3 dny, druhé za 5, další za 4,2. Jen hromada čísel. Jak v tomhle zmatku najít nějaký smysl?

Adéla: Přesně takový problém řešíme dnes. V reálném světě totiž málokdy dostaneme jedno jediné správné číslo. Data jsou skoro vždycky trochu „rozcuchaná“.

Filip: A my se je dnes pokusíme učesat. Tohle je Studyfi Podcast.

Adéla: Přesně tak. A první hřeben, který na ta data vezmeme, se jmenuje histogram. Je to vlastně jednoduchý sloupcový graf.

Filip: Ten znám! Prostě si rozdělím možné hodnoty – třeba dny klíčení – do přihrádek a pak počítám, kolik semínek mi do každé přihrádky spadne.

Adéla: Přesně! A najednou z toho chaosu začne vystupovat tvar. Uvidíš, jestli je většina hodnot nahrnutá uprostřed, jestli jsou data symetrická, nebo jestli ti tam nějaké semínko neulétlo a nevyklíčilo třeba za měsíc.

Filip: Takže odhalíme odlehlé hodnoty, takové ty rebely, co nezapadají.

Adéla: Ano, přesně ty rebely. Histogram je takový první detektivní nástroj pro analýzu dat.

Filip: Dobře, takže máme sloupce. Ale co když chci znát pravděpodobnost, že semínko vyklíčí třeba mezi 3,5 a 4,5 dny? Sloupce jsou na to moc hrubé, ne?

Adéla: Výborná otázka! Tady přecházíme od diskrétních sloupců ke spojité křivce. Představ si, že ty sloupce v histogramu děláš stále užší a užší… až se ti slijí do hladké křivky.

Filip: A to je ona? Hustota pravděpodobnosti?

Adéla: To je ona. Funkce hustoty pravděpodobnosti. A teď to nejdůležitější: pravděpodobnost, že tvůj výsledek padne do nějakého intervalu, je jednoduše plocha pod touhle křivkou v daném intervalu.

Filip: Takže neřeším výšku křivky v jednom bodě, ale vždycky plochu na nějakém úseku?

Adéla: Přesně. U spojitých veličin je pravděpodobnost jednoho konkrétního čísla prakticky nulová. Vždy nás zajímá interval.

Filip: A existuje nějaký typický, nejčastější tvar té křivky?

Adéla: A jaký! Vítej ve světě normálního, neboli Gaussova rozdělení. Je to ten slavný symetrický zvon, který potkáváme všude – od IQ testů po výšku lidí v populaci.

Filip: Ten zvon, který je nejvyšší uprostřed a pak pozvolna klesá na obě strany. Co ten tvar určuje?

Adéla: Dvě věci. Střední hodnota, značka mí, ti říká, kde je vrchol zvonu – tedy nejčastější hodnota. A směrodatná odchylka, sigma, ti říká, jak je ten zvon široký.

Filip: Takže malá sigma znamená, že jsou všechna data namačkaná blízko sebe a zvon je vysoký a štíhlý?

Adéla: Bingo! A velká sigma znamená, že jsou data hodně rozptýlená a zvon je nízký a široký. Ale plocha pod ním je pořád stejná – přesně jedna.

Filip: Takže i když se data tváří chaoticky, často se za nimi skrývá tenhle elegantní zvonovitý řád. To je vlastně docela uklidňující.

Adéla: Přesně tak. A pochopit ho je klíčové nejen pro statistiku, ale i pro spoustu dalších oborů.

Filip: Dobře, takže jeden Gaussovský zvon popisuje spoustu věcí. Ale co když jsou data… složitější? Co když se v datech skrývá víc různých skupin, které se chovají jinak?

Adéla: Přesně k tomu se dostáváme! V reálném světě málokdy stačí jeden zvon. Proto máme něco, čemu říkáme Gaussovská směs, nebo zkráceně GMM – Gaussian Mixture Model.

Filip: Gaussovská směs... to zní jako nějaký statistický koktejl.

Adéla: Vlastně jo! Představ si to tak, že vezmeš několik různých Gaussových zvonů – třeba jeden úzký a vysoký, druhý široký a nízký – a smícháš je dohromady. Každý zvon má navíc svoji „váhu“, která říká, jak moc je v té směsi důležitý.

Filip: A k čemu je takový koktejl dobrý v praxi?

Adéla: Skvělý příklad je detekce anomálií. Řekněme, že monitorujeme velkou turbínu v elektrárně. Sbíráme měsíce data o jejích vibracích a teplotě, abychom věděli, co je „normální“ provoz.

Filip: Chápu. Vytvoříme si takový otisk prstu jejího zdravého stavu.

Adéla: Přesně. A tenhle otisk často není jeden jednoduchý zvon, ale právě směs několika Gaussových rozdělení. Třeba jedno popisuje běh naprázdno, druhé plný výkon a tak dále.

Filip: Dobře, a teď se objeví nová hodnota vibrací. Jak poznáme, že je něco špatně?

Adéla: Tady je ten trik. Když se podíváš jen na tu jednu hodnotu vibrací, může vypadat úplně normálně. Spadá do běžného rozsahu. Nic podezřelého.

Filip: Takže bych to prostě ignoroval a šel na kafe.

Adéla: Ještě ne! GMM nám umožňuje podívat se na více věcí najednou – třeba na vibrace A SOUČASNĚ na teplotu. Tomu říkáme vícerozměrný pohled.

Filip: Aha! Takže ten bod s normální vibrací může mít třeba naprosto nenormální teplotu pro danou situaci?

Adéla: Bingo! Ten bod, který v jedné dimenzi vypadal neškodně, je ve dvourozměrném prostoru úplně mimo náš model normálního stavu. Je to anomálie. Jako bys viděl tučňáka na Sahaře. Sám o sobě je v pořádku, ale v daném kontextu je něco hodně špatně.

Filip: To je geniální. Takže GMM nám pomáhá automaticky odhalit problémy, které by člověk snadno přehlédl. Jaké jsou hlavní výhody?

Adéla: Velká výhoda je, že pracujeme s reálnými fyzikálními daty. Jen vytváříme jejich statistický model. Zachováváme podstatu těch veličin.

Filip: A nevýhody? Vždycky musí být nějaké „ale“.

Adéla: Může to být výpočetně náročné. Pokud je ten „normální“ stav hodně složitý a potřebuješ ho popsat třeba dvaceti různými zvony, tak natrénovat takový model chvíli trvá.

Filip: Rozumím. Takže máme skvělý nástroj na modelování složitých stavů. Ale to mě přivádí k otázce... Jak ten model vlastně naučíme, co je normální?

Adéla: To je skvělá otázka, Filipe. Je to vlastně docela intuitivní. Prostě tomu modelu ukážeme obrovské množství dat z... normálního, bezproblémového provozu.

Filip: Takže ho v podstatě ponoříme do normálnosti, dokud si neřekne „Aha, takhle to má vypadat“?

Adéla: Přesně tak! Model si z těch všech dat vytvoří takovou vícerozměrnou mapu normálního stavu. Představ si hlídacího psa, který se naučí všechny běžné zvuky v domě – vrzání podlahy, ledničku...

Filip: ...a když uslyší něco úplně jiného, třeba rozbití okna, začne štěkat.

Adéla: Přesně! Ten pes je náš GMM model a štěkání je detekce anomálie.

Filip: Dobře, to dává smysl. Takže když přijdou nová data, model se podívá, jestli zapadají do jeho mapy normálnosti?

Adéla: Ano. Pro každý nový bod spočítá pravděpodobnost, že patří do toho naučeného modelu. A pokud je ta pravděpodobnost extrémně nízká...

Filip: ...tak máme problém. Anomálii.

Adéla: Bingo. Model ta data označí. A to nejlepší je, že si to pak můžeme vizualizovat. Na grafech třeba uvidíš spoustu modrých teček, což je normální provoz, a najednou pár červených.

Filip: A ty červené nám přesně ukážou, kdy se stalo něco divného. Třeba to zadírání ložiska, o kterém se mluvilo v podkladech.

Adéla: Přesně. Ta metoda automaticky odhalí data, která se vymykají, a na nás už je pak jen posouzení, co to znamená.

Filip: Takže abychom to shrnuli. Vytvoříme model standardního provozu pomocí GMM, ten pak hlídá nová data, a když přijde něco neznámého, upozorní nás.

Adéla: Je to tak. Buď anomálii zařadíme do už známé třídy poruchy, nebo pokud je to něco úplně nového, musí se na to podívat člověk. Je to mocný nástroj.

Filip: To rozhodně zní. Adélo, moc ti děkuju za skvělé vysvětlení Gaussových směsných modelů. Bylo to fascinující.

Adéla: Já děkuji za pozvání. Snad to posluchačům pomohlo nahlédnout pod pokličku.

Filip: Věřím, že ano. Takže za celý Studyfi Podcast vám děkujeme za poslech a těšíme se na vás zase příště. Mějte se fajn!