Zhrnutie na Zhluková analýza pre marketing

Zhluková Analýza pre Marketing: SEO Sprievodca pre Študentov

Zhrnutie Test znalostí Kartičky Podcast Myšlienková mapa

Úvod

Zhluková analýza je metóda nesupervidovaného učenia, ktorá rozdeľuje objekty do skupín (zhlukov) tak, aby objekty v rovnakom zhluku boli si navzájom podobnejšie než objekty v rôznych zhlukoch. Tento materiál vysvetľuje základné typy dát, miery vzdialenosti, normalizáciu, hlavné algoritmy zhlukovania a ich použitie v marketingu. Cieľom je, aby ste zvládli výber vhodnej metódy, prípravu dát a interpretáciu výsledkov samostatne.

Definícia: Zhluková analýza je proces triedenia objektov do skupín podľa ich vzájomnej podobnosti tak, aby vnútri zhlukov bola vysoká homogenita a medzi zhlukmi vysoká separácia.

1. Typy dát a ich význam

Typy dát

Metrické (intervalové, pomerové): numerické hodnoty s merateľnými rozdielmi (napr. príjem, vek).
Nominálne: kategórie bez poradia (napr. farba, pohlavie).
Ordinálne: poradie alebo úrovne (napr. hodnotenie od 1 do 5).
Binárne: dichotomické hodnoty (áno/nie, 0/1).

Poznámka: Správna identifikácia typu dát je kľúčová pre výber miery vzdialenosti a algoritmu.

Fun fact: Zhluková analýza dokáže nájsť prirodzené skupiny v dátach bez vopred definovaných štítkov, čo ju robí veľmi užitočnou pri objavovaní nových zákazníckych segmentov.

2. Miery vzdialenosti

Euklidovská vzdialenosť (pre numerické dáta): $$D = \sqrt{\sum_i (x_i - y_i)^2}$$ Najčastejšie používaná pre metrické dáta.
Manhattan (L1) vzdialenosť: $$D = \sum_i |x_i - y_i|$$ Robustnejšia voči extrémom.
Mahalanobisova vzdialenosť: zohľadňuje koreláciu medzi premennými: $$D = \sqrt{(x-\mu)^T S^{-1} (x-\mu)}$$
Korelačná vzdialenosť: vhodná ak vás zaujíma tvar vzťahu medzi premennými, nie absolútne hodnoty.

Tip: Pri datech s korelovanými premennými použite Mahalanobisovu vzdialenosť alebo najprv PCA.

3. Normalizácia dát

Prečo normalizovať?

Premenné majú rôzne rozsahy (napr. vek vs. príjem), čo deformuje výsledky.
Niektoré premenné by inak dominovali vo výpočte vzdialenosti.

Metódy:

Z-score štandardizácia: $$z = \frac{x - \mu}{\sigma}$$ vhodné pre dáta s približne normálnym rozdelením.
Min-max normalizácia: $$x' = \frac{x - \min}{\max - \min}$$ škáluje do rozsahu $[0,1]$, vhodné pri jasných hraniciach.

Odporúčanie: Pre algoritmy ako K-means je normalizácia kritická; pre metrické vzdialenosti používajte štandardizáciu alebo min-max podľa dát.

4. Hierarchické zhlukovanie

Typy

Aglomeratívne (bottom-up): začína každý objekt ako samostatný zhluk, postupne spája.
Divízne (top-down): začína jeden veľký zhluk, postupne rozdeľuje.

Väzobné kritériá

Kritérium	Popis	Dôsledok na tvar zhlukov
Single linkage	Minimálna vzdialenosť medzi bodmi	Reťazové, môže spájať cez mosty
Complete linkage	Maximálna vzdialenosť medzi bodmi	Kompaktné, malé zhluky
Average linkage	Priemerná vzdialenosť	Vyvážené
Wardova metóda	Minimalizuje nárast vnútornej variability	Vytvára homogénne, sférické zhluky

Definícia: Dendrogram je stromový diagram vizualizujúci, kedy a pri akej vzdialenosti sa zhluky spájajú.

Ako určiť počet zhlukov v dendrograme:

Režte tam, kde je najväčší skok vo vzdialenosti medzi spojeniami.
Praktické odporúčanie: hľadajte 3–5 hlavných zhlukov pre marketingové segmentácie.

Výhody hierarchického zhlukovania:

Intuitívna vizualizácia cez dendrogram
Nepotrebujete vopred určiť K

Nevýhody:

Výpočtovo náročné: časová zložitosť $O(n^2)$
Citlivosť na šum a odľahlé hodnoty

5. Nehierarchické, hustotné a modelové metódy

K-means (k‑priemery)

Vyžaduje vopred zadané $K$.
Minimalizuje SSE (sum of squared errors): $$\text{SSE} = \sum_k \sum_{x_i \in C_k} ||x_i - \mu_k||^2$$
Rýchly a škálovateľný, citlivý na outliery a inicializáciu (použite $k$-means++).

DBSCAN (hustotné zhlukovanie)

Parametre: $\varepsilon$ (eps) a $\text{minPts}$.
Rozlišuje core points, border points a noise.
Detekuje zhluky ľubovoľného tvaru a robustne identifikuje šum.

Gaussian Mixture Mod

Zaregistruj se pro celé shrnutí

KartičkyTest znalostíZhrnutiePodcastMyšlienková mapa

Začni zadarmo

Už máš účet? Prihlásiť sa

Zhluková analýza - Základy

Klíčová slova: Zhluková analýza, Marketingové vernostné programy, Analytika zákazníkov

Klíčové pojmy: Zhluková analýza rozdeľuje objekty podľa podobnosti, Rozpoznajte typ dát: metrické, nominálne, ordinálne, binárne, Normalizujte dáta (z-score alebo min-max) pred metrickými metódami, Vyberte vhodnú mieru vzdialenosti: Euklid, Manhattan, Mahalanobis, K-means vyžaduje $K$ a minimalizuje SSE; použiť $k$-means++, DBSCAN nájde zhluky ľubovoľného tvaru pomocou $\varepsilon$ a $\text{minPts}$, GMM poskytuje pravdepodobnostné (soft) priradenie cez EM, Použite Elbow a Silhouette pre určenie optimálneho $K$, Hierarchické zhlukovanie zobrazuje dendrogram; režte pri najväčšom skoku, Validujte výsledky, monitorujte data drift a dodržiavajte GDPR, Wardova metóda minimalizuje vnútornú variabilitu pri spájaní zhlukov, Kombinujte metódy (K-means + hierarchické) pre lepšiu analýzu

## Úvod Zhluková analýza je metóda nesupervidovaného učenia, ktorá rozdeľuje objekty do skupín (zhlukov) tak, aby objekty v rovnakom zhluku boli si navzájom podobnejšie než objekty v rôznych zhlukoch. Tento materiál vysvetľuje základné typy dát, miery vzdialenosti, normalizáciu, hlavné algoritmy zhlukovania a ich použitie v marketingu. Cieľom je, aby ste zvládli výber vhodnej metódy, prípravu dát a interpretáciu výsledkov samostatne. > Definícia: Zhluková analýza je proces triedenia objektov do skupín podľa ich vzájomnej podobnosti tak, aby vnútri zhlukov bola vysoká homogenita a medzi zhlukmi vysoká separácia. ## 1. Typy dát a ich význam ### Typy dát - **Metrické (intervalové, pomerové)**: numerické hodnoty s merateľnými rozdielmi (napr. príjem, vek). - **Nominálne**: kategórie bez poradia (napr. farba, pohlavie). - **Ordinálne**: poradie alebo úrovne (napr. hodnotenie od 1 do 5). - **Binárne**: dichotomické hodnoty (áno/nie, 0/1). > Poznámka: Správna identifikácia typu dát je kľúčová pre výber miery vzdialenosti a algoritmu. ### Fun fact: Zhluková analýza dokáže nájsť prirodzené skupiny v dátach bez vopred definovaných štítkov, čo ju robí veľmi užitočnou pri objavovaní nových zákazníckych segmentov. ## 2. Miery vzdialenosti - **Euklidovská vzdialenosť** (pre numerické dáta): $$D = \sqrt{\sum_i (x_i - y_i)^2}$$ Najčastejšie používaná pre metrické dáta. - **Manhattan (L1) vzdialenosť**: $$D = \sum_i |x_i - y_i|$$ Robustnejšia voči extrémom. - **Mahalanobisova vzdialenosť**: zohľadňuje koreláciu medzi premennými: $$D = \sqrt{(x-\mu)^T S^{-1} (x-\mu)}$$ - **Korelačná vzdialenosť**: vhodná ak vás zaujíma tvar vzťahu medzi premennými, nie absolútne hodnoty. > Tip: Pri datech s korelovanými premennými použite Mahalanobisovu vzdialenosť alebo najprv PCA. ## 3. Normalizácia dát Prečo normalizovať? - Premenné majú rôzne rozsahy (napr. vek vs. príjem), čo deformuje výsledky. - Niektoré premenné by inak dominovali vo výpočte vzdialenosti. Metódy: - **Z-score štandardizácia**: $$z = \frac{x - \mu}{\sigma}$$ vhodné pre dáta s približne normálnym rozdelením. - **Min-max normalizácia**: $$x' = \frac{x - \min}{\max - \min}$$ škáluje do rozsahu $[0,1]$, vhodné pri jasných hraniciach. > Odporúčanie: Pre algoritmy ako K-means je normalizácia kritická; pre metrické vzdialenosti používajte štandardizáciu alebo min-max podľa dát. ## 4. Hierarchické zhlukovanie ### Typy - **Aglomeratívne (bottom-up)**: začína každý objekt ako samostatný zhluk, postupne spája. - **Divízne (top-down)**: začína jeden veľký zhluk, postupne rozdeľuje. ### Väzobné kritériá | Kritérium | Popis | Dôsledok na tvar zhlukov | |---|---:|---| | Single linkage | Minimálna vzdialenosť medzi bodmi | Reťazové, môže spájať cez mosty | | Complete linkage | Maximálna vzdialenosť medzi bodmi | Kompaktné, malé zhluky | | Average linkage | Priemerná vzdialenosť | Vyvážené | | Wardova metóda | Minimalizuje nárast vnútornej variability | Vytvára homogénne, sférické zhluky | > Definícia: Dendrogram je stromový diagram vizualizujúci, kedy a pri akej vzdialenosti sa zhluky spájajú. Ako určiť počet zhlukov v dendrograme: - Režte tam, kde je najväčší skok vo vzdialenosti medzi spojeniami. - Praktické odporúčanie: hľadajte 3–5 hlavných zhlukov pre marketingové segmentácie. Výhody hierarchického zhlukovania: - Intuitívna vizualizácia cez dendrogram - Nepotrebujete vopred určiť K Nevýhody: - Výpočtovo náročné: časová zložitosť $O(n^2)$ - Citlivosť na šum a odľahlé hodnoty ## 5. Nehierarchické, hustotné a modelové metódy ### K-means (k‑priemery) - Vyžaduje vopred zadané $K$. - Minimalizuje SSE (sum of squared errors): $$\text{SSE} = \sum_k \sum_{x_i \in C_k} ||x_i - \mu_k||^2$$ - Rýchly a škálovateľný, citlivý na outliery a inicializáciu (použite $k$-means++). ### DBSCAN (hustotné zhlukovanie) - Parametre: $\varepsilon$ (eps) a $\text{minPts}$. - Rozlišuje core points, border points a noise. - Detekuje zhluky ľubovoľného tvaru a robustne identifikuje šum. ### Gaussian Mixture Mod