Zhluková Analýza pre Marketing: SEO Sprievodca pre Študentov
Zhluková analýza je metóda nesupervidovaného učenia, ktorá rozdeľuje objekty do skupín (zhlukov) tak, aby objekty v rovnakom zhluku boli si navzájom podobnejšie než objekty v rôznych zhlukoch. Tento materiál vysvetľuje základné typy dát, miery vzdialenosti, normalizáciu, hlavné algoritmy zhlukovania a ich použitie v marketingu. Cieľom je, aby ste zvládli výber vhodnej metódy, prípravu dát a interpretáciu výsledkov samostatne.
Definícia: Zhluková analýza je proces triedenia objektov do skupín podľa ich vzájomnej podobnosti tak, aby vnútri zhlukov bola vysoká homogenita a medzi zhlukmi vysoká separácia.
Poznámka: Správna identifikácia typu dát je kľúčová pre výber miery vzdialenosti a algoritmu.
Tip: Pri datech s korelovanými premennými použite Mahalanobisovu vzdialenosť alebo najprv PCA.
Prečo normalizovať?
Metódy:
Odporúčanie: Pre algoritmy ako K-means je normalizácia kritická; pre metrické vzdialenosti používajte štandardizáciu alebo min-max podľa dát.
| Kritérium | Popis | Dôsledok na tvar zhlukov |
|---|---|---|
| Single linkage | Minimálna vzdialenosť medzi bodmi | Reťazové, môže spájať cez mosty |
| Complete linkage | Maximálna vzdialenosť medzi bodmi | Kompaktné, malé zhluky |
| Average linkage | Priemerná vzdialenosť | Vyvážené |
| Wardova metóda | Minimalizuje nárast vnútornej variability | Vytvára homogénne, sférické zhluky |
Definícia: Dendrogram je stromový diagram vizualizujúci, kedy a pri akej vzdialenosti sa zhluky spájajú.
Ako určiť počet zhlukov v dendrograme:
Výhody hierarchického zhlukovania:
Nevýhody:
Už máš účet? Prihlásiť sa
Klíčová slova: Zhluková analýza, Marketingové vernostné programy, Analytika zákazníkov
Klíčové pojmy: Zhluková analýza rozdeľuje objekty podľa podobnosti, Rozpoznajte typ dát: metrické, nominálne, ordinálne, binárne, Normalizujte dáta (z-score alebo min-max) pred metrickými metódami, Vyberte vhodnú mieru vzdialenosti: Euklid, Manhattan, Mahalanobis, K-means vyžaduje $K$ a minimalizuje SSE; použiť $k$-means++, DBSCAN nájde zhluky ľubovoľného tvaru pomocou $\varepsilon$ a $\text{minPts}$, GMM poskytuje pravdepodobnostné (soft) priradenie cez EM, Použite Elbow a Silhouette pre určenie optimálneho $K$, Hierarchické zhlukovanie zobrazuje dendrogram; režte pri najväčšom skoku, Validujte výsledky, monitorujte data drift a dodržiavajte GDPR, Wardova metóda minimalizuje vnútornú variabilitu pri spájaní zhlukov, Kombinujte metódy (K-means + hierarchické) pre lepšiu analýzu