Podcast o Zhluková analýza pre marketing

Zhluková Analýza pre Marketing: SEO Sprievodca pre Študentov

Zhrnutie Test znalostí Kartičky Podcast Myšlienková mapa

Podcast

Zhluková analýza0:00 / 17:42

0:001:00 zbývá

TerezaPredstavte si Mareka, študenta, ktorý si popri škole založil malý e-shop s tričkami. Zrazu má stovky zákazníkov, ale keď sa pozrie na tabuľku s ich údajmi... vidí len chaos. Jeden nakupuje často, druhý raz za rok, niekto minie veľa, iný len pár eur. Ako má, preboha, zistiť, čo vlastne chcú?

MatejA presne tu, v tom zdanlivom chaose, sa skrýva poklad. Marek totiž sedí na zlatej bani dát, len ešte nevie, ako ju vykopať. A na to potrebuje správny nástroj.

Kapitoly

Zhluková analýza

Délka: 17 minut

Kapitoly

Čo je zhluková analýza?

Stavebné kamene: Dáta a vzdialenosti

Prečo je dôležitá normalizácia?

Hierarchické zhlukovanie a dendrogramy

Rýchle a efektívne: K-means

Zhluky zvláštnych tvarov: DBSCAN a GMM

Wardova metóda v marketingu

Zhluková analýza v praxi

Od dát k vernosti

Kto je kto v klube zákazníkov?

Automatizované postrčenia

Kľúčové zistenia z analýzy

Čo to znamená v praxi?

Zhrnutie a rozlúčka

Přepis

Tereza: Predstavte si Mareka, študenta, ktorý si popri škole založil malý e-shop s tričkami. Zrazu má stovky zákazníkov, ale keď sa pozrie na tabuľku s ich údajmi... vidí len chaos. Jeden nakupuje často, druhý raz za rok, niekto minie veľa, iný len pár eur. Ako má, preboha, zistiť, čo vlastne chcú?

Matej: A presne tu, v tom zdanlivom chaose, sa skrýva poklad. Marek totiž sedí na zlatej bani dát, len ešte nevie, ako ju vykopať. A na to potrebuje správny nástroj.

Tereza: Počúvate Studyfi Podcast.

Tereza: Takže, ten nástroj, o ktorom hovoríš, je zhluková analýza? Znie to dosť technicky.

Matej: V podstate áno. Ale myšlienka je úplne jednoduchá. Zhluková analýza je ako triedič v škôlke, ktorý dostane krabicu plnú rôznych kociek – červených, modrých, veľkých, malých, drevených, plastových...

Tereza: A jeho úlohou je dať dokopy tie, ktoré sú si podobné?

Matej: Presne tak! Bez toho, aby mu niekto vopred povedal: „Toto je skupina pre červené kocky.“ On sám objavuje tie prirodzené skupiny, tie „zhluky“. V marketingu nerozdeľujeme kocky, ale zákazníkov, produkty alebo trhy.

Tereza: Čiže pre Mareka by to znamenalo, že namiesto chaotického zoznamu stoviek ľudí by zrazu videl napríklad tri či štyri jasné skupiny? Povedzme „Verní fanúšikovia“, „Lovci zliav“ a „Víkendoví nakupujúci“?

Matej: Bingo! A to je kľúčové. Namiesto kričania na celý dav jedným a tým istým marketingovým odkazom môže každej skupine poslať správu, ktorá ich naozaj zaujme. Je to metóda takzvaného neprehliadaného učenia, lebo stroj sa učí tie skupiny rozpoznávať sám, bez našej pomoci.

Tereza: Dobre, to znie super. Ale ako ten algoritmus vie, ktorí zákazníci sú si „podobní“? Podľa čoho ich spája?

Matej: Výborná otázka. Najprv sa musíme pozrieť na dáta, ktoré máme. Tie môžu byť rôzne. Máme metrické dáta, ako vek alebo suma nákupu – proste čísla, s ktorými sa dá počítať.

Tereza: Potom sú tam asi aj iné typy, však? Čo napríklad pohlavie alebo obľúbená farba trička?

Matej: Áno, to sú nominálne dáta. Sú to kategórie bez poradia. Potom máme ordinálne, kde poradie je – napríklad hodnotenie produktu od jednej do piatich hviezdičiek. A nakoniec binárne, čiže áno/nie, 0/1. Napríklad, či je zákazník prihlásený na odber newslettera.

Tereza: A prečo je dôležité tieto typy rozlišovať?

Matej: Pretože od typu dát závisí, ako meriame „podobnosť“ alebo skôr „vzdialenosť“ medzi objektmi. Pre číselné dáta je najznámejšia Euklidovská vzdialenosť.

Tereza: Počkaj, to znie ako niečo z geometrie zo strednej.

Matej: Presne. Je to tá najkratšia priamka medzi dvoma bodmi. Predstav si to ako let vtáka. Ale potom je tu napríklad Manhattanská vzdialenosť.

Tereza: Ako Manhattan v New Yorku?

Matej: Presne! Tam nemôžeš lietať krížom cez budovy. Musíš ísť po uliciach, po pravých uhloch. Táto miera je menej citlivá na extrémne hodnoty, na takzvané outliery. A potom existujú aj zložitejšie, ako Mahalanobisova, ktorá berie do úvahy aj vzťahy medzi premennými. Výber miery vzdialenosti je úplne kľúčový prvý krok.

Tereza: Dobre, chápem. Máme dáta, máme spôsob, ako merať vzdialenosť. Môžeme začať zhlukovať?

Matej: Ešte nie! Je tu jeden veľmi dôležitý medzikrok – normalizácia dát.

Tereza: Čo to znamená?

Matej: Predstav si, že pre Marekov e-shop máme dve premenné: vek zákazníka, ktorý je v rozmedzí povedzme od 15 do 60, a priemernú sumu nákupu, ktorá je od 10 do 500 eur.

Tereza: Rozumiem, tie rozsahy sú úplne odlišné.

Matej: Presne. A keď začneme počítať vzdialenosť, premenná s väčším rozsahom – v tomto prípade suma nákupu – bude mať oveľa väčší vplyv. V podstate by úplne prevalcovala vplyv veku. Výsledné zhluky by boli založené takmer výlučne na tom, koľko kto míňa, a to nechceme.

Tereza: Takže normalizácia to dáva na rovnakú úroveň? Ako?

Matej: Existujú dve hlavné metódy. Prvá je Min-max normalizácia, ktorá všetky hodnoty „splasne“ do rozsahu od 0 do 1. Je to veľmi jednoduché a intuitívne.

Tereza: A tá druhá?

Matej: Druhá sa volá Z-score štandardizácia. Tá pretransformuje dáta tak, aby mali priemer 0 a štandardnú odchýlku 1. Je to trochu štatisticky zložitejšie, ale veľmi užitočné, najmä pre algoritmy ako K-means, ku ktorým sa dostaneme. Bez normalizácie by sme porovnávali jablká s hruškami, alebo skôr jablká s melónmi.

Tereza: Dobre, tomuto rozumiem. Takže všetky premenné musia mať rovnakú váhu, aby boli výsledky spravodlivé.

Matej: Presne tak. A teraz sa konečne môžeme pustiť do samotných metód. Začnime tými najstaršími a najintuitívnejšími – hierarchickými metódami.

Tereza: Hierarchické? To znie ako nejaká firemná štruktúra.

Matej: Trochu áno. Existujú dva hlavné prístupy. Ten bežnejší sa volá aglomeratívny. Je to prístup „zdola nahor“ alebo bottom-up. Začneš tak, že každý jeden zákazník je samostatný zhluk.

Tereza: Čiže ak má Marek 500 zákazníkov, začína s 500 zhlukmi?

Matej: Presne. A potom v každom kroku nájde dva najpodobnejšie zhluky a spojí ich do jedného. A toto opakuje, až kým všetci zákazníci nie sú v jednom obrovskom zhluku.

Tereza: A opačný prístup?

Matej: To je divízny, „zhora nadol“. Začneš s jedným veľkým zhlukom, kde sú všetci, a postupne ho rozdeľuješ na menšie a menšie časti. Je to výpočtovo náročnejšie, takže sa používa menej často.

Tereza: Super, ale ako viem, kedy prestať spájať? Kde je ten správny počet zhlukov? Štyri? Päť?

Matej: Na to máme skvelý vizuálny nástroj, ktorý sa volá dendrogram.

Tereza: Dendrogram. To je teda slovo.

Matej: Znie to zložito, ale predstav si to ako rodokmeň. Na spodku máš jednotlivých ľudí – našich zákazníkov. A ako postupuješ hore, vidíš, ako sa spájajú do rodín, potom do väčších rodov, až nakoniec do jedného veľkého kmeňa. Výška, v ktorej sa dve vetvy spoja, ukazuje, ako veľmi sú si nepodobné.

Tereza: Čiže čím vyššie sa spájajú, tým menej majú spoločné?

Matej: Presne. A my hľadáme miesto, kde môžeme ten „rodokmeň“ horizontálne preseknúť. Ideálne režeme tam, kde sú vertikálne čiary najdlhšie, lebo to znamená najväčší skok v nepodobnosti. Počet čiar, ktoré náš rez pretne, je náš optimálny počet zhlukov.

Tereza: Hierarchické metódy a dendrogramy znejú super na vizualizáciu, ale Matej, čo ak má Marek tisíce alebo desaťtisíce zákazníkov? Spájať ich jedného po druhom musí trvať večnosť.

Matej: Máš úplnú pravdu. Hierarchické zhlukovanie je výpočtovo veľmi náročné. Pre veľké datasety potrebujeme niečo rýchlejšie. A tu prichádza na scénu kráľ nehierarchických metód: algoritmus K-means, alebo po slovensky metóda k-priemerov.

Tereza: K-means. To K asi niečo znamená, však?

Matej: Áno, K je počet zhlukov, ktoré chceme vytvoriť. A na rozdiel od hierarchickej metódy, tu musíme tento počet určiť vopred.

Tereza: Aha! Takže ja musím povedať: „Chcem tri zhluky.“ A ako to potom funguje?

Matej: Je to celkom elegantný proces v troch krokoch, ktoré sa opakujú. Krok 1: Náhodne rozmiestni K bodov do priestoru. Tieto body sa volajú centroidy a budú to stredy našich budúcich zhlukov.

Tereza: Len tak náhodne?

Matej: Na začiatku áno. Krok 2: Každého zákazníka priraď k tomu centroidu, ktorý je k nemu najbližšie. Tým vytvoríš K dočasných zhlukov.

Tereza: A krok tri?

Matej: Krok 3: Pre každý zhluk vypočítaj nový stred – nový centroid – a posuň ho tam. A potom sa celý proces opakuje: znova priraď zákazníkov k novým, posunutým centroidom, znova prepočítaj stredy... A takto dookola, až kým sa pozície centroidov neprestanú meniť. Vtedy máme finálne zhluky.

Tereza: To znie oveľa rýchlejšie. Ale ako mám vedieť, aké K si mám zvoliť na začiatku? Čo ak si vyberiem zle?

Matej: To je najčastejšia otázka pri K-means. Existujú na to metódy, napríklad takzvaná „metóda lakťa“ alebo Elbow method. Spustíš K-means pre rôzne K – napríklad pre 2, 3, 4, 5 zhlukov – a pre každé si odmeriaš, ako veľmi sú body v zhlukoch „stlačené“ dokopy. Keď si to vykreslíš do grafu, vznikne krivka, ktorá vyzerá ako rameno. A ten bod, kde sa krivka najviac ohýba, ten „lakeť“, je často optimálny počet zhlukov.

Tereza: Takže K-means je rýchly a super pre veľké dáta, ale má nejaké nevýhody?

Matej: Má. K-means má tendenciu vytvárať pekné, guľaté zhluky a je dosť citlivý na odľahlé hodnoty, teda na tie extrémne dáta. Niekedy ale zhluky v našich dátach nemajú guľatý tvar. Môžu vyzerať ako banány, špirály alebo proste čokoľvek.

Tereza: Zhluky v tvare banánov? Dobre, to si chcem predstaviť.

Matej: A presne na to sú tu iné metódy. Napríklad hustotné metódy, z ktorých najznámejšia je DBSCAN. Ten nerozdeľuje dáta podľa vzdialenosti od stredu, ale hľadá husto osídlené oblasti. Predstav si to ako pohľad na nočnú oblohu. DBSCAN nájde súhvezdia – teda zhluky hviezd – a tie ojedinelé hviezdy, ktoré nikam nepatria, označí ako šum. To je jeho obrovská výhoda, dokáže identifikovať outliery.

Tereza: A okrem hustotných existujú ešte nejaké ďalšie typy?

Matej: Áno, napríklad modelové metódy, ako sú Gaussovské zmesové modely, alebo GMM. Tie sú ešte flexibilnejšie. Predpokladajú, že každý zhluk je generovaný nejakým štatistickým rozdelením, najčastejšie Gaussovým, čo je ten známy zvonovitý tvar. Umožňujú takzvané „mäkké priradenie“, kde každý bod nepatrí na 100 % len do jedného zhluku, ale môže mať napríklad 80 % pravdepodobnosť príslušnosti k zhluku A a 20 % k zhluku B.

Tereza: Wow, to je už dosť pokročilé. Takže K-means je taký rýchly pracant, DBSCAN je detektív na zvláštne tvary a šum, a GMM je flexibilný štatistik.

Matej: Perfektné zhrnutie! Presne tak.

Tereza: Vráťme sa ešte na chvíľu k hierarchickým metódam. Povedal si, že pri spájaní hľadáme dva najbližšie zhluky. Ale ako presne meriame vzdialenosť medzi dvoma zhlukmi, keď už obsahujú viacero bodov?

Matej: To je ďalšia dôležitá voľba. Môžeme merať vzdialenosť medzi ich najbližšími bodmi, to je takzvaný single linkage. Alebo medzi ich najvzdialenejšími bodmi, to je complete linkage. Alebo môžeme spraviť priemer všetkých vzdialeností. Každá metóda vytvára trochu inak tvarované zhluky.

Tereza: A existuje nejaká, ktorá je obzvlášť obľúbená?

Matej: Áno. V marketingu a sociálnych vedách sa veľmi často používa Wardova metóda. Jej princíp je geniálny.

Tereza: V čom?

Matej: Wardova metóda sa v každom kroku snaží spojiť také dva zhluky, ktorých spojením sa čo najmenej zvýši „rozptyl“ vo vnútri nového, väčšieho zhluku. Inými slovami, snaží sa za každú cenu udržať zhluky čo najkompaktnejšie a najhomogénnejšie.

Tereza: Čiže vytvára malé, husté a dobre oddelené skupiny?

Matej: Presne. A to je pre marketing ideálne. Chceš predsa nájsť skupiny zákazníkov, ktorí sú si vnútorne čo najviac podobní. To potom umožňuje tú segmentáciu, o ktorej sme hovorili na začiatku. Wardova metóda je robustná a jej výsledky sú často veľmi dobre interpretovateľné.

Tereza: Dobre, Matej, prešli sme si teóriu, metódy, vzdialenosti... Vráťme sa k nášmu študentovi Marekovi a jeho e-shopu. Čo by mal teraz konkrétne urobiť?

Matej: Prvý krok je definovať si cieľ. Chce nájsť najvernejších zákazníkov? Alebo tých, ktorým hrozí, že odídu? Podľa toho si vyberie premenné. Napríklad frekvenciu nákupov, celkovú minutú sumu a čas od posledného nákupu. To je známa RFM analýza.

Tereza: Recency, Frequency, Monetary. Jasné.

Matej: Potom musí dáta vyčistiť a, ako sme si povedali, normalizovať. Následne si vyberie metódu. Ak má menší počet zákazníkov a chce vidieť hierarchiu, použije hierarchickú metódu s Wardovým kritériom a pozrie sa na dendrogram. Ak má tisíce zákazníkov, siahne po rýchlom K-means a optimálny počet zhlukov nájde pomocou metódy lakťa.

Tereza: A keď mu z toho vyjdú, povedzme, štyri zhluky, čo potom?

Matej: Potom prichádza tá najdôležitejšia a najzaujímavejšia časť – interpretácia. Musí sa na každý zhluk pozrieť a opísať ho. Zhluk 1 môžu byť „VIP zákazníci“: nakupujú často, míňajú veľa a boli na e-shope nedávno. Zhluk 2 môžu byť „Lovci zliav“: nakupujú len vtedy, keď je akcia. Zhluk 3 sú „Nováčikovia“ s jedným nákupom. A zhluk 4 „Spiaci zákazníci“, ktorí už dlho nenakúpili.

Tereza: A s týmto poznaním už môže robiť cielený marketing!

Matej: Presne! VIP zákazníkom pošle poďakovanie a exkluzívnu prednostnú ponuku. Lovcom zliav pošle kupón na ďalší nákup. Nováčikom pošle uvítací email s tipmi, ako používať jeho produkty. A spiacich sa pokúsi znova aktivovať špeciálnou „chýbaš nám“ kampaňou.

Tereza: Takže z chaosu sa stal jasný plán. To je obrovská sila.

Matej: Je. Zhluková analýza mení surové dáta na strategickú výhodu. Pomáha firmám nielen lepšie rozumieť svojim zákazníkom, ale aj optimalizovať náklady a robiť oveľa múdrejšie rozhodnutia. A to je pre každého, nielen pre Mareka, na nezaplatenie.

Tereza: To je fascinujúce. Takže keď firma vie, kto sú jej zákazníci, ako napríklad Marek z nášho príkladu, čo je ďalší krok? Ako túto vedomosť premení na... no, na peniaze a spokojných zákazníkov?

Matej: Skvelá otázka. Práve tu prichádzajú na rad vernostné programy postavené na dátach. Jednou z najsilnejších metód je takzvaná RFM analýza.

Tereza: RFM... to znie ako nejaká tajná vládna agentúra.

Matej: Skoro. V skutočnosti je to celkom jednoduché. R je Recency, teda ako nedávno zákazník nakúpil. F je Frequency, čiže ako často nakupuje. A M je Monetary, teda koľko peňazí u nás celkovo minul.

Tereza: Takže v podstate triediš zákazníkov podľa toho, či sú noví, pravidelní, alebo či u teba nechali majland.

Matej: Presne tak! Vďaka tomu hneď vidíš svoje najcennejšie skupiny. Napríklad VIP zákazníci, ktorí nakupujú často a za veľa, tvoria možno len 15 % ľudí, ale kľúčovú časť tržieb. Na druhej strane máš tých, čo sú „v ohrození“, lebo už dlho nenakúpili.

Tereza: A tým potom môžeš poslať nejakú špeciálnu ponuku, aby sa vrátili?

Matej: Áno! A to je tá mágia. Všetko funguje automaticky cez spúšťače v systéme.

Tereza: Spúšťače? Akože systém strieľa zľavy?

Matej: V podstate áno. Ak systém vidí, že si 30 dní nič nekúpil, automaticky ti pošle reaktivačný email s textom „Chýbaš nám!“. Ak máš za sebou tri nákupy, ponúkne ti doplnkový produkt. A ak si neaktívny 90 dní, spustí sa „win-back“ kampaň, aby ťa získal späť.

Tereza: Wow. Takže to nie je len o triedení, ale o konkrétnych, cielených akciách, ktoré udržia zákazníkov.

Matej: Presne. Cieľom je zvýšiť ich celoživotnú hodnotu, známu ako CLV, a udržať si ich. A na to netreba armádu marketérov, ale len dobre nastavený systém.

Tereza: Takže vďaka dátam a automatizácii vieme presne, kedy poslať email s nápisom „Chýbaš nám!“. To je fascinujúce. Poďme to na záver zhrnúť. Aké sú tie najdôležitejšie poznatky z celej analýzy zákazníkov?

Matej: Sú tri. Po prvé, segmentácia je kráľ. Správne rozdelenie zákazníkov zvyšuje konverzie o desiatky percent. Po druhé, personalizácia funguje. Ponuky na mieru dramaticky zvyšujú celoživotnú hodnotu zákazníka.

Tereza: A ten tretí?

Matej: Automatizácia je nutnosť. Manuálne by to nikto nezvládol. Potrebuješ systém, ktorý pracuje za teba.

Tereza: Znie to ako veľký projekt. Čo to znamená pre firmu v praxi? Okrem toho, že si musia najať teba.

Matej: Dobrá poznámka. Znamená to tri veci. Organizačne potrebujete dátového špecialistu. Technologicky musíte investovať do správnych nástrojov. A právne... nezabúdajte na GDPR a ochranu údajov.

Tereza: Jasné, ochrana súkromia je extrémne dôležitá. Takže to nie je len o marketingu, ale aj o technológii a práve.

Matej: Presne tak. Je to komplexný balíček.

Tereza: Super. Matej, ďakujem ti veľmi pekne za všetky informácie. Bolo to naozaj obohacujúce.

Matej: Aj ja ďakujem za pozvanie. A pamätajte, vždy začnite s malým pilotným projektom.

Tereza: Skvelá rada na záver. Týmto sa s vami lúčime, milí poslucháči. Počujeme sa pri ďalšej epizóde Studyfi Podcastu. Majte sa pekne!

Podcast o Zhluková analýza pre marketing

Zhluková Analýza pre Marketing: SEO Sprievodca pre Študentov

Zhrnutie Test znalostí Kartičky Podcast Myšlienková mapa

Podcast

Zhluková analýza0:00 / 17:42

0:001:00 zbývá

MatejA presne tu, v tom zdanlivom chaose, sa skrýva poklad. Marek totiž sedí na zlatej bani dát, len ešte nevie, ako ju vykopať. A na to potrebuje správny nástroj.

Kapitoly

Zhluková analýza

Délka: 17 minut

Kapitoly

Čo je zhluková analýza?

Stavebné kamene: Dáta a vzdialenosti

Prečo je dôležitá normalizácia?

Hierarchické zhlukovanie a dendrogramy

Rýchle a efektívne: K-means

Zhluky zvláštnych tvarov: DBSCAN a GMM

Wardova metóda v marketingu

Zhluková analýza v praxi

Od dát k vernosti

Kto je kto v klube zákazníkov?

Automatizované postrčenia

Kľúčové zistenia z analýzy

Čo to znamená v praxi?

Zhrnutie a rozlúčka

Přepis

Matej: A presne tu, v tom zdanlivom chaose, sa skrýva poklad. Marek totiž sedí na zlatej bani dát, len ešte nevie, ako ju vykopať. A na to potrebuje správny nástroj.

Tereza: Počúvate Studyfi Podcast.

Tereza: Takže, ten nástroj, o ktorom hovoríš, je zhluková analýza? Znie to dosť technicky.

Tereza: A jeho úlohou je dať dokopy tie, ktoré sú si podobné?

Tereza: Dobre, to znie super. Ale ako ten algoritmus vie, ktorí zákazníci sú si „podobní“? Podľa čoho ich spája?

Tereza: Potom sú tam asi aj iné typy, však? Čo napríklad pohlavie alebo obľúbená farba trička?

Tereza: A prečo je dôležité tieto typy rozlišovať?

Matej: Pretože od typu dát závisí, ako meriame „podobnosť“ alebo skôr „vzdialenosť“ medzi objektmi. Pre číselné dáta je najznámejšia Euklidovská vzdialenosť.

Tereza: Počkaj, to znie ako niečo z geometrie zo strednej.

Matej: Presne. Je to tá najkratšia priamka medzi dvoma bodmi. Predstav si to ako let vtáka. Ale potom je tu napríklad Manhattanská vzdialenosť.

Tereza: Ako Manhattan v New Yorku?

Tereza: Dobre, chápem. Máme dáta, máme spôsob, ako merať vzdialenosť. Môžeme začať zhlukovať?

Matej: Ešte nie! Je tu jeden veľmi dôležitý medzikrok – normalizácia dát.

Tereza: Čo to znamená?

Matej: Predstav si, že pre Marekov e-shop máme dve premenné: vek zákazníka, ktorý je v rozmedzí povedzme od 15 do 60, a priemernú sumu nákupu, ktorá je od 10 do 500 eur.

Tereza: Rozumiem, tie rozsahy sú úplne odlišné.

Tereza: Takže normalizácia to dáva na rovnakú úroveň? Ako?

Matej: Existujú dve hlavné metódy. Prvá je Min-max normalizácia, ktorá všetky hodnoty „splasne“ do rozsahu od 0 do 1. Je to veľmi jednoduché a intuitívne.

Tereza: A tá druhá?

Tereza: Dobre, tomuto rozumiem. Takže všetky premenné musia mať rovnakú váhu, aby boli výsledky spravodlivé.

Matej: Presne tak. A teraz sa konečne môžeme pustiť do samotných metód. Začnime tými najstaršími a najintuitívnejšími – hierarchickými metódami.

Tereza: Hierarchické? To znie ako nejaká firemná štruktúra.

Tereza: Čiže ak má Marek 500 zákazníkov, začína s 500 zhlukmi?

Matej: Presne. A potom v každom kroku nájde dva najpodobnejšie zhluky a spojí ich do jedného. A toto opakuje, až kým všetci zákazníci nie sú v jednom obrovskom zhluku.

Tereza: A opačný prístup?

Tereza: Super, ale ako viem, kedy prestať spájať? Kde je ten správny počet zhlukov? Štyri? Päť?

Matej: Na to máme skvelý vizuálny nástroj, ktorý sa volá dendrogram.

Tereza: Dendrogram. To je teda slovo.

Tereza: Čiže čím vyššie sa spájajú, tým menej majú spoločné?

Tereza: K-means. To K asi niečo znamená, však?

Matej: Áno, K je počet zhlukov, ktoré chceme vytvoriť. A na rozdiel od hierarchickej metódy, tu musíme tento počet určiť vopred.

Tereza: Aha! Takže ja musím povedať: „Chcem tri zhluky.“ A ako to potom funguje?

Tereza: Len tak náhodne?

Matej: Na začiatku áno. Krok 2: Každého zákazníka priraď k tomu centroidu, ktorý je k nemu najbližšie. Tým vytvoríš K dočasných zhlukov.

Tereza: A krok tri?

Tereza: To znie oveľa rýchlejšie. Ale ako mám vedieť, aké K si mám zvoliť na začiatku? Čo ak si vyberiem zle?

Tereza: Takže K-means je rýchly a super pre veľké dáta, ale má nejaké nevýhody?

Tereza: Zhluky v tvare banánov? Dobre, to si chcem predstaviť.

Tereza: A okrem hustotných existujú ešte nejaké ďalšie typy?

Tereza: Wow, to je už dosť pokročilé. Takže K-means je taký rýchly pracant, DBSCAN je detektív na zvláštne tvary a šum, a GMM je flexibilný štatistik.

Matej: Perfektné zhrnutie! Presne tak.

Tereza: A existuje nejaká, ktorá je obzvlášť obľúbená?

Matej: Áno. V marketingu a sociálnych vedách sa veľmi často používa Wardova metóda. Jej princíp je geniálny.

Tereza: V čom?

Tereza: Čiže vytvára malé, husté a dobre oddelené skupiny?

Tereza: Dobre, Matej, prešli sme si teóriu, metódy, vzdialenosti... Vráťme sa k nášmu študentovi Marekovi a jeho e-shopu. Čo by mal teraz konkrétne urobiť?

Tereza: Recency, Frequency, Monetary. Jasné.

Tereza: A keď mu z toho vyjdú, povedzme, štyri zhluky, čo potom?

Tereza: A s týmto poznaním už môže robiť cielený marketing!

Tereza: Takže z chaosu sa stal jasný plán. To je obrovská sila.

Matej: Skvelá otázka. Práve tu prichádzajú na rad vernostné programy postavené na dátach. Jednou z najsilnejších metód je takzvaná RFM analýza.

Tereza: RFM... to znie ako nejaká tajná vládna agentúra.

Tereza: Takže v podstate triediš zákazníkov podľa toho, či sú noví, pravidelní, alebo či u teba nechali majland.

Tereza: A tým potom môžeš poslať nejakú špeciálnu ponuku, aby sa vrátili?

Matej: Áno! A to je tá mágia. Všetko funguje automaticky cez spúšťače v systéme.

Tereza: Spúšťače? Akože systém strieľa zľavy?

Tereza: Wow. Takže to nie je len o triedení, ale o konkrétnych, cielených akciách, ktoré udržia zákazníkov.

Matej: Presne. Cieľom je zvýšiť ich celoživotnú hodnotu, známu ako CLV, a udržať si ich. A na to netreba armádu marketérov, ale len dobre nastavený systém.

Tereza: A ten tretí?

Matej: Automatizácia je nutnosť. Manuálne by to nikto nezvládol. Potrebuješ systém, ktorý pracuje za teba.

Tereza: Znie to ako veľký projekt. Čo to znamená pre firmu v praxi? Okrem toho, že si musia najať teba.

Tereza: Jasné, ochrana súkromia je extrémne dôležitá. Takže to nie je len o marketingu, ale aj o technológii a práve.

Matej: Presne tak. Je to komplexný balíček.

Tereza: Super. Matej, ďakujem ti veľmi pekne za všetky informácie. Bolo to naozaj obohacujúce.

Matej: Aj ja ďakujem za pozvanie. A pamätajte, vždy začnite s malým pilotným projektom.

Tereza: Skvelá rada na záver. Týmto sa s vami lúčime, milí poslucháči. Počujeme sa pri ďalšej epizóde Studyfi Podcastu. Majte sa pekne!