Jak przy pomocy analizy danych walczyć z utratą klientów?

Pozyskanie nowego klienta jest droższe niż utrzymanie dotychczasowego

To nie tylko powtarzany często marketingowy truizm. Badania cytowane w Harvard Business Review dowodzą, że koszt pozyskania nowego klienta może być od 5 do nawet 25 razy wyższy niż w stosunku do kosztu utrzymania klienta w zależności od branży. A poprawa wskaźnika retencji o zaledwie 5% może przełożyć się nawet na 25-procentowy wzrost zysków. Jak więc walczyć z utratą klientów i podwyższać retencję? W jaki sposób analiza danych może nam w tym pomóc?

Odchodzenie klientów (ang. churn lub attrition) jest zjawiskiem nieuniknionym i niemożliwe jest jego całkowite wyeliminowanie. Część klientów bez względu na podejmowane wobec nich działania odchodzi. Przykładowo dlatego, że przeprowadza się poza obszar działania firmy lub przestaje być grupą docelową i nie potrzebuje już dłużej naszego produktu. Pozostała część jednak rezygnuje, wybierając ofertę konkurencji. Tym odejściom można by było zapobiec. Gdyby zostały podjęte działania. Właściwe działania, we właściwym momencie. Kluczem do tego są:

  • przewidzenie ryzyka odejścia klienta z odpowiednią trafnością i wyprzedzeniem
  • zrozumienie czynników, które wpływają na ryzyko utraty klienta

Rozwiązaniem obu problemów może być antychurnowy model predykcyjny zbudowany przy pomocy uczenia maszynowego. Model taki zdolny jest do przewidywania ryzyka utraty konkretnego klienta. Identyfikuje przy tym najważniejsze czynniki związane ze wzrostem tego ryzyka tak w wymiarze ogólnym dla całej bazy klientów, jak i indywidualnym dla pojedynczego klienta w jego specyficznej sytuacji. Tego rodzaju modele predykcyjne mogą wykorzystywać dowolną definicję „churn” i znajdują zastosowanie zarówno w biznesach, gdzie odejście klienta jest wyraźnie zaznaczone w czasie (np. wygaśnięcie/wypowiedzenie umowy), jak i takich, gdzie klient po prostu przestaje powracać i dokonywać kolejnych zakupów.

Najważniejsze czynniki determinujące odejście klienta

Jak już wspomnieliśmy model predykcyjny pomaga zidentyfikować najważniejsze czynniki wpływające na zagrożenie odejściem klienta. Wykresy poniżej pochodzą z rzeczywistego modelu predykcyjnego zbudowanego na bazie jednego z kontrahentów Data Science Logic. Zmienione zostały jedynie niektóre nazwy zmiennych (w tym nazwy kategorii produktowych). Warto podkreślić, że jest to branża cechująca się relatywnie niską częstotliwością zakupów (przeciętnie kilka razy w roku) i dużą rotacją klientów.

model-predykcyjny-odchodzenia-klientów

Wykres na górze pokazuje cechy klientów, które w największym stopniu wyjaśniają prawdopodobieństwo odejścia. Jak widać kluczową zmienną jest liczba dni od ostatniej wizyty z zakupem. Nie jest to zaskakujące. Im dłużej nie było klienta, tym mniejsza szansa, że wróci. Model pozwala jednak precyzyjnie określić, w którym momencie wzrost ryzyka jest największy i kiedy trzeba podjąć zdecydowane działania. Jak widać na dolnym wykresie do około 365 dni ryzyko rośnie liniowo. Po przekroczeniu jednego roku nieaktywności, krzywa ryzyka staje się bardziej stroma. Jest to już ostatni moment na podjęcie kampanii antychurnowej.

Interesująca jest także druga pod względem ważności zmienna – liczba wizyt z zakupem produktu z kategorii „A” w ciągu ostatnich 12-mcy. Produkty te są wyjątkowo dobrze oceniane przez klientów i pozytywnie wpływają na ich satysfakcję i retencję.

Oprócz ogólnych wniosków na temat czynników wpływających na zagrożenie utratą klientów, model pozwala na predykcję prawdopodobieństwa utraty konkretnej osoby i wskazanie konkretnych cech, które w jej przypadku to ryzyko zwiększają lub zmniejszają, co przedstawia wykres poniżej. W jego przypadku ryzyko jest stosunkowo niskie (35,5% w stosunku do bazowych 49,6%). Ryzyko zmniejszają m.in. średnia wartość wizyty oraz liczba wizyt w ciągu ostatniego roku. Klient nie korzysta natomiast z produktów wspomnianej wcześniej kategorii „A”, co podwyższa ryzyko odejścia. Zachęcenie (np. przez odpowiednia kampanię) do wypróbowanie produktów z tej kategorii prawdopodobnie w jeszcze większym stopniu obniżyłoby ryzyko jego odejścia.

powody-odchodzenia-klientów

Radzenie sobie z migracją klientów jest jednym z najważniejszych wyzwań stojących obecnie przed firmami, zważając na to jak kosztowne może być później pozyskanie nowego klienta. Dzięki modelowaniu antychurn dowiemy się, którzy klienci mogą odejść i dlaczego, jakie są objawy zwiększającego się ryzyka odejścia, a także w jaki sposób najlepiej zapobiec odejściu.

Zysk czy strata? Ocena efektywności promocji przy pomocy data science

Nawet 80% kampanii promocyjnych nie przynosi zauważalnego wzrostu sprzedaży, bądź  koszt przyznanych rabatów jest wyższy niż marża wygenerowana na dodatkowym obrocie – dowodzi badanie Boston Consulting Group. Z tych pierwszych promocji można zrezygnować bez obaw o spadek sprzedaży. Z tych drugich trzeba koniecznie zrezygnować, gdyż ich efekt finansowy jest ujemny. Tymczasem strategia wielu retailerów opiera się właśnie na promocjach. Odnosi się to do większości branż. A co więcej, dotyczy zarówno kanałów stacjonarnych, jak i  handlu online. Presja konkurencji, walka o udziały w rynku, przyzwyczajenia konsumentów powodują, że roczna liczba ofert często idzie w setki, a nawet tysiące. Przestrzeń do optymalizacji jest więc ogromna.  Jak jednak odróżnić promocje zyskowne od generujących straty? Jak zmierzyć rzeczywisty efekt promocji? Czy da się przewidzieć jej wynik zanim w ogóle wystartuje? W jaki sposób lepiej planować promocje?

Pomiar efektu promocji

Kluczem do sukcesu jest pomiar efektów. Bez wiedzy na temat faktycznych wyników promocji menedżerowie są skazani na strategie typu kopiowanie „sprawdzonego” w poprzednich latach kalendarza, reagowanie na działania konkurencji lub po prostu własną intuicję. W teorii zadanie może wydawać się proste. Wystarczy porównać sprzedaż w okresie promocji z… No właśnie… z czym? Do głowy przychodzą różne możliwości:  może sprzedaż sprzed i po okresie promocji? Może sprzedaż w analogicznym okresie poprzednich lat? Może wyłączyć niektóre punkty sprzedaży z promocji i wykorzystać je jako grupę porównawczą?

Jednak popyt na produkty ma często charakter sezonowy i zmienia się niezależnie od promocji. Poprzedni rok mógł być inny ze względu na sytuację makroekonomiczną lub wejście nowego konkurenta na rynek. Dobranie reprezentatywnej grupy porównawczej może być trudne, a dla handlu online wręcz niemożliwe. Dodatkowo promocje nakładają się na siebie. Część z nich intensywnie reklamuje się w mediach, inne tylko przy półce sklepowej. Rzeczywisty świat biznesu jest złożony i nazbyt uproszczone metody analizy mogą doprowadzić do nieprawidłowych wniosków.

Z pomocą przychodzą zaawansowane metody data science. Dzięki nim możliwe jest opracowanie modelu, które weźmie pod uwagę wiele czynników wpływających na efekt promocji. Od objętego nią asortymentu, przez wysokość obniżki, dodatkowe warunki i mechaniki, inne równolegle realizowane kampanie, po pogodę, aktywność reklamową i działania konkurencji. Konieczne jest do tego gromadzenie dokładnych danych o historycznych promocjach i ich cechach charakterystycznych. Odpowiednio przygotowany model pozwala na wyizolowanie wpływu poszczególnych czynników na sprzedaż. Umożliwia to zrozumienie ich oddziaływania, zarówno dla kampanii historycznych, jak i przewidywanie efektu promocji dopiero planowanych.

Wykres poniżej pokazuje możliwą do uzyskania dokładność predykcji modelu. Linia niebieska oznacza rzeczywistą sprzedaż, natomiast linia czerwona sprzedaż prognozowaną przez model. Jak widać obie linie są bardzo blisko siebie. W praktyce nie da się uniknąć pewnych odchyleń, widocznych zwłaszcza w dniach o skrajnie wysokiej lub niskiej sprzedaży. Mimo to model bardzo dobrze identyfikuje trendy i kierunki zmian.

Testowanie promocji przed jej rozpoczęciem

Przygotowany model o odpowiedniej zdolności predykcyjnej pozwala na prognozowanie sprzedaży w zależności od terminu, czasu trwania, zakresu i charakteru promocji. Umożliwia to symulowanie różnych scenariuszy działania i znalezienie odpowiedzi na pytania takie jak:

– czy promocja wygeneruje dodatkową sprzedaż?

– jaki jest najlepszy okres na przeprowadzenie promocji?

– jaki jest optymalny czas trwania promocji?

– jakie wsparcie komunikacyjne warto zapewnić promocji?

– czy biorąc pod uwagę wszystkie efekty promocji opłaca się ją przeprowadzać?

Wykres poniżej przedstawia porównanie sprzedaży przy scenariuszu zakładającym przeprowadzenie promocji (niebieska linia) w porównaniu ze scenariuszem bazowym, w którym zrezygnowano by z promocji w rozważanym okresie (czerwona linia). Widać wyraźnie, że przez większą część trwania promocji niebieska linia jest powyżej czerwonej. Szczególnie duże wzrosty zauważalne są pod koniec okresu promocji, a także na jego początku. Czas promocji był w tym wypadku wyraźnie komunikowany konsumentom stąd kumulacja sprzedaży. W scenariuszu bez promocji sprzedaż rozłożona byłaby bardziej równomiernie z widocznym jedynie okresowym cyklem  tygodniowym. Przeciętny poziom sprzedaży, jak wynika z wykresu, byłby niższy. Wydaje się więc, że promocja ma korzystny wpływ na sprzedaż i powinna być opłacalna. Czy jednak na pewno?

Kompleksowy model promocji

Oceniając efekty promocji, należy spojrzeć nie tylko na wzrost sprzedaży, ale także na inne zjawiska powiązane z promocją. Zjawiska, które nie wystąpiłyby, gdyby promocji nie było. Chodzi przede wszystkim o przesunięcie sprzedaży w czasie (w przykładzie widoczne w okresie tuż przed i tuż po promocji), a także o wpływ promocji danego asortymentu na inne kategorie produktowe. W przypadku kategorii komplementarnych oczekujemy dodatniego oddziaływania na sprzedaż. Jednak w przypadku innych kategorii (na przykład nieobjęte promocją produkty substytucyjne) efekt może być negatywny. To właśnie od wzajemnych relacji pomiędzy tymi różnymi efektami zależy całkowita zyskowność promocji. Konieczne jest więc ich precyzyjne oszacowanie. Umożliwia to zbudowany i przetestowany przy pomocy metod data science model.

Wykres poniżej wizualizuje dekompozycję – rozbicie łącznego efektu promocji na poszczególne składniki. Sprzedaż bazowa to sprzedaż, która zostałaby zrealizowana, gdyby nie było promocji.  Dodatkowa sprzedaż promo została przy pomocy modelu oszacowana na 5,3 mln. To o tyle więcej sprzedaliśmy produktów promowanych dzięki przeprowadzeniu promocji.

Wzrost kategorii komplementarnych to dodatni wpływ promocji na kategorie współkupowane zazwyczaj z produktami promowanymi. Kanibalizacja to negatywne oddziaływanie promocji na sprzedaż innych kategorii produktowych. W tym przykładzie wynosi 9,7 mln, tym samym niwelując cały pozytywny efekt działań promocyjnych. Dodatkowo należy zwrócić uwagę na efekty związane z przesunięciem sprzedaży w czasie. Przed kampanią (efekt oczekiwania) i po kampanii (efekt kupowania na zapas po niższych cenach) pogarszają wynik akcji o kolejne 1,3 mln.  Po uwzględnieniu wszystkich wspomnianych efektów promocji łączna sprzedaż wyniosła 6,8 mln,a więc o 1,8 mln mniej w porównaniu do scenariusza, w którym promocji by nie przeprowadzono. A zatem rzeczywisty inkrementalny wpływ promocji na sprzedaż jest ujemny, czyli promocja nie była opłacalna.

Podsumowanie

Reasumując, uproszczone podejście do analizy promocji i ograniczanie się do efektu zwiększonej sprzedaży produktów promowanych w okresie jej trwania może prowadzić do nieprawidłowych wniosków i nieoptymalnych decyzji. Jedynie kompleksowa analiza przeprowadzona w oparciu o szeroki zakres danych i przy wykorzystaniu zaawansowanych metod data science może odpowiedzieć na kluczowe z punktu widzenia planowania promocji pytania. Precyzyjne modele promocji pozwalają na dokładne oszacowanie poszczególnych efektów, wierną symulację alternatywnych scenariuszy i optymalizację nie tylko pojedynczych kampanii promocyjnych, ale całego ich kalendarza.

Jednym ze sposobów na efektywne przewidywania zakupu jest modelowanie uplift. Poznaj szczegóły tego rozwiązania!

Jak rozwijać sieć sprzedaży
z pomocą data science

Kanał stacjonarny w zdecydowanej większość branż odgrywa kluczową rolę. Mimo obserwowanego dynamicznego wzrostu udziału e-commerce, nie zmieni się to w najbliższych latach. Reatilerzy myślą więc o rozwoju sieci sprzedaży. Otwarcie nowego punktu sprzedaży pociąga za sobą zazwyczaj konieczność znacznych inwestycji związanych z budową lub najmem i adaptacją lokalu, rekrutacją pracowników, a także ze zmianami w logistyce sieci. Dodatkowo istotny jest potencjalny negatywny wpływ nowego punktu na już istniejące. Dlatego decyzje o rozwoju sieci sprzedaży wiążą się z dużym ryzykiem. W dzisiejszym artykule pokażemy, w jaki sposób data science w połączeniu z danymi geoprzestrzennymi może pomóc w ograniczeniu tego ryzyka i ułatwić podejmowanie lepszych decyzji.

Kluczowe pytania

W kontekście lokalizacji punktów sprzedaży pytania, na jakie data science może pomóc znaleźć odpowiedź, to m.in.:

  1. Czy to dobre miejsce na otwarcie nowego sklepu?
  2. Czy nowy sklep nie będzie „kanibalizował” sprzedaży moich istniejących sklepów?
  3. Jak dużo sklepów powinienem otworzyć, gdzie powinien je otwierać, jak powinna wyglądać optymalna sieć?
  4. Które sklepy powinienem zamknąć? Jaki będzie efekt netto zamknięcia sklepu?
  5. Czy istniejący sklep wykorzystuje potencjał swojej lokalizacji?
  6. Czy jeśli nie otworzę sklepu w danym miejscu, ale zrobi to konkurencja, to wpłynie to negatywnie na moje istniejące sklepy? Na które? Jak bardzo?

Dzisiaj chciałbym skupić my się na dwóch pierwszych pytaniach i pokazać, w jaki sposób analiza danych pomoże podjąć właściwe decyzje.

Dane, dane, dane…

Na początek warto poświecić chwilę na przyjrzenie się źródłom danym, które wykorzystujemy w analizie. Można podzielić je na dane wewnętrzne i konieczne do pozyskania na zewnątrz. Do kluczowych danych wewnętrznych należą:

– historyczne dane sprzedażowe,

– charakterystyka punktów (powierzchnia, charakter lokalizacji – galeria, samodzielny lokal itd., zakres dostępnego asortymentu),

– lokalna aktywność (promocje, obecność w mediach, ulotki, gazetki, bilboardy),

– dane adresowe punktów.

Dane, które trzeba pozyskać z zewnątrz to przede wszystkim:

– dotyczące populacji, charakterystyki demograficznej (rozkład grup wiekowych, płci), dochodów i siły nabywczej,

– o sieci dróg, ich jakości/klasie i natężeniu ruchu,

– geolokalizacja punktów konkurencji,

– czas dojazdu do punktów własnych i konkurencji różnymi środkami lokomocji (w zależności od charakteru i gęstości sieci sprzedaży istotne mogą być różne sposoby transportu).

– czas dojazdu do punktów własnych i konkurencji różnymi środkami lokomocji (w zależności od charakteru i gęstości sieci sprzedaży istotne mogą być różne sposoby transportu).

Niektóre dane mogą być dostępne tylko na poziomie całej gminy (szczególnie dane z Głównego Urzędu Statystycznego). Jednak tam, gdzie to możliwe należy wykorzystywać dane o jak największej ziarnistości. Istnieją źródła, z których można pozyskać dane dla poszczególnych punktów adresowych (konkretnych bloków).

Przy analizie i prezentacji danych rozsądnym kompromisem pomiędzy szczegółem a ogółem może być tzw. siatka kilometrowa. Mapa jest wtedy dzielona na kwadraty o boku długości 1km. Przykłady takich właśnie map będą pojawiać się w dalszej części artykułu.

Dlaczego dokładne dane geograficzne są istotne

Poniżej zobrazowany został prosty przykład różnic we wnioskach, do jakich można dojść w zależności od danych, jakie są do dyspozycji. Mapa po lewej stronie pokazuje odległość od sklepu (do 20 km). Jest to bardzo prosta do wyliczenia miara. Mogłoby się wydawać, że będzie wystarczającym przybliżeniem czasu dotarcia do sklepu. Niestety, jak widać na mapie po prawej stronie, uwzględnienie samej odległości od sklepu wprowadza nas w błąd. Dopiero pokazanie rzeczywistego czasu dojazdu na mapie pokazuje realny obraz zasięgu sklepu. Można zauważyć, że zasięg sklepu rozciąga się wzdłuż ciągów komunikacyjnych (w tym przykładzie rozchodzących się promieniście). Obszary leżące blisko siebie w rzeczywistości mogą cechować się różnym czasem dojazdu. Zbyt duże uproszczenie i rezygnacja z dokładnych danych geograficznych prowadzi do niepoprawnego oszacowania potencjału sklepu i potencjalnie błędnych decyzji.

W jakim kierunku opłaca się rozwijać sieć?

Przeanalizujemy teraz przykład sieci składającej się aktualnie z 4 sklepów. Na mapie poniżej widać ich zasięg. Z każdego obszaru (kwadratu) obliczony został czas dojazdu do najbliższego sklepu. Kierownictwo rozważa różne scenariusze dalszego rozwoju. Jednym z nich jest uzupełnienie „białych plam” w zasięgu sieci. Taki ruch może być interesujący z co najmniej dwóch względów. Po pierwsze na tym obszarze znajduje się miejscowość o, jak się wydaje, potencjale demograficznym, w której można by zlokalizować nowy punkt sprzedaży. Po drugie nowy sklep utworzony pomiędzy już istniejącymi można idealnie wpasować w istniejący łańcuch logistyczny.

W celu oparcia decyzji o dane zostaje przeprowadzona estymacja potencjału nowego sklepu oraz zasymulowany zostaje jego wpływ na dotychczasową sieć.

Mapa po lewej stronie pokazuje zasięg sklepów przed rozszerzeniem. Obszary zostały przypisane do sklepu o najkrótszym czasie dojazdu. Mapa po prawej stronie ilustruje, w jaki sposób zmieni się zasięg istniejących lokalizacji po poszerzeniu sieci oraz jaki będzie zasięg nowego punktu. Widać wyraźnie, że ogólny zasięg sieci zostanie rozszerzony o nowe obszary. Można też zauważyć, że obszary wszystkich z wyjątkiem jednego z dotychczasowych sklepów zostaną nieco uszczuplone. Do podjęcia decyzji nie wystarczy jednak wzrokowa ocena i analiza mapy. Potrzeba precyzyjnych prognoz. Tylko dokładne liczby pozwolą oszacować opłacalność rozważanej inwestycji.

Model predykcyjny

Z pomocą przychodzi model predykcyjny zbudowany w oparciu o uczenie maszynowe. Wykorzystując szeroki zakres dostępnych danych (sprzedażowych, demograficznych, geograficznych), model pozwala na precyzyjną estymację potencjału nowego sklepu i jego wpływu na istniejące punkty. Wykres poniżej przedstawia wyniki modelowania. Jego lewy słupek (‘Dotychczasowa sieć’) przedstawia poziom bazowy, czyli prognozowany poziom sprzedaży całej sieci, gdyby nowy sklep nie został uruchomiony. Kolejny słupek to estymacja sprzedaży w nowym punkcie. Wynik pokazuje, że zwiększy on potencjał sieci. Jednak w porównaniu z innymi, jego wkład będzie relatywnie niższy.

Nowy punkt zwiększy obroty sieci o około 12%. Kolejne słupki pokazują kanibalizację sprzedaży w dotychczasowych punktach. Tak jak przypuszczaliśmy, podczas analizy map, kanibalizacja dotknie 3 z 4 sklepów. Może się wydawać, że żaden sklep nie ucierpi znacząco – przeciętnie zaledwie o około 6% obrotu. Jednak będzie ona stanowiła aż 54% sprzedaży nowego punktu. Zatem większość obrotu nowego sklepu realizowałaby się kosztem dotychczasowych sklepów, a inkrementalny wpływ nowego punktu na łączne obroty sieci wyniósłby tylko około 5%.

Podsumowanie

Ostateczna decyzja o opłacalności inwestycji w otwarcie sklepu w rozważanym miejscu wymaga zestawienia inkrementalnych obrotów (i marży) z koniecznymi nakładami i kosztami działalności. W związku z tym analizę powinno rozszerzyć się także o prognozę marży. Bez tego mogłoby się okazać, że nowy sklep będzie różnił się od dotychczasowych pod względem typowego koszyka produktów, a co za tym idzie ich marżowości. Z pewnością warto rozważyć inne potencjalne lokalizacje, gdyż uzyskany w nich zwrot z inwestycji mógłby okazać się wyższy. Dodatkowo należałoby wziąć pod uwagę także możliwe działania potencjalnej konkurencji. Najwłaściwszym kierunkiem działania byłoby przeprowadzenie kompleksowej analizy i symulacji obejmującej wiele potencjalnych lokalizacji.

Nowoczesne metody optymalizacyjne, jakie na co dzień wykorzystujemy przy projektach w Data Science Logic, pozwalają na symulację wielu równoległych scenariuszy i znalezienie optymalnego kształtu sieci. Dzięki temu modele są w stanie wskazać, które lokalizacje warto otworzyć, a które należy zamknąć. Ostateczne decyzje zawsze należą do ludzi, jednak precyzyjne dane w połączeniu z odpowiednimi metodami ich analizy mogą pomóc je podjąć.

Chcesz wiedzieć więcej na temat ruchu klientów w sklepach stacjonarnych? Zapoznaj się ze szczegółami projektu dotyczącego godzinowych prognoz ruchu i sprawdź, w jaki sposób pomoże to zwiększyć sprzedaż.

Jak uplift modeling może pomóc w wygenerowaniu nawet 30% dodatkowej sprzedaży?

Znalezienie kompromisu między maksymalizowaniem zysków i obniżaniem kosztów nie jest prostym zadaniem dla marketerów planujących kampanie marketingowe. Dla ROI kampanii kluczowy jest wybór właściwej grupy, do której chcemy skierować ofertę. Z pomocą przychodzi uplift modeling, które bada prawdopodobieństwo dokonania zakupu przez klientów.

Środek lata. Trochę „martwy” sezon. Rozmowy w dziale marketingu jednego z największych retailerów w Polsce dotyczą nie tylko wrażeń z urlopów, ale także tego jak choć trochę „rozruszać” sprzedaż. Jeden z pracowników sugeruje przeprowadzenie kampanii smsowej. Jest baza konsumentów, którą można skomunikować. Jest nawet dosyć atrakcyjna oferta, o której można napisać. Nic tylko wysyłać. Pojawia się jednak problem. Zbliża się koniec roku finansowego i w budżecie nie zostało już zbyt wiele środków. Wystarczy, żeby przeprowadzić wysyłkę do co najwyżej jednej piątej bazy. Entuzjazm nieco opada – fajerwerków nie będzie. Co jednak zrobić, żeby jak najlepiej wykorzystać ograniczony budżet i zmaksymalizować szanse na osiągnięcie zauważalnego efektu? Ktoś wpada na pomysł, żeby zwrócić się do zaprzyjaźnionych konsultantów data science. Czasu jest mało i trzeba działać szybko, ale doświadczony zespół Data Science Logic podejmuje wyzwanie.

Czy można przewidzieć zakup?

W oparciu o blisko 200 zmiennych opisujących konsumentów w bazie w zakresie historii transakcji, kupowanego asortymentu, wrażliwości na cenę, skłonności do kupowania online, interakcji z komunikacją marketingową, wizyt na stronie www retailera, analitycy budują model scoringowy przewidujący prawdopodobieństwo zainteresowania promowanym asortymentem dla każdego konsumenta, który mógłby zostać potencjalnie skomunikowany. Modele takie nazywane są w świecie data science product propensity models, likelihood to buy models lub response models.

Dostępny budżet podzielony zostanie na dwie części. Połowa konsumentów zostanie wyselekcjonowana dotychczasowym sposobem. Drugą część stanowić będzie 10% najbardziej zainteresowanych konsumentów według predykcji modelu. Dodatkowo spośród wszystkich zakwalifikowanych do wysyłki wylosowana zostanie grupa kontrolna, która nie otrzyma wiadomości. Taki podział pozwala na pomiar skuteczności dwóch metod targetowania oraz efektu samej komunikacji.

Wyniki: konwersja w grupie wybranej przez model blisko 3-krotnie wyższa niż w grupie wytypowanej dotychczasową metodą opartą o kryteria ekspercie. Rezultaty mówią same za siebie. Data science zwycięża. Czyżby?

Czy na pewno patrzymy na właściwy wskaźnik?

Z porównania konwersji wynika, że model poprawnie przewidział grupę konsumentów ponadprzeciętnie zainteresowanych zakupem. Czy jednak nie byli to klienci, którzy i tak dokonaliby transakcji nawet bez smsa? Jaki był faktyczny wpływ wysyłki na ich skłonność do zakupu? Odpowiedzi na te pytania możemy znaleźć, dokonując porównania z grupą kontrolną losowo wyłączoną z komunikacji. Wynika z niego, że różnica pomiędzy konwersją w całej grupie komunikowanej a konwersją w grupie kontrolnej wyniosła około 1,8 punktu procentowego. W grupie wytypowanej przez model natomiast około 2 p.proc. Różnica jest więc wciąż na korzyść modelu, ale nie jest już tak spektakularna. Oznacza to, że część konsumentów wskazanych przez model była wystarczająco zainteresowana zakupem już przed komunikacją i nie było potrzeby dodatkowo ich stymulować. W jaki więc sposób możemy sklasyfikować konsumentów pod kątem ich spodziewanej reakcji na komunikację marketingową?

Lewy górny kwadrat to grupa ‘Do not disturb’, którzy byliby zainteresowani transakcją, ale zaniepokojeni niechcianą komunikacją rezygnują z zakupu. Część ‘Lost cause’ to konsumenci, których nie jesteśmy w stanie przekonać do zakupu, nawet przy pomocy planowanej kampanii. Grupa ‘Sure thing’ to ludzie chętni do zakupu nawet bez komunikacji. Wreszcie prawy dolny kwadrat to ‘Persuadable’ czyli grupa, która nie jest jeszcze przekonana do zakupu i bodziec w postaci kampanii jest w stanie wpłynąć na decyzję. Mamy więc jedną grupę, na którą opłaca się oddziaływać komunikacją oraz trzy, do których nie warto kierować wysyłek. Jak jednak przewidzieć, kto jest w tej opłacalnej grupie?

Uplift modeling

Z pomocą ponownie przychodzi data science. Możliwe jest zbudowanie modelu, który przewiduje zmianę skłonności do zakupu pod wpływem komunikacji. Na podstawie danych zebranych przy pierwszej wysyłce, budujemy model uplift, który dopasuje konsumentów do odpowiednich grup. Obserwujemy wzrost uplift’u kamapnii – o prawie 0,4 p.p. w porównaniu do grupy wytypowanej przez model responsu. Pozornie niewiele, jednak przy odpowiedniej skali bazy, zyskujemy znaczącą ilość dodatkowych transakcji. W stosunku do poprzednio stosowanych metod selekcji model responsu wygenerował 10% więcej dodatkowych sprzedaży, a najbardziej zaawansowany model uplift aż prawie 30% więcej.

Tym, co kupujemy, wydając budżet na komunikację do konsumentów są tak naprawdę dodatkowe konwersje, których nie osiągnęlibyśmy gdyby nie kampania. Odpowiednio dobierając komunikowaną grupę, możemy z takim samym budżetem wygenerować znacząco więcej inkrementalnych zakupów. Uplift modeling, inaczej modelowanie predykcyjne dostępne wśród narzędzi data scientists może być tutaj istotną pomocą.