Jest to kolejna część serii artykułów o Data Science w programie Tableau. Po omówieniu regresji liniowej przejdę tym razem do działu, jakim jest prognozowanie w Tableau, następnej opcji z panelu Analytics.
Celem tego artykułu jest przybliżenie, w jaki sposób Tableau przeprowadza prognozowanie oraz omówienie poglądowe jednej z metod. Jest to wstęp do dalszej części artykułów, gdzie postaram się wyjaśnić więcej aspektów teoretycznych związanych z tym zagadnieniem i przedstawić przykłady użycia na wybranych zestawach danych w samym Tableau.
Prognozowanie w Tableau a teoria
Do prognozowania Tableau przeprowadza na szeregach czasowych wygładzanie wykładnicze (exponential smoothing). Istnieje wiele metod, jakie zastosować można w przypadku obróbki szeregu czasowego. Tableau używa ich dokładnie osiem. Są to m.in. model liniowy Holta, model Wintersa, czy najbardziej podstawowy, model Browna. Zgodnie z nazwą, wygładzanie sprowadza się do usunięcia szumu i odpowiedniej wizualizacji przebiegu zmiennej. Można użyć go również we wspomnianym prognozowaniu.
Odpowiednie metryki mierzą to, w jaki sposób sprawdza się dany model. Tableau przed samą wizualizacją wybiera ten z najlepszym wynikiem i go stosuje. Żeby zapoznać się odpowiednio z samą teorią modeli, przybliżę to, w jaki sposób prognozuje się przy pomocy modelu Browna. Wszystkie one operują na wagach i średniej ważonej, tym samym obraz tego przykładu przybliży wgląd na całą resztę.
Wygładzanie wykładnicze metodą Browna (simple exponential smoothing)
Nazewnictwo może być mylące. W dokumentacji spotkałem się właśnie z nazwaniem tego typu wygładzania nazwiskiem Pana Browna oraz wraz z określaniem tego modelu jako prostego wygładzania wykładniczego. W każdym razie ideą tej metody jest przewidywanie, czy też bardziej profesjonalnie, prognozowanie przyszłych wartości przy użyciu średnich ważonych. Trzeba również wspomnieć tutaj o warunkach, jakie spełnić muszą dane poddane temu wygładzaniu. Metodę Browna używa się w szeregu czasowym, gdzie nie występuje trend oraz sezonowość.
Czym jest trend i sezonowość?
Trend jest to tendencja wartości do wzrostu lub spadku w długim okresie, np. średnia temperatura na Ziemi miałaby trend wzrostowy ze względu na globalne ocieplenie.
Sezonowością można nazwać przewidywalne fluktuacje w danych, np. temperatura w ciągu roku, poddana naturalnemu cyklowi pór roku (zima spadek, lato wzrost, zima spadek, itd.).
Wracając do naszej metody, widzimy w niej dosyć spore ograniczenia. Dane często przedstawiają ww. cechy. Dlatego właśnie Tableau operuje na wspomnianych 8 metodach wygładzania. Metodę Holta stosuje się do danych z trendem, ale za to bez sezonowości. W przypadku modelu Wintera założenia zakładają występowanie i sezonowości i trendu.
Wzór
Jak działa prognozowanie w Tableau?
Mając 12 okresów, dla przykładu 12 miesięcy w roku i chcąc przewidzieć wartość Y dla miesiąca trzynastego, najpierw konieczne jest określenie początkowego okresu.
Dla naszego przykładu będzie to po prostu okres pierwszy t = 1. Postępujemy zgodnie z wytycznymi ze wzorem zapisanym powyżej. Pierwszą wartość
yPt−1
przepisujemy, ze względu na brak danych. Dla okresu drugiego otrzymujemy równanie: 0.2 *232 + 0.8 * 232 = 232. Wpisujemy nowe wartości do tabeli i liczymy dalej. Dla okresu t = 3 po szybkich obliczeniach otrzymujemy wartość 232,4. Po obliczeniu trzynastego miesiąca tak wygląda wypełniona tabela:
Wartości z kolumny Yt zostały wygenerowane losowo, tym samym interpretacja nie ma tu miejsca bytu. Możemy jednak zauważyć, że niemożliwe byłoby przewidzenie kolejnego okresu t = 14 z powodu braku danych. Z każdą napływającą nową zmienną jesteśmy w stanie ponownie prognozować kolejne miesiące.
Podsumowanie
Starałem się przybliżyć, jak wygląda algorytm od samych podstaw. Jest to temat niezwykle rozległy, więc uznając fundamenty za kluczowe, w ten właśnie sposób chciałem pokazać, co stoi za najprostszym modelem prognozowania w Tableau. W dalszych częściach rozwinę inne metody i pokażę ich użycie w programie.