Zamów
bezpłatną
konsultację

Trend Line w Tableau

W poprzednim artykule z cyklu Data Science w Tableau omówiliśmy teorię regresji liniowej i jej ogólne zastosowanie dla wnioskowania statystycznego w business intelligence. W tej części zajmiemy się Trend Line w Tableau czyli regresją liniową w praktyce.

Rodzaje Trend Line w Tableau

Tableau istnieje panel Analytics (1), dzięki którym możemy dokonywać prognoz, czy klastrowania na różne sposoby. Tam również znajduję się zakładka Model, a w niej Trend Line (2).  

 

panel Analytics

 

Możemy tę opcję przeciągnąć na różnego rodzaju warianty, których opisem zajmę się w dalszych artykułach z tego cyklu. Pierwsza opcja, na której się jednak skupię jest to Linear Trend Line (1), tj. model regresji liniowej. 

 

trend line w tableau

 

 Aby tylko zobrazować różnicę pomiędzy różnymi funkcjami, przedstawię tutaj przykład zastosowania modelu regresji nieliniowej (rysunek pierwszy), oraz liniowej. Widać tutaj, że niespełniony został warunek liniowej zależności zmiennych, tym samym użycie Trend Line Power jest dużo skuteczniejsze w prognozowaniu wartości. Warto zatem wcześniej się zapoznać z danymi i mieć pewność, że nie przekłamiemy rzeczywistości. 

 

użycie Trend Line Power

 

Trend Line na zbiorze danych Life Expectancy Data 

Przykładowe zastosowanie regresji przeprowadzę na zbiorze danych, który posiada różne czynniki mogące wpłynąć w jakiś sposób na długość życia wraz z podziałem na poszczególne kraje.  

Znaleźć zależność liniową, która spełnia wcześniej postawione wymagania nie było wcale tak łatwo. Po zmianie wartości napotkałem na dwie choroby Polio oraz Błonica, których zależność liniowa była widoczna gołym okiem. Postaram się jednak na tym przykładzie, widocznym na obrazku poniżej, przedstawić, dlaczego takie postawienie regresji liniowej jest błędne. 

 

błędne postawienie regresji liniowej

 

Rozłożenie reszt w tym przykładzie może istotnie biegnąć do rozkładu normalnego, rozłożenie również akceptowalne. Istnieje duże nagromadzenie wartości w okolicach wartości maksymalnych (1), nie jest to do końca wartością dodaną, ale pozostawmy to zagadnienie. Brakuje dodatkowo wartości ekstremalnych. Co jest zatem problem w takim przedstawieniu prognozy?  

Posłużyć trzeba się tu, wcześniej wspomnianą, wiedzą eksperckąA mianowicie, można się dowiedzieć, że szczepionki na chorobę polio są podawane wraz z antygenem stymulującym przeciwciała na chorobę błonicę. Tym samym, nie są one wobec siebie niezależne. Cała analiza wprowadziłaby w błąd badaczy, a zastosowanie regresji liniowej mijałoby się z celem. Trzeba być szczególnie wyczulonym na tego typu niuanse, a kwestie wynikowości, zależności oraz jej braku są zagadnieniami najtrudniejszymi przy zastosowaniu regresji liniowej. Warto tu podkreślić różnicę pomiędzy samą korelacją, a wynikowością tak często pomijaną przy tego typu badaniach. Jedno nie jest tożsame z drugim, ponieważ do oceny wynikowości potrzeba wiedzy eksperckiej lub zastosowania odpowiednich badań. 

Przykład zastosowania regresji w Tableau

Przechodząc jednak do poprawnego zastosowania regresji, posłużę się wartościami opisującymi średnie spożycie alkoholu w danym kraju i średni wiek, na którym zakończono edukację. 

                 

 Jest to wykres widoczny po prawej stronie wizualizacji. Jest w istocie pewna zależność pomiędzy tymi wartościami. Im więcej naród spędza czasu w szkole, tym więcej spożywa alkoholu. I tutaj również pojawiają się pytania o pewną zależność tych zmiennych. Bezpośrednio jej nie widać, jednak czy kraje związane z daną religią, które jednocześnie mogą cechować się mniejszym naciskiem na edukację nie dyktują odpowiednich zasad co do picia alkoholu? Zależność można znaleźć, ale nie jest ona bezpośrednia, tym samym przejdziemy do dalszej analizy. 

Po najechaniu na krzywą, widzimy widoczne równanie samej funkcji, współczynnik determinacji oraz p-value. Podstawiając wartości pod funkcję możemy prognozować, ile wypija się średnio alkoholu, przy konkretnej liczbie lat spędzonych w szkole. Wyjaśnia to w około 37% zmienność tej drugiej wartości. Nasz model na pewno nie jest doskonały, a taki niski poziom R2  nie jest satysfakcjonujący. Trzeba również wspomnieć, że w różnych naukach, różny poziom estymatorów jest zadowalający. W ekonomii wynik 37% mógłbym nawet wydać się komuś użyteczny. Nie mnie to jednak oceniać, a model stanowi jedynie pogląd możliwości Tableau. Wartość p-value wskazuje na istotność statystyczną. Na co można zwrócić jeszcze uwagę to na wyraz wolny, który w tym wypadku nie jest interpretowalny. 

 

podgląd po najechaniu na krzywą

 

 

Klikając prawym przyciskiem myszy na linii trendu, a później ikonkę Describe Trend Model uzyskujemy szczegółowy raport na temat danej funkcji regresji. Prezentuje się on następująco: 

 

Describe Trend Model


Miary
 oceny tej regresji liniowej zostały przedstawione już wcześniej, dodatkowo znajdują się tu stopnie wolności, które przy podanych wartościach p-value nie znajdują już dużego zastosowania. Standardowe statystyki jak odchylenie, wartość wyrazu wolnego (intercept), oraz t-value (potrzebne do oceny p-value). 

 

Podsumowanie

Proces tworzenia regresji liniowej w Tableau jest trywialny, ale nie warto lekceważyć fundamentalnych założeń stojących za tym algorytmem. Pozwoli to lepiej zrozumieć i prognozować wartości. Czasem również niezbędna okazać się może ekspercka wiedza z danej dziedziny. A kiedy indziej, nic nie może nam pomóc. Wtedy zrezygnujmy z regresji liniowej, żeby nie zakłamywać prognoz i wrócić do tego, po uzupełnieniu potrzebnej wiedzy. 

Aktualności

E-book: Przepływ danych – porównanie Fivetran, Stitch i Matillion

Aktualności

10 funkcjonalności Tableau Prep Builder, o których musisz wiedzieć