Linia trendu w Tableau
W poprzednim artykule z cyklu Data Science w Tableau omówiliśmy teorię regresji liniowej i jej ogólne zastosowanie dla wnioskowania statystycznego w Business Intelligence. W tej części zajmiemy się linią trendu (Trend Line) w Tableau czyli regresją liniową w praktyce.
Rodzaje linii trendu w Tableau
W Tableau istnieje panel Analytics (1), dzięki którym możemy dokonywać prognoz, czy klastrowania na różne sposoby. Tam również znajduję się zakładka Model, a w niej Trend Line (2).
Możemy tę opcję przeciągnąć na różnego rodzaju warianty, których opisem zajmę się w dalszych artykułach z tego cyklu. Pierwsza opcja, na której się jednak skupię jest to Linear Trend Line (1), tj. model regresji liniowej.
Aby tylko zobrazować różnicę pomiędzy różnymi funkcjami, przedstawię tutaj przykład zastosowania modelu regresji nieliniowej (rysunek pierwszy), oraz liniowej. Widać tutaj, że niespełniony został warunek liniowej zależności zmiennych, tym samym użycie Trend Line Power jest dużo skuteczniejsze w prognozowaniu wartości. Warto zatem wcześniej się zapoznać z danymi i mieć pewność, że nie przekłamiemy rzeczywistości.
Linia trendu na zbiorze danych Life Expectancy Data
Przykładowe zastosowanie regresji przeprowadzę na zbiorze danych, który posiada różne czynniki mogące wpłynąć w jakiś sposób na długość życia wraz z podziałem na poszczególne kraje.
Znaleźć zależność liniową, która spełnia wcześniej postawione wymagania nie było wcale tak łatwo. Po zmianie wartości napotkałem na dwie choroby Polio oraz Błonica, których zależność liniowa była widoczna gołym okiem. Postaram się jednak na tym przykładzie, widocznym na obrazku poniżej, przedstawić, dlaczego takie postawienie regresji liniowej jest błędne.
Rozłożenie reszt w tym przykładzie może istotnie biegnąć do rozkładu normalnego, rozłożenie również akceptowalne. Istnieje duże nagromadzenie wartości w okolicach wartości maksymalnych (1), nie jest to do końca wartością dodaną, ale pozostawmy to zagadnienie. Brakuje dodatkowo wartości ekstremalnych. Co jest zatem problem w takim przedstawieniu prognozy?
Posłużyć trzeba się tu, wcześniej wspomnianą, wiedzą ekspercką. A mianowicie, można się dowiedzieć, że szczepionki na chorobę polio są podawane wraz z antygenem stymulującym przeciwciała na chorobę błonicę. Tym samym, nie są one wobec siebie niezależne. Cała analiza wprowadziłaby w błąd badaczy, a zastosowanie regresji liniowej mijałoby się z celem. Trzeba być szczególnie wyczulonym na tego typu niuanse, a kwestie wynikowości, zależności oraz jej braku są zagadnieniami najtrudniejszymi przy zastosowaniu regresji liniowej. Warto tu podkreślić różnicę pomiędzy samą korelacją, a wynikowością tak często pomijaną przy tego typu badaniach. Jedno nie jest tożsame z drugim, ponieważ do oceny wynikowości potrzeba wiedzy eksperckiej lub zastosowania odpowiednich badań.
Przykład zastosowania regresji w Tableau
Przechodząc jednak do poprawnego zastosowania regresji, posłużę się wartościami opisującymi średnie spożycie alkoholu w danym kraju i średni wiek, na którym zakończono edukację.
Jest to wykres widoczny po prawej stronie wizualizacji. Jest w istocie pewna zależność pomiędzy tymi wartościami. Im więcej naród spędza czasu w szkole, tym więcej spożywa alkoholu. I tutaj również pojawiają się pytania o pewną zależność tych zmiennych. Bezpośrednio jej nie widać, jednak czy kraje związane z daną religią, które jednocześnie mogą cechować się mniejszym naciskiem na edukację nie dyktują odpowiednich zasad co do picia alkoholu? Zależność można znaleźć, ale nie jest ona bezpośrednia, tym samym przejdziemy do dalszej analizy.
Po najechaniu na krzywą, widzimy widoczne równanie samej funkcji, współczynnik determinacji oraz p-value. Podstawiając wartości pod funkcję możemy prognozować, ile wypija się średnio alkoholu, przy konkretnej liczbie lat spędzonych w szkole. Wyjaśnia to w około 37% zmienność tej drugiej wartości. Nasz model na pewno nie jest doskonały, a taki niski poziom R2 nie jest satysfakcjonujący. Trzeba również wspomnieć, że w różnych naukach, różny poziom estymatorów jest zadowalający. W ekonomii wynik 37% mógłbym nawet wydać się komuś użyteczny. Nie mnie to jednak oceniać, a model stanowi jedynie pogląd możliwości Tableau. Wartość p-value wskazuje na istotność statystyczną. Na co można zwrócić jeszcze uwagę to na wyraz wolny, który w tym wypadku nie jest interpretowalny.
Klikając prawym przyciskiem myszy na linii trendu, a później ikonkę Describe Trend Model uzyskujemy szczegółowy raport na temat danej funkcji regresji. Prezentuje się on następująco:
Miary oceny tej regresji liniowej zostały przedstawione już wcześniej, dodatkowo znajdują się tu stopnie wolności, które przy podanych wartościach p-value nie znajdują już dużego zastosowania. Standardowe statystyki jak odchylenie, wartość wyrazu wolnego (intercept), oraz t-value (potrzebne do oceny p-value).
Podsumowanie
Proces tworzenia regresji liniowej w Tableau jest trywialny, ale nie warto lekceważyć fundamentalnych założeń stojących za tym algorytmem. Pozwoli to lepiej zrozumieć i prognozować wartości. Czasem również niezbędna okazać się może ekspercka wiedza z danej dziedziny. A kiedy indziej, nic nie może nam pomóc. Wtedy zrezygnujmy z regresji liniowej, żeby nie zakłamywać prognoz i wrócić do tego, po uzupełnieniu potrzebnej wiedzy.