Artykuł ten przybliża możliwości jakie daje nam Tableau w zakresie statystyki oraz analiz predykcyjnych. Sam tekst pozwoli lepiej zrozumieć model jakim jest regresja liniowa, docenić wiedzę statystyczną i zachęcić do jej rozwijania oraz zwrócić uwagę na kwestię wiedzy eksperckiej i jej roli w budowaniu wszelakich modeli.
W celu zrozumienia możliwości data science w Tableau potrzebne jest przejście przez teoretyczny wstęp dotyczący teorii regresji liniowej.
Od czego zacząć w data science Tableau czyli regresja liniowa
Jest to jedna z metod analizy danych (obok klasyfikacji czy klastrowania). W porównaniu jednak do klasycznego problemu klasyfikacji, tutaj dokonujemy predykcji zmiennej przyjmującej wartość ciągłą. Dokonujemy tego na podstawie innych zmiennych, zwanych zmiennymi objaśniającymi.
Regresja liniowa, bo o niej mowa w tym artykule, jest to jej najprostsza wersja. Dosłownie. Zależność pomiędzy zmienną objaśnianą, a objaśniającą jest liniowa. Występują oczywiście różne warianty regresji, kilka z nich jest również dostępna w Tableau. Artykuł ten pokrywa jedynie regresje liniową z jedną zmienną objaśnianą i jedną objaśniającą.
Mając zatem obserwacje rozrzucone na osi współrzędnych, można za pomocą różnych metod (w naszym przypadku metodzie najmniejszych kwadratów) wyznaczyć linie, która najlepiej opisuje zależność zmiennych.
Funkcję samej regresji możemy zapisać za pomocą krótkiego równania:
y=ax+b
Gdzie:
- y – zmienna objaśniana
- x – zmienna objaśniająca
- a – współczynnik kierunkowy
- b – wyraz wolny
Najbardziej istotna jest zatem wartość współczynnika kierunkowego. Mierzy on wpływ zmiany x na zmienną y. Interpretacja znaku wydaje się być oczywista, tj. gdy liczba jest dodatnia możemy założyć że na wzrost jednostkowy x, wartość y odpowie również wzrostem. I podobnie w przypadku wartości poniżej zera.
Wyraz wolny mówi jaka jest wartość y dla wartości x = 0. Nie jest to często informacja istotna, a bywa też zupełnie pozbawiona sensu (np. dla takich wartości jak waga, czy wzrost wartości zerowe nie znajdują interpretacji).
Jak uzyskać równanie?
Jak wyżej wspomniałem, jest wiele metod na ustalenie wartości a oraz b. Najpopularniejszą jest metoda najmniejszych kwadratów. W skrócie sprowadza się ona do minimalizacji reszt, tj. różnic pomiędzy predykcyjnymi wartościami, a wartościami rzeczywistymi (tj. tymi z obserwacji). Nie będę rozwijał tej kwestii, dokumentacja tej metody jest obszerna i powszechna.
Przybliżę jednak podstawowe założenia tej metody. Posłużą nam one do późniejszej weryfikacji, czy dany zbiór danych jest odpowiedni do przeprowadzenia na nim regresji liniowej.
- Niezależne obserwacje – jedna zmienna nie powinna zależeć od drugiej, podobnie obserwacje również powinny spełniać to założenie między sobą.
- Rozkład reszt zbliżony do normalnego (lub normalny) – rozkład reszt, czyli różnica pomiędzy predykcją, a stanem rzeczywistym powinien być jak najbliższy normalnemu.
- Równomierne rozproszenie – wszelkie wartości ekstremalne wpływają negatywnie na położenie funkcji regresji (metoda najmniejszych kwadratów potęgują dodatkowo outliner’y, niemającego odpowiedniego punktu równoważącego po drugiej stronie linii).
- Zależność liniowa – zależność taka musi występować, inaczej może dojść do przekłamania w predykcji. Liniowość musi być również zachowana dla tego typu regresji.
Niestosowanie się do tych założeń może skutkować tym co widzimy na kwartecie Anscombe’a.
Dla pierwszego wykresu wszystko wygląda poprawnie, jednak później widać że błędem było niezastosowanie regresji nieliniowej. Dla przykładu z x3 i y3 nie został spełniony warunek o zrównoważonych odstających wartościach (lub najlepiej o ich braku), a ostatni wykres również nie wykazuje zrównoważonego rozłożenia obserwacji.
Jak ocenić zatem wartość funkcji regresji liniowej?
Istnieje kilka sposobów ewaluacji funkcji regresji. Przedstawię te obecne w Tableau. Są to:
- Standard error – błąd standardowy informuje ile średnio wartości prognozowane odchylają się od tego co mamy w obserwacjach.
- SSE (sum squared error) – w skrócie są to zsumowane wartości Standard error, dla każdej zbadanej obserwacji.
- MSE (mean squared error) – błąd średniokwadratowy, tj. średnia ze wszystkich różnic kwadratów odchyleń, o których mowa jest w estymatorze Standard error.
- R-Squared – współczynnik determinacji to najpopularniejsza miara dokładności naszej funkcji regresji. Określa poziom w jakim wyjaśnia ona zmienność zmiennej y. Przyjmuje wartości od 0 do 1, gdzie 1 jest to idealne dopasowanie.
- P-value – weryfikuje czy współczynnik kierunkowy b, jest istotnie różny od 0. Sprawdza on sensowność zastosowania funkcji regresji i czy, w ogóle zmiana jednej wartości, pociągnie zmianę drugiej. Szukamy wartości poniżej poziomu istotności, najlepiej tych bliskich zeru. Niski poziom p-value odrzuca hipotezę mówiącą o braku związku pomiędzy wartościami. Progiem, jaki się zazwyczaj przyjmuje (zwanym poziomem istotności) jest wartość około 0.05. Wartość p-value jest szczególnie istotna dla regresji z wieloma zmiennym. W naszym przypadku najczęściej jest to kwestia widoczna na pierwszy rzut oka.
Oto wiedza teoretyczna w pigułce. Oczywiście jest to kwestia dużo bardziej obszerna, ale istotniejszą częścią tego artykułu jest użycie regresji liniowej w Tableau i na tym się koncentrujemy. O praktycznym zastosowaniu regresji liniowej w Tableau przeczytać poniżej.
Rodzaje linii trendu w Tableau
W Tableau istnieje panel Analytics (1), dzięki którym możemy dokonywać prognoz, czy klastrowania na różne sposoby. Tam również znajduję się zakładka Model, a w niej Trend Line (2).
Możemy tę opcję przeciągnąć na różnego rodzaju warianty, których opisem zajmę się w dalszych artykułach z tego cyklu. Pierwsza opcja, na której się jednak skupię jest to Linear Trend Line (1), tj. model regresji liniowej.
Aby tylko zobrazować różnicę pomiędzy różnymi funkcjami, przedstawię tutaj przykład zastosowania modelu regresji nieliniowej (rysunek pierwszy), oraz liniowej. Widać tutaj, że niespełniony został warunek liniowej zależności zmiennych, tym samym użycie Trend Line Power jest dużo skuteczniejsze w prognozowaniu wartości. Warto zatem wcześniej się zapoznać z danymi i mieć pewność, że nie przekłamiemy rzeczywistości.
Linia trendu na zbiorze danych Life Expectancy Data
Przykładowe zastosowanie regresji przeprowadzę na zbiorze danych, który posiada różne czynniki mogące wpłynąć w jakiś sposób na długość życia wraz z podziałem na poszczególne kraje.
Znaleźć zależność liniową, która spełnia wcześniej postawione wymagania nie było wcale tak łatwo. Po zmianie wartości napotkałem na dwie choroby Polio oraz Błonica, których zależność liniowa była widoczna gołym okiem. Postaram się jednak na tym przykładzie, widocznym na obrazku poniżej, przedstawić, dlaczego takie postawienie regresji liniowej jest błędne.
Rozłożenie reszt w tym przykładzie może istotnie biegnąć do rozkładu normalnego, rozłożenie również akceptowalne. Istnieje duże nagromadzenie wartości w okolicach wartości maksymalnych (1), nie jest to do końca wartością dodaną, ale pozostawmy to zagadnienie. Brakuje dodatkowo wartości ekstremalnych. Co jest zatem problem w takim przedstawieniu prognozy?
Posłużyć trzeba się tu, wcześniej wspomnianą, wiedzą ekspercką. A mianowicie, można się dowiedzieć, że szczepionki na chorobę polio są podawane wraz z antygenem stymulującym przeciwciała na chorobę błonicę. Tym samym, nie są one wobec siebie niezależne. Cała analiza wprowadziłaby w błąd badaczy, a zastosowanie regresji liniowej mijałoby się z celem. Trzeba być szczególnie wyczulonym na tego typu niuanse, a kwestie wynikowości, zależności oraz jej braku są zagadnieniami najtrudniejszymi przy zastosowaniu regresji liniowej. Warto tu podkreślić różnicę pomiędzy samą korelacją, a wynikowością tak często pomijaną przy tego typu badaniach. Jedno nie jest tożsame z drugim, ponieważ do oceny wynikowości potrzeba wiedzy eksperckiej lub zastosowania odpowiednich badań.
Bezpłatny dashboard dla Twojej firmy
Chcesz zobaczyć, jak wyglądałby dashboard na Twoich danych? Wypełnij formularz a my w 48 godzin przygotujemy dla Ciebie darmowy dashboard dostosowany do konkretnych celów biznesowych.
Przykład zastosowania regresji w Tableau
Przechodząc jednak do poprawnego zastosowania regresji, posłużę się wartościami opisującymi średnie spożycie alkoholu w danym kraju i średni wiek, na którym zakończono edukację.
*dostosuj ustawienia i zaakceptuj funkcjonalne pliki cookies, aby wyświetlić interaktywny dashboard w Tableau. Alternatywnie, kliknij link, aby przejść do Tableau Public.
Jest to wykres widoczny po prawej stronie wizualizacji. Jest w istocie pewna zależność pomiędzy tymi wartościami. Im więcej naród spędza czasu w szkole, tym więcej spożywa alkoholu. I tutaj również pojawiają się pytania o pewną zależność tych zmiennych. Bezpośrednio jej nie widać, jednak czy kraje związane z daną religią, które jednocześnie mogą cechować się mniejszym naciskiem na edukację nie dyktują odpowiednich zasad co do picia alkoholu? Zależność można znaleźć, ale nie jest ona bezpośrednia, tym samym przejdziemy do dalszej analizy.
Po najechaniu na krzywą, widzimy widoczne równanie samej funkcji, współczynnik determinacji oraz p-value. Podstawiając wartości pod funkcję możemy prognozować, ile wypija się średnio alkoholu, przy konkretnej liczbie lat spędzonych w szkole. Wyjaśnia to w około 37% zmienność tej drugiej wartości. Nasz model na pewno nie jest doskonały, a taki niski poziom R2 nie jest satysfakcjonujący. Trzeba również wspomnieć, że w różnych naukach, różny poziom estymatorów jest zadowalający. W ekonomii wynik 37% mógłbym nawet wydać się komuś użyteczny. Nie mnie to jednak oceniać, a model stanowi jedynie pogląd możliwości Tableau. Wartość p-value wskazuje na istotność statystyczną. Na co można zwrócić jeszcze uwagę to na wyraz wolny, który w tym wypadku nie jest interpretowalny.
Klikając prawym przyciskiem myszy na linii trendu, a później ikonkę Describe Trend Model uzyskujemy szczegółowy raport na temat danej funkcji regresji. Prezentuje się on następująco:
Miary oceny tej regresji liniowej zostały przedstawione już wcześniej, dodatkowo znajdują się tu stopnie wolności, które przy podanych wartościach p-value nie znajdują już dużego zastosowania. Standardowe statystyki jak odchylenie, wartość wyrazu wolnego (intercept), oraz t-value (potrzebne do oceny p-value).
Podsumowanie
Proces tworzenia regresji liniowej w Tableau jest trywialny, ale nie warto lekceważyć fundamentalnych założeń stojących za tym algorytmem. Pozwoli to lepiej zrozumieć i prognozować wartości. Czasem również niezbędna okazać się może ekspercka wiedza z danej dziedziny. A kiedy indziej, nic nie może nam pomóc. Wtedy zrezygnujmy z regresji liniowej, żeby nie zakłamywać prognoz i wrócić do tego, po uzupełnieniu potrzebnej wiedzy.