Regresja liniowa – data science w Tableau
Artykuł ten rozpoczyna serię Data Science Tableau, czyli przybliżenie możliwości jakie daje nam Tableau w zakresie statystyki oraz analiz predykcyjnych. Sam tekst pozwoli lepiej zrozumieć model jakim jest regresja liniowa, docenić wiedzę statystyczną i zachęcić do jej rozwijania oraz zwrócić uwagę na kwestię wiedzy eksperckiej i jej roli w budowaniu wszelakich modeli.
W celu zrozumienia możliwości data science w Tableau potrzebne jest przejście przez teoretyczny wstęp dotyczący teorii regresji liniowej.
Od czego zacząć w data science Tableau czyli regresja liniowa
Jest to jedna z metod analizy danych (obok klasyfikacji czy klastrowania). W porównaniu jednak do klasycznego problemu klasyfikacji, tutaj dokonujemy predykcji zmiennej przyjmującej wartość ciągłą. Dokonujemy tego na podstawie innych zmiennych, zwanych zmiennymi objaśniającymi.
Regresja liniowa, bo o niej mowa w tym artykule, jest to jej najprostsza wersja. Dosłownie. Zależność pomiędzy zmienną objaśnianą, a objaśniającą jest liniowa. Występują oczywiście różne warianty regresji, kilka z nich jest również dostępna w Tableau. Artykuł ten pokrywa jedynie regresje liniową z jedną zmienną objaśnianą i jedną objaśniającą.
Mając zatem obserwacje rozrzucone na osi współrzędnych, można za pomocą różnych metod (w naszym przypadku metodzie najmniejszych kwadratów) wyznaczyć linie, która najlepiej opisuje zależność zmiennych.
Funkcję samej regresji możemy zapisać za pomocą krótkiego równania:
y=ax+b
Gdzie:
- y – zmienna objaśniana
- x – zmienna objaśniająca
- a – współczynnik kierunkowy
- b – wyraz wolny
Najbardziej istotna jest zatem wartość współczynnika kierunkowego. Mierzy on wpływ zmiany x na zmienną y. Interpretacja znaku wydaje się być oczywista, tj. gdy liczba jest dodatnia możemy założyć że na wzrost jednostkowy x, wartość y odpowie również wzrostem. I podobnie w przypadku wartości poniżej zera.
Wyraz wolny mówi jaka jest wartość y dla wartości x = 0. Nie jest to często informacja istotna, a bywa też zupełnie pozbawiona sensu (np. dla takich wartości jak waga, czy wzrost wartości zerowe nie znajdują interpretacji).
Jak uzyskać równanie?
Jak wyżej wspomniałem, jest wiele metod na ustalenie wartości a oraz b. Najpopularniejszą jest metoda najmniejszych kwadratów. W skrócie sprowadza się ona do minimalizacji reszt, tj. różnic pomiędzy predykcyjnymi wartościami, a wartościami rzeczywistymi (tj. tymi z obserwacji). Nie będę rozwijał tej kwestii, dokumentacja tej metody jest obszerna i powszechna.
Przybliżę jednak podstawowe założenia tej metody. Posłużą nam one do późniejszej weryfikacji, czy dany zbiór danych jest odpowiedni do przeprowadzenia na nim regresji liniowej.
- Niezależne obserwacje – jedna zmienna nie powinna zależeć od drugiej, podobnie obserwacje również powinny spełniać to założenie między sobą.
- Rozkład reszt zbliżony do normalnego (lub normalny) – rozkład reszt, czyli różnica pomiędzy predykcją, a stanem rzeczywistym powinien być jak najbliższy normalnemu.
- Równomierne rozproszenie – wszelkie wartości ekstremalne wpływają negatywnie na położenie funkcji regresji (metoda najmniejszych kwadratów potęgują dodatkowo outliner’y, niemającego odpowiedniego punktu równoważącego po drugiej stronie linii).
- Zależność liniowa – zależność taka musi występować, inaczej może dojść do przekłamania w predykcji. Liniowość musi być również zachowana dla tego typu regresji.
Niestosowanie się do tych założeń może skutkować tym co widzimy na kwartecie Anscombe’a.
Dla pierwszego wykresu wszystko wygląda poprawnie, jednak później widać że błędem było niezastosowanie regresji nieliniowej. Dla przykładu z x3 i y3 nie został spełniony warunek o zrównoważonych odstających wartościach (lub najlepiej o ich braku), a ostatni wykres również nie wykazuje zrównoważonego rozłożenia obserwacji.
Jak ocenić zatem wartość funkcji regresji liniowej?
Istnieje kilka sposobów ewaluacji funkcji regresji. Przedstawię te obecne w Tableau. Są to:
- Standard error – błąd standardowy informuje ile średnio wartości prognozowane odchylają się od tego co mamy w obserwacjach.
- SSE (sum squared error) – w skrócie są to zsumowane wartości Standard error, dla każdej zbadanej obserwacji.
- MSE (mean squared error) – błąd średniokwadratowy, tj. średnia ze wszystkich różnic kwadratów odchyleń, o których mowa jest w estymatorze Standard error.
- R-Squared – współczynnik determinacji to najpopularniejsza miara dokładności naszej funkcji regresji. Określa poziom w jakim wyjaśnia ona zmienność zmiennej y. Przyjmuje wartości od 0 do 1, gdzie 1 jest to idealne dopasowanie.
- P-value – weryfikuje czy współczynnik kierunkowy b, jest istotnie różny od 0. Sprawdza on sensowność zastosowania funkcji regresji i czy, w ogóle zmiana jednej wartości, pociągnie zmianę drugiej. Szukamy wartości poniżej poziomu istotności, najlepiej tych bliskich zeru. Niski poziom p-value odrzuca hipotezę mówiącą o braku związku pomiędzy wartościami. Progiem, jaki się zazwyczaj przyjmuje (zwanym poziomem istotności) jest wartość około 0.05. Wartość p-value jest szczególnie istotna dla regresji z wieloma zmiennym. W naszym przypadku najczęściej jest to kwestia widoczna na pierwszy rzut oka.
Powyższy przykład ilustruje możliwe powody, dla których p-value może okazać się za wysokie, a regresja zupełnie nieprzydatna. Widać brak zależności pomiędzy wartościami, która jest jednym z warunków nałożenia linii regresji w sposób poprawny.
Oto wiedza teoretyczna w pigułce. Oczywiście jest to kwestia dużo bardziej obszerna, ale istotniejszą częścią tego artykułu jest użycie regresji liniowej w Tableau i na tym się koncentrujemy. O praktycznym zastosowaniu regresji liniowej w Tableau przeczytać w artykule o Trend Line w Tableau. W celu zrozumienia teorii regresji, polecamy również wsparcie się blogami statystycznymi i publikacjami np: A.D. Aczel, Statystyka w zarządzaniu (Prosty model regresji liniowej, str. 460).