Wykres pudełkowy (ang. Box-and-whisker plot, tłumaczony dosłownie to wykres pudełka z wąsami) to jeden z tych wykresów, który podczas szkoleń lub prezentacji wzbudza w uczestnikach spore zakłopotanie. Prawdę mówiąc, jest rzadko stosowany przez naszych klientów. Wynika to z pewnością z braku wiedzy o tym, jaki zakres informacji niesie za sobą ten złożony przykład wizualizacji rozkładu.
W tym artykule postaram się przybliżyć konstrukcję i interpretację informacji płynącej z tego wykresu. Za tworzywo posłużą nam wyniki Orlen Warsaw Marathon (OWM). Wyniki zawodów sportowych to idealny materiał do analizy rozkładu populacji. Próbka jest wystarczająco duża i zróżnicowana. W naszym przykładzie porównamy wyniki między płciami oraz kategoriami wiekowymi. Zobaczymy, jak bardzo różnią się i czy wykres pudełkowy jest pomocny, aby to łatwo zaobserwować.
Zanim zaczniemy analizę wyników OWM przyjrzyjmy się budowie wykresu pudełkowego.
Wykres pudełkowy — budowa
Tutaj sprawa się komplikuje, bo wykres pudełkowy występuje w dwóch wersjach. Chyba najczęściej spotykana jest wersja, gdzie wąsy oznaczają pełny zakres populacji od minimum do maksimum. Pudełko reprezentuje pierwszy Q1 oraz trzeci Q3 kwartyl. OK, ale co to oznacza? Punkty między pierwszym i trzecim kwartylem reprezentują dokładnie 50% populacji a mediana Me środek populacji.
Druga wersja tego wykresu jest właśnie domyślnie dostępna w Tableau. Jest to tzw.wersja Tukey’a pokazuje wąsy jako 1.5 rozstępu kwartylnego IQR (Inter Quartile Range). Wtedy wartości minima i maksima, jeśli są różne, wyjdą poza wąsy i będą reprezentowały elementy odstające od reszty populacji (tzw. outliers).
Wykres pudełkowy — co nam daje?
- Podaje wartość 5 miar: mediany, 1 kwartyla, 3 kwartyla, maksimum i minimum
- Pozwala zaobserwować poziom rozproszenia / koncentracji populacji
- Umożliwia ocenę czy populacja jest symetryczna, czy prawo lub lewoskośna
- Dzięki niemu szybko dostrzeżemy elementy odstające tzw. outliers
- Daje wyobrażenie o wielkości populacji
Jak zbudować wykres pudełkowy w Tableau?
To jeden z tych wykresów, który jest dostępny „spod palca” w menu Show Me.
Zaznaczmy odpowiednie pola z klawiszem CTRL i wybieramy zaznaczony typ wykresu.
Istotne jest to, że klikając na pudełku lub wąsach prawym klawiszem możemy zmienić jego ustawienia, wybierając jedną z dwóch wersji tego wykresu oraz formatować jego styl.
Pobierz wersję darmową – Tableau trial
Kiedy warto użyć wykresu pudełkowego?
Mamy tendencję do nadmiernego agregowania miar i analizowania ich na poziomie makrokategorii. Czasami zejście do danych ziarnistych daje nieoczekiwane obserwacje i wtedy ujawnia się cała siła analizy wizualnej. Wykorzystajmy nasz dashboard z wynikami maratonu.
Pierwsza wizualizacja pokazuje liczbę uczestników w podziale na płeć i kategorię wiekową. OK dane zagregowane są bardzo czytelne. Druga w postaci Lollipop chart przedstawia medianę wyników. Obie wizualizacje są proste w interpretacji. Widać, że najliczniejszą grupą uczestników to mężczyźni w kategorii wiekowej 30 i 40. Oni też osiągają przeciętnie najlepsze wyniki. Co ciekawe, panowie z kategorii 30 są przeciętnie szybsi niż panowie z kategorii 18.
Wykres pudełkowy pokaże nam te same informacje o wielkości poszczególnych grup (1). Pozwoli również porównać mediany na wskroś kategorii wiekowych (2), a dodatkowo ujawni inne ciekawe właściwości danych, oferując szerszy kontekst.
Na wykresie pudełkowym zachowujemy możliwość odnalezienia wartości minimalnych i maksymalnych (3). Możemy też zaobserwować, że mężczyźni 30 są bardziej skoncentrowani wokół mediany. Dzięki temu są oni przez bardziej spójni w wynikach niż mężczyźni z kategorii 18, gdzie wielkość pudełka, a przez to rozpiętość wąsów, jest większa (4). Co ciekawe mężczyźni z kategorii 50 osiągają przeciętnie niewiele gorsze wyniki niż kategoria M18, ale za to koncentracja wyników wokół mediany jest jeszcze większa niż w przypadku M40.
Dzięki tej formie wizualizacji możemy łatwo zaobserwować elementy odstające w kategorii kobiet 30 (5). To oczywiście była czołówka wśród pań. Na uwagę zasługują dwa punkty w kategorii K50, które osiągnęły znacznie ponadprzeciętne wyniki (6).
Oczywiście to nie wszystkie wnioski i obserwacje, jakie możemy wyciągnąć, używając wykresu pudełkowego. Mam nadzieję, że od teraz będziecie wiedzieć, jak go czytać i chętniej wykorzystywać w swojej codziennej pracy.
Happy box plotting!