Zamów
bezpłatną
konsultację

Wykres pudełkowy, nie taki trudny jak się wydaje!

Wykres pudełkowy (ang. Box-and-whisker plot, tłumaczony dosłownie to wykres pudełka z wąsami) to jeden z tych wykresów, który podczas szkoleń lub prezentacji wzbudza w uczestnikach spore zakłopotanie. Prawdę mówiąc, jest rzadko stosowany przez naszych klientów. Wynika to z pewnością z braku wiedzy o tym jaki zakres informacji niesie za sobą ten złożony przykład wizualizacji rozkładu.

W tym artykule postaram się przybliżyć konstrukcję i interpretację informacji płynącej z tego wykresu. Za tworzywo posłużą nam wyniki Orlen Warsaw Marathon (OWM). Wyniki zawodów sportowych to idealny materiał do analizy rozkładu populacji. Próbka jest wystarczająco duża i zróżnicowana. W naszym przykładzie porównamy wyniki między płciami oraz kategoriami wiekowymi. Zobaczymy jak bardzo różnią się i czy wykres pudełkowy jest pomocny aby to łatwo zaobserwować.

Zanim zaczniemy analizę wyników OWM przyjrzyjmy się budowie wykresu pudełkowego.

Wykres pudełkowy – budowa

Tutaj sprawa się komplikuje, bo wykres pudełkowy występuje w dwóch wersjach. Chyba najczęściej spotykana jest wersja gdzie wąsy oznaczają pełny zakres populacji od minimum do maksimum. Pudełko reprezentuje pierwszy Q1 oraz trzeci Q3 kwartyl. OK ale co to oznacza? Punkty między pierwszym i trzecim kwartylem reprezentują dokładnie 50% populacji a mediana Me środek populacji.

 

Wykres pudełkowy reprezentuje pierwszy Q1 oraz trzeci Q3 kwartyl

Druga wersja tego wykresu jest właśnie domyślnie dostępna w Tableau. Jest to tzw.wersja Tukey’a pokazuje wąsy jako 1.5 rozstępu kwartylnego IQR (Inter Quartile Range). Wtedy wartości minima i maksima jeśli są różne wyjdą poza wąsy i będą reprezentowały elementy odstające od reszty populacji (tzw. outliers).

wykres pudełkowy w wersja Tukey’a

 

Wykres pudełkowy – co nam daje?

  • Podaje wartość 5 miar: mediany, 1 kwartyla, 3 kwartyla, maksimum i minimum
  • Pozwala zaobserwować poziom rozproszenia / koncentracji populacji
  • Umożliwia ocenę czy populacja jest symetryczna czy prawo lub lewoskośna
  • Dzięki niemu szybko dostrzeżemy elementy odstające tzw. outliers
  • Daje wyobrażenie o wielkości populacji

Jak go zbudować wykres pudełkowy w Tableau?

To jeden z tych wykresów, który jest dostępny „spod palca” w menu Show Me. Zaznaczmy odpowiednie pola z klawiszem CTRL o wybieramy zaznaczony typ wykresu.

Sposób wyboru typu wykresu

Istotne jest to, że klikając na pudełku lub wąsach prawym klawiszem możemy zmienić jego ustawienia wybierając jedną z dwóch wersji tego wykresu oraz formatować jego styl.

Dwie wersje wykresu i formatowanie jego stylu

Kiedy warto użyć wykresu pudełkowy?

Mamy tendencję do nadmiernego agregowania miar i analizowania ich na poziomie makrokategorii. Czasami zejście do danych ziarnistych daje nieoczekiwane obserwacje i wtedy ujawnia się cała siła analizy wizualnej. Wykorzystajmy nasz dashboard z wynikami maratonu.

Wizualizacja liczby uczestników przy pomocy wykresu pudełkowego

Pierwsza wizualizacja pokazuje liczbę uczestników w podziale na płeć i kategorię wiekową. OK dane zagregowane są bardzo czytelne. Druga w postaci Lollipop chart przedstawia medianę wyników. Obie wizualizacje są proste w interpretacji widać, że najliczniejszą grupą uczestników to mężczyźni w kategorii wiekowej 30 i 40, oni też osiągają przeciętnie najlepsze wyniki. Co ciekawe, panowie z kategorii 30 są przeciętnie szybsi niż panowie z kategorii 18.

Liczba uczestników w podziale na płeć i kategorię wiekowąLollipop chart przedstawia medianę wyników

Wykres pudełkowy pokaże nam te same informacje o wielkości poszczególnych grup (1), również pozwoli porównać mediany na wskroś kategorii wiekowych (2) a dodatkowo ujawni inne ciekawe właściwości danych oferując szerszy kontekst.

Porównywanie mediany na wskroś kategorii wiekowych na wykresie pudełkowym

Na wykresie pudełkowym zachowujemy możliwość odnalezienia wartości minimalnych i maksymalnych (3). Możemy też zaobserwować, że mężczyźni 30 są bardziej skoncentrowani wokół mediany. Dzięki temu są oni przez bardziej spójni w wynikach niż mężczyźni z kategorii 18, gdzie wielkość pudełka, a przez to rozpiętość wąsów, jest większa (4). Co ciekawe mężczyźni z kategorii 50 osiągają przeciętnie niewiele gorsze wyniki niż kategoria M18 ale za to koncentracja wyników wokół mediany jest jeszcze większa niż w przypadku M40.

Dzięki tej formie wizualizacji możemy łatwo zaobserwować elementy odstające w kategorii kobiet 30 (5). To oczywiście była czołówka wśród pań. Na uwagę zasługują dwa punkty w kategorii K50, które osiągnęły znacznie ponadprzeciętne wyniki (6).

Oczywiście to nie wszystkie wnioski i obserwacje jakie możemy wyciągnąć używając wykresu pudełkowego ale mam nadzieję, że od teraz będziecie wiedzieć jak go czytać i chętniej wykorzystywać w swojej codziennej pracy.

Happy box plotting!

Aktualności

E-book: Przepływ danych – porównanie Fivetran, Stitch i Matillion

Aktualności

10 funkcjonalności Tableau Prep Builder, o których musisz wiedzieć