Zetknięcie się z danymi o strukturze zdenormalizowanej, o powtarzających się wartościach, zbyt dużej ilości nagłówków, zdecydowanie nie sprzyja odpowiedniej ilustracji danych przy pomocy Tableau. Dane przedstawione na wykresach wydają się być nieczytelne przez zbyt dużą ilość zmiennych, a sama analiza może wymagać uchwycenia szerszego poglądu. Grupowanie danych pozwala na agregację wartości według uznania użytkownika.
Grupowanie danych – sposoby?
Istnieją dwa główne sposoby na tworzenie grup w Tableau.
Grupowanie z poziomu wizualizacji, poprzez wybór jednego lub więcej punktów danych i kliknięcie ikony (1) grupowania (po kliknięciu prawym przyciskiem myszy lub na górze okna). Przy wystąpieniu różnych poziomów szczegółowości, użytkownik wskazuje ten odpowiedni.
Grupowanie z panelu Data pane poprzez kliknięcie prawym przyciskiem myszy na wybraną miarę lub wymiar* i kliknięcie Create -> Group (2). Dzięki pojawiającemu się oknu można wybrać jakie konkretne wartości mają być pogrupowane oraz jak grupę nazwać. Opcja Include ’Other’ umożliwia uwzględnienie całej reszty niewybranych zmiennych poprzez zawarcie ich w zmiennej Other. Ponadto, użytkownik może wyszukiwać wartości, klikając na Find.
Po stworzeniu grupy, zostaje ona dodana na listę pól oraz istnieje możliwość jej edycji, tj. zmianę nazwy czy usunięcie lub dodanie wartości. Wymaga to jednak późniejszej weryfikacji, ze względu na możliwość pojawienia się nowych, nieprzypisanych zmiennych lub takich, które wpadną do koszyka Others.
Grupowanie danych – praktyczne zastosowania
Wsparcie analizy poprzez grupowanie wielu nagłówków oraz ujednolicenie danych
Zestawy danych zawierają niejednokrotnie błędy w postaci powtarzających się nagłówków (przykładowo: POL i Polska, czy CA i California). Dodatkowo, sytuacja może wymuszać na użytkowniku zgrupowanie np. (Litwa, Łotwa i Estonia jako jeden region) do odpowiedniej analizy. Zarówno w pierwszym jak i w drugim przypadku kliknięcie lewym przyciskiem myszy oraz klawiszem CTRL na wybranych nagłówkach oraz wybranie opcji grupowania z górnego panelu spowoduje łączenie wybranych pól. Tableau użyje automatycznie sumowania na wartościach.
Zastosowanie Color przy użyciu grupowania
Użytkownik może wybrać konkretne punkty na wykresie punktowym przy użyciu lewego kliknięcia myszki oraz klawisza CTRL, po czym zgrupować je. Dodanie odpowiedniego koloru pozwala na łatwą identyfikację wybranych zmiennych na wykresie.
Przykład poniżej ilustruje użycie grupowania danych po wybraniu punktów na wykresie punktowym. Tableau oferuje opcję grupowaniu po każdym wymiarze lub na wszystkich dostępnych naraz.
Wybierając trzy punkty, użytkownik ma możliwość pogrupować je w wymiarze Region, Segment lub poprzez wszystkie wymiary. Dzięki opcji All Dimensions, zostaną przydzielone do grupy tylko wybrane przez użytkownika wartości, tj. takie jak na ilustracji wyżej.
Wybierając wymiar Region, Tableau po pierwsze wybierze wszystkie punkty znajdujące się w regionie East oraz North (1), a następnie pogrupuje je, dzieląc na wybrane wartości oraz Others. Dodatkowo automatycznie użyje kolorowania.
Wybierając wymiar Segment, Tableau wybierze wszystkie punkty znajdujące się w regionie Home Office oraz Small Business (2).
Optymalizacja grupowania danych przy pomocy kalkulacji
Jeżeli priorytetem jest dla nas jak najszybsze działanie wizualizacji, warto przyjrzeć się grupowaniu przy pomocy kalkulacji. Tableau przy takim rozwiązaniu wykonuje operacje tylko na elementach z wymiaru, przy czym nie ładuje ich wszystkich, jak to ma miejsce w przypadku dedykowanej opcji grupowania.
Do zobrazowania przykładu grupowania danych przy użyciu kalkulacji zastosowano kraje europejskie, które pogrupowane zostały na dwa koszyki. Kalkulacje pozwalają zachować dowolność w ilości grup i należących do nich kategorii. W tym wypadku trzy kraje przydzieliliśmy do jednego koszyka, a reszta do drugiego. Dzięki takiej operacji, da się pokazać wybrane wartości dla wybranych krajów (1). Kalkulacje wymagają ręcznego wpisywania formuł (2), dlatego warto zachować ich czytelność. Uwzględnienie zbyt dużej ilości zmiennych skutkować będzie obniżeniem wydajności całego procesu. Z tego względu przewagą rozwiązania będzie jednak bardziej uniwersalna struktura. Nie występuje w niej zwiększone ryzyko, wcześniej wspomnianego, niechcianego przypisania do koszyka Others lub nieprzypisania go w ogóle.
*O miarach i wymiarach w Tableau przeczytasz w artykule: Niebieskie czy zielone? Miary i wymiary w Tableau, na naszym blogu.