Czyli podstawy Tableau PREP BUILDER
Wyobraźmy sobie taki oto scenariusz: Dostajemy zlecenie analizy porównawczej sprzedaży w różnych regionach. Ale oprócz różniącej się nazwy regionu mamy jeszcze jeden mały problem – inny sposób zapisu danych w każdym z nich. Cóż więc począć? Ręczna obróbka danych to byłby istny koszmar i masa straconego, jakże cennego czasu. Raczej wolelibyśmy tego uniknąć, prawda?
W takich sytuacjach niezbędny będzie Tableau Prep. Ambitnie zakładam, że jeśli to czytasz, miałeś już do czynienia z magicznym narzędziem o nazwie Tableau Desktop i znasz jego podstawowe możliwości. Zapewne wiesz również, że jeśli chodzi o obróbkę danych – mamy tam dość ograniczone pole manewru.
Czym jest Tableau Prep?
Z pomocą przychodzi Tableau Prep. Jest to narzędzie służące do obróbki naszych „kłopotliwych” danych. Możemy przy jego pomocy wykonywać wiele różnych operacji, które oczyszczą, ujednolicą i odpowiednio przekształcą nasze dane wejściowe. Zapoznajmy się z naszym nowym przyjacielem.
Po uruchomieniu programu wita nas powyższy panel. Żeby mieć co robić, musimy się rzecz jasna połączyć do danych.
Gdy klikniemy w ikonkę Connect to Data, otworzy nam się powyższy panel. Dysponujemy różnego rodzaju połączeniami:
- do pliku – Excel oraz .csv będziemy używać zapewne najczęściej
- do serwera
Oraz do innych baz danych:
- JDBC
- ODBC
Panel główny Tableau Prep
Gdy połączymy się już do danych widzimy panel główny Tableau Prep Builder podzielony na dwie sekcje.
- Flow Pane – tutaj dodajemy kolejne kroki, nadajemy im nazwy i sterujemy całym przepływem
- Input Pane – sekcja, w której obserwujemy dane i dokonujemy wszelkiego rodzaju modyfikacji
Panel Input aktywuje się dopiero po kliknięciu na któryś z dodanych wcześniej kroków.
Poza dwiema głównymi sekcjami widzimy również kilka opcji „uniwersalnych”, niezależnych od rodzaju wybranego kroku takich jak wyszukiwanie czy filtrowanie.
Gdy załadujemy nasze dane, automatycznie wygeneruje nam się pierwszy krok Input, który jest początkiem naszego przepływu.
Dodatkowe opcje
Gdy klikniemy prawym klawiszem myszy, pokażą nam się możliwości modyfikacji poprzednio oddanego kroku.
Możemy np. zmienić nazwę, dodać opis, zmienić kolor danego kroku. Funkcjonalnością, o której na pewno warto wspomnieć jest Preview in Tableau Desktop. Umożliwia nam sprawdzenie wstępnego wyniku obróbki danych na wybranym etapie tworzenia przepływu. Możemy w ten sposób kontrolować nasze dane i mieć na oku każdą zmianę w praktyce.
Zmiany i powrót do poprzedniego kroku
Po wklikaniu się w dany krok możemy również na bieżąco obserwować zmiany, jakich dokonywaliśmy. Rzecz dzieje się w okienku Changes w lewym dolnym rogu.
Rodzaje kroków
Każdy nowy krok w przepływie dodajemy wciskając plusik przy poprzednim. Otwiera nam się kilka możliwości:
Jako domyślny rodzaj dodanego kroku Tableau Prep dodaje Cleaning Step, czyli krok czyszczenia danych. Dane możemy również agregować, obracać, tworzyć różnego rodzaju joiny i unie. Możemy również dodawać Skrypty w języku Python. Na każdym etapie możemy również dodać pole kalkulowane. Aby dokonać outputu danych, powinniśmy dodać krok o tej samej nazwie.
Powyższy opis jest niezwykle powierzchowny. Aby zdobyć nieco więcej wiedzy i ją usystematyzować, zapraszam Was serdecznie do formy wideo w linku poniżej.
Tableau Prep Workflow
Pisaliśmy o jego funkcjonalnościach oraz krokach, jakie oferuje w celu właściwego przygotowania danych. Wiedza ta była mocno powierzchowna, ale niezbędna do przejścia do części praktycznej. Dziś przejdziemy przez wszystkie konieczne etapy do zbudowania pełnego Workflow na przykładowych danych sprzedażowych dotyczących poszczególnych regionów. Podłączymy się do danych, przyjrzymy się im nieco bliżej, dokonamy czyszczenia, użyjemy unii oraz joina aby je prawidłowo połączyć, uruchomimy przepływ i Voila! Gotowe.
Zapraszamy do obejrzenia filmu, na którym najłatwiej będzie pokazać działania krok po kroku.
Fragment treści filmu:
Pierwszym krokiem jaki musimy wykonać jest podłączenie się do danych. Niezbędne pliki umieściłam w jednym folderze. Widzimy że dane dotyczące jednego regionu są podzielone na poszczególne lata. Możemy przeciągać pliki z folderu do Connect to Data. Jako pierwszy wybrałam dane z 2015 r. W pierwszym kroku łączymy pliki z danego regionu ze wszystkich lat. Następnie przechodzimy do zakładki Multiple Files. Wybieramy opcję Wildecard union. Sprawdzamy, które pliki Tableau Prep wyszukał automatycznie w danym folderze. Jednakże, widzimy że tych plików jest za dużo, ponieważ nie chcemy łączyć danych z regionu północnego, zachodniego i centralnego. Zależy nam na połączeniu lat 2015, 2016, 2017 i 2018 z regionu południowego. Moim wzorcem jest orders podłoga south z gwiazdką na końcu.