E-book: Przepływ danych – porównanie Fivetran, Stitch i Matillion

Publikowaliśmy na blogu artykuł porównujący dwa podejścia do przepływów danych. Pierwsze podejście polegające na budowaniu i drugie oparte o platformę stworzoną do automatycznego przesyłania danych. Automatyzacja ma wiele praktycznych zalet. Jeżeli podejmujemy decyzję w kierunku oszczędności czasu i pieniędzy, stoi przed nami kolejne zagadnienie jaką platformę wybrać. Najlepiej decyzję tę oprzeć na danych i informacjach porównawczych.

Fivetran, którego bez krygowania się, polecamy ze względu na jego gotowe konektory, postanowił porównać się z innymi platformami automatycznych przepływów danych, Stitch i Matillion. Metodyka i wyniki testu porównawczego znajdują się w e-booku. Prześlemy zainteresowanym, którzy zarejestrują się na końcu tego wprowadzenia. We wprowadzeniu uzasadniamy stosowanie automatyzacji w przepływach danych i przedstawiamy wnioski z przeprowadzonego testu.

Automatyczny przepływ danych, dlaczego?

Dane to waluta cyfrowej transformacji. Posiadanie danych, które są dostępne, zrozumiałe, uporządkowane i wiarygodne, wspiera wszystkie najważniejsze inicjatywy korporacyjne. Utrzymanie tego podstawowego zasobu jest jednak dla większości organizacji coraz większym wyzwaniem, ponieważ źródła i ilości interesujących danych szybko rosną. Chmury i mnożenie się firm typu SaaS przyczyniły się do eksplozji danych. Podczas gdy możliwości chmury i duża liczba jej zastosowań mogą szybko zwiększyć potencjał organizacji, powodowane przez chmurę rozprzestrzenianie się danych może prowadzić do problemów, takich jak decentralizacja danych zmniejszająca dokładność wniosków lub strata czasu na odbudowywanie przepływów zamiast generowania wyników.

Bez solidnej automatyzacji potrzeby organizacji w zakresie ruchu danych mogą szybko przewyższyć zdolność inżynierów danych do zaspokojenia tych potrzeb. Biorąc pod uwagę rosnące obciążenie pracą i brak zasobów do analizy danych, automatyzacja i łatwość korzystania mają fundamentalne znaczenie. Przepływy danych to jeden z aspektów Modern Data Stack, który można zautomatyzować, aby sprostać temu coraz większemu wyzwaniu.

Porównanie przepływów danych, streszczenie e-booka

W raporcie porównano trzy główne platformy przepływów danych: Matillion, Stitch i Fivetran i przeprowadzono na nich serię wybranych testów, które pozwalają ocenić ich stopień automatyzacji, łatwość konfiguracji i dokumentację. Oceniano między innymi takie aspekty jak czas i nakład pracy wymagany do ustanowienia połączenia między źródłem a miejscem docelowym, stopień automatyzacji całego procesu oraz jakość dokumentacji wspierającej te procesy. Obszary te skupiają się na trzech głównych „przeszkodach”, które napotkano podczas pracy z przepływami danych w warunkach rzeczywistych.

Spośród wszystkich trzech ofert Fivetran miał najszybszą i najłatwiejszą konfigurację. W przypadku Matillion Data Loader konfiguracja była najdłuższa i obejmowała największą liczbę etapów. Dodatkowo kilka z tych etapów było słabo udokumentowanych. Z oceny wynika, że Stitch znalazł się pomiędzy Fivetran i Matillion Data Loader, ale też najdłużej wykonywał pojedyncze zadanie (wybór jednostek Salesforce do synchronizacji). 

Fivetran obsługiwał zmiany źródeł danych w sposób całkowicie zautomatyzowany, podczas gdy w przypadku Matillion Data Loader automatyzacja stanowiła największe wyzwanie. W Matillion nie tylko nie pojawiły się automatycznie nowe dane/zmienione kolumny, ale cały przepływ wymagał przebudowy. Również Stitch wymagał ręcznej interwencji przy pracy z nowymi danymi i zmienionymi kolumnami.

Fivetran miał najbardziej szczegółową dokumentację dotyczącą wszystkich mierzonych przez nas elementów. Dokumentacja Stitch również była dobra, przy czym tylko kilka elementów pominięto lub potraktowano skrótowo. W przypadku Matillion Data Loader niemal całkowicie brakowało dokumentacji opisującej dane konektora danych źródłowych z Salesforce.

Dodatkowo stwierdzono, że poziom aktywności związanej z ładowaniem i aktualizowaniem w Snowflake spowodowany przez rozwiązanie Matillion jest zdecydowanie wyższy w porównaniu ze Stitch i Fivetran.

Automatyczne przepływy danych są warte zbadania w przypadku wszelkich działań związanych z integracją danych przedsiębiorstwa, zwłaszcza gdy obsługiwane są źródła i miejsca docelowe.

Test został przeprowadzony na zamówienie Fivetran przez firmę GigaOM (w lipcu 2020).

 

 

Aktualności

Centralizacja danych agencji marketingowej dzięki Fivetran, Snowflake i Power BI 

Aktualności

10 funkcjonalności Tableau Prep Builder, o których musisz wiedzieć

X