Zamów
bezpłatną
konsultację

Jaką hurtownię danych warto wybrać?

Benchmark dla hurtowni danych 2020

Firma Fivetran, która oferuje narzędzie do przepływu danych, odpowiedziała na często stawiane pytanie: “Jaki magazyn danych warto wybrać?”. Przeprowadzili test porównawczy, który uwzględnił szybkość i ceny czterech najpopularniejszych hurtowni danych:

  • Amazon Redshift
  • Snowflake
  • Presto
  • Google BigQery

W testach porównawczych najważniejsze jest dokonanie wyborów: Jaki rodzaj danych zastosować? Ile? Jakie zapytania? Od sposobu dokonywania tych wyborów wiele zależy. Jeśli zmienimy format danych lub strukturę zapytań, nawet najszybsza hurtownia może stać się ekstremalnie wolna.

Próbowaliśmy dokonać tych wyborów tak jak typowy użytkownik Fivetran, aby wyniki przydały się firmom korzystającym z tego rozwiązania. Typowy użytkownik Fivetran może synchronizować systemy Salesforce, JIRA, Marketo, Adwords oraz swoją produkcyjną bazę danych Oracle, tworząc magazyn danych. Te źródła danych nie są aż tak duże, typowe źródło będzie miało od dziesiątek do setek gigabajtów. Za to są złożone, zawierają setki tabel w znormalizowanym schemacie, a nasi klienci piszą złożone zapytania SQL, aby podsumować te dane.

 

Jakich danych dotyczyły zapytania?

Wygenerowaliśmy zestaw danych TPC-DS w skali 1 TB. Zestaw TPC-DS ma 24 tabele w schemacie Snowflake. Przedstawiają one sprzedaż fikcyjnego sprzedawcy detalicznego w Internecie, za pomocą katalogu oraz w sklepach. Największa tabela faktów miała 4 miliardy wierszy. TPC-DS to test porównawczy magazynów danych będący standardem branżowym. Mimo że używaliśmy danych i zapytań TPC-DS, nasz test nie jest oficjalnym testem porównawczym TPC-DS, ponieważ użyliśmy tylko jednej skali, nieznacznie modyfikowaliśmy zapytania, nie dostosowywaliśmy magazynu danych ani nie generowaliśmy alternatywnych wersji zapytań. Skala jest mała jak na realia magazynów danych, jednak większość użytkowników Fivetran jest zainteresowana źródłami danych takimi jak Salesforce czy MySQL, które charakteryzują się złożonymi schematami, lecz niewielkim rozmiarem.

 

Jakie zapytania wykonano?

Wykonaliśmy 99 zapytań TPC-DS w okresie od lutego do września 2020 roku.

Zapytania te są złożone, mają wiele sprzężeń, agregacji i podzapytań. Każde zapytanie wykonaliśmy tylko raz, aby magazyn nie wyłapał poprzednich wyników. Musieliśmy nieco zmodyfikować zapytania, aby wykonać je we wszystkich magazynach. Modyfikacje były niewielkie, w większości polegały na zmianie nazw typów. Użyliśmy standardowego SQL BigQuery, nie zaś starszej wersji SQL.

 

Jak skonfigurowano hurtownie?

Konfiguracja
Koszt/godzina

Konfiguracja hurtowni w teście

 

Jak dostosowano hurtownie?

Każda z tych hurtowni danych oferuje zaawansowane funkcje, takie jak klucze sortowania, klucze klastrowania i partycjonowanie według dat. Postanowiliśmy nie używać żadnej z tych funkcji w tym teście porównawczym. Zastosowaliśmy za to kodowanie kompresji kolumn w Redshift. Snowflake i BigQuery automatycznie stosują kompresję, Presto używa zaś plików ORC w formacie HDFS, który jest już skompresowany. Jeśli wiadomo, jakiego rodzaju zapytania będą wykonywane w danym magazynie, można użyć tych funkcji, aby dostosować tabele i znacznie przyspieszyć wykonywanie określonych zapytań. Typowi użytkownicy Fivetran wykonują jednak w swoich magazynach najróżniejsze nieprzewidywalne zapytania, dlatego zawsze będzie wiele takich, którym dostosowanie nie pomoże.

 

Wyniki

Zapraszamy do pobrania pliku prezentującego wyniki testu, przedstawione na wykresach i opisowo. Pobierz wyniki testu! Wypełnij formularz, plik prześlemy mailem.

VIZYBLE JEST PARTNEREM I RESELLEREM FIVETRAN. WSPIERAMY WDROŻENIA FIVETRAN W ORGANIZACJACH.

Aktualności

E-book: Przepływ danych – porównanie Fivetran, Stitch i Matillion

Aktualności

10 funkcjonalności Tableau Prep Builder, o których musisz wiedzieć