Przepływy danych – budować czy kupować?
Dzisiejsza przeciętna firma korzysta z ponad 100 aplikacji, z których wiele zawiera cenną wiedzę na temat jej działalności operacyjnej. Twoja firma prawdopodobnie jest na najlepszej drodze, aby używać tylu, jeśli nie większej liczby aplikacji. Potrzebujesz więc rozwiązania, które pozwoli zintegrować wszystkie dane generowane przez te aplikacje. Dążąc do integracji danych, pamiętaj o korzyściach, jakie może przynieść automatyczne, gotowe do użycia rozwiązanie. Weź pod uwagę następujące porównania: czas i wysiłek, ludzie i pieniądze.
Czas i wysiłek
Budowanie własnego przepływu danych oznacza sporą inwestycję czasu. Z doświadczeń naszych klientów wynika, że przygotowanie podstawowego przepływu może zająć od trzech do sześciu miesięcy. Gotowe rozwiązanie z wbudowanymi konektorami, takie jak Fivetran, można natomiast skonfigurować w ciągu kilku minut.
Oprócz inwestycji czasu jest jeszcze nieodłączna złożoność, jaka wiąże się z tworzeniem niezawodnego, wydajnego oprogramowania. Budowa przepływu danych obejmuje następujące etapy:
- Zapewnienie programistom dostępu do źródła danych
- Zbadanie danych
- Zaprojektowanie schematu/modeli danych
- Konfiguracja struktury konektora
- Zaprojektowanie strategii aktualizacji i usuwania
- Testowanie konektora i sprawdzenie poprawności danych
Trzeba pamiętać, że przepływ danych musi być aktualizowany za każdym razem, gdy zmieni się źródło danych. W momencie wykrycia zmiany danych podstawowych proces rozpoczyna się od nowa. Ten cykl konserwacji jest praktycznie nieskończony. Możliwe i bardziej sensowne jest zlecenie budowy oraz konserwacji przepływów zewnętrznemu dostawcy.
Ludzie (i pieniądze)
Z doświadczeń naszych klientów wynika, że typowa firma musi mieć co najmniej dwóch lub trzech pełnoetatowych inżynierów danych, aby zbudować i utrzymać przepływ danych. Zautomatyzowane, gotowe do użycia rozwiązanie sprawia, że interwencja człowieka jest zbędna.
Całkowity koszt trzech pełnoetatowych inżynierów może dojść do wysokiej, sześciocyfrowej kwoty, jeśli uwzględni się dodatkowe świadczenia. W zależności od użycia koszty subskrypcji narzędzi do automatycznej integracji danych również mogą być pięciocyfrowymi kwotami. Typowa kwota w przypadku średniej wielkości firmy z pięcioma konektorami to 50 000 USD na rok.
Koszty szans
Jako dyscyplina, inżynieria danych nie jest przedmiotem żadnego formalnego programu studiów, a prawdziwe talenty w tej dziedzinie są rzadkie. Pomimo trudności w praktyce, obowiązki związane z integracją danych często przypadają analitykom oraz inżynierom danych.
Opisy stanowisk analityków danych zwykle podkreślają znaczenie metod statystycznych, modelowania predykcyjnego i uczenia maszynowego, a mimo to analitycy danych około 80% swojego czasu poświęcają na integrację danych zamiast na ich analizę. A gdyby tak można było poświęcać 0% czasu na integrację danych, a 100% na uczenie maszynowe, analitykę i inne działania istotne z biznesowego punktu widzenia?
Z tego samego powodu inżynierowie przydzieleni do działań związanych z integracją danych mają mniej czasu na tworzenie podstawowych produktów i wykonywanie innych podstawowych funkcji biznesowych.
Przyszły wzrost
Ponieważ rozmiar i zobowiązania Twojej firmy nieustannie rosną i wciąż przybywa nowych narzędzi opartych na chmurze, prawdopodobnie stale będziesz dodawać kolejne źródła danych. Złożoność i wysiłek budowania oraz utrzymywania przepływu danych dla ogromnej liczby źródeł danych może szybko przekroczyć możliwości Twojego zespołu inżynierów danych.
Jeśli natomiast będziesz korzystać z przepływu danych, który zawiera znormalizowane schematy, nie tylko unikniesz trudności w budowaniu, utrzymywaniu i dopasowywaniu połączeń danych z ogromnej liczby źródeł, ale także wykorzystasz szablony analityczne i inne pochodne produkty dotyczące danych zbudowane ze standardowych schematów.
Podział pracy to dla Ciebie korzyść
Dobra integracja danych wymaga sporego doświadczenia oraz wielu prób i błędów. Jeśli inżynieria danych nie jest podstawową działalnością Twojej firmy, nie ma powodu, aby rozwijać doświadczenie w tworzeniu przepływów danych, gdy istnieją gotowe rozwiązania. Tym bardziej nie ma powodu, aby zrzucać te obowiązki na członków swojego zespołu, którym brak umiejętności lub chęci do ich wykonywania.
Pozwól, aby pracował za Ciebie ktoś, kto już przeszedł całą krzywą uczenia, a Ty możesz poświęcić swój czas, pieniądze i energię na rozwój swojej podstawowej działalności oraz wykorzystywanie danych do tego, aby nadawać jej kierunek.