Czym jest Fuzzy Matching w Alteryx?
W najprostszej definicji jest to narzędzie do identyfikacji nieidentycznych duplikatów w źródle danych poprzez odpowiednie dostosowanie parametrów, na podstawie, których owe duplikaty zostaną połączone.
Fuzzy Matching nie jest narzędziem opracowanym przez zespół deweloperów Alteryx, ale znany był już długo wcześniej jako technika szukania powiązań pomiędzy łańcuchami zdań. Tłumaczona czasem w języku polskim na analizę powiązań (niekoniecznie słusznie), sprowadza się do dopasowywania danych, które są do siebie w jakiś sposób podobne (czyli po prostu wyszukiwania duplikatów).
Kluczem jest tutaj stwierdzenie w jakiś sposób podobne. Ogrom danych do jakich mamy dostęp sprowadza się często do operowaniu na ich nieustrukturyzowanej formie. Nie można liczyć na jednoznaczne ich dopasowanie i wtedy z pomocą przychodzi właśnie Fuzzy Matching.
4 przykładowe możliwości użycia Fuzzy Matching w Alteryx
- Rozpoznanie i usuwanie rekordów, które są duplikatami (a nie mają identycznej struktury). Szczególnie przydatne w przypadku dużej ilości danych, takich jak lista klientów z tymi samymi osobami o różnych adresach zamieszkania lub z literówkami.
- Łączenie różnych źródeł danych, bez jednoczesnego powielania tych samych rekordów. Ujednolicenie danych w firmie oraz przeniesienie całości danych do jednej hurtowni wydaje się być tutaj dobrym przykładem do zastosowania Fuzzy Matching.
- Do identyfikacji takich samym rekordów w różnych źródłach, jako przykład użycia przy wyszukiwaniu konfliktu interesów lub zaniedbań. Przy użyciu narzędzia Fuzzy Matching można zidentyfikować osoby, które będąc w jednej bazie danych, nie powinny się znaleźć w drugiej (użycie w przypadku audytu śledczego).
- Łączenie różnych źródeł danych, w których dane nie są poprawnie wprowadzone lub są niekompletne. Częstym źródłem są arkusze Excela, tym samym zdarzają się częste pomyłki w nazewnictwie. Fuzzy Matching pomoże w tym przypadku odpowiednio połączyć dane, które nie są do siebie w stu procentach identyczne.
Tryb Merge oraz Purge
Fuzzy Matching Tool posiada dwa różne od siebie tryby, w których może operować i są to Purge Mode oraz Merge mode.
Purge Mode
Fuzzy Matching porównuje podobieństwo we wszystkich rekordach. Nie wymaga to specjalnego przygotowania danych poza jedynie użyciem Record ID Tool, gdyż właśnie to na kolumnie ID Fuzzy Matching operuje. Ten tryb jest używany głównie do wykrycia i usunięcia duplikatów.
Merge Mode
W tym trybie Fuzzy Matching porównuje rekordy z dwóch różnych źródeł. Trzeba jednak mieć na uwadze, że Fuzzy Matching posiada jedynie jedno wejście Input, stąd potrzebne jest odpowiednie przygotowanie danych, które zakłada oflagowanie tych rekordów, które pochodzą z pierwszego źródła i tych, które z drugiego. Wcześnie warto przeprowadzić Fuzzy Matching w trybie Purge Mode, aby wykluczyć duplikaty w źródłach danych oraz oczywiście zastosować, wcześniej wspomniany, Record ID Tool. Ten tryb używany jest zwykle do łączeniu dwóch datasetów i uniknięcia duplikatów.
Use Case – Łączenie dwóch źródeł w Alteryx
Przedstawię tutaj proces łączenia dwóch źródeł danych, wraz z ich odpowiednim przygotowaniem.
Oba źródła zawierają imiona i nazwiska w jednej kolumnie oraz adresy w drugiej w ilości 10 rekordów.
- Łączymy oba źródła, żeby uzyskać te rekordy, które bez problemu można połączyć.
- Dodajemy ID to jednego źródła.
- Flagujemy oba źródła
- Łączymy przy pomocy Union. Uzyskujemy tym samym listę klientów z obu źródeł, których nie da się złączyć tradycyjnymi metodami, wraz z ich odpowiednimi flagami.
- Brakuje nam jednak odpowiedniego oznaczenia ID dla drugiego źródła, tym samym sortujemy rekordy.
- Nadajemy brakującym rekordom ID.
- Wykonujemy Fuzzy Matching z taką konfiguracją:
Kolumna Source to nasza flaga, a po RecordID, narzędzie rozpozna odpowiednie rekordy. Dodatkowo musimy wprowadzić warunki po jakich Fuzzy Matching będzie owe rekordy łączył i są to Names i Address. Narzędzie dostosuje się do odpowiedniego mapowania dzięki wbudowanym już algorytmom, jednak ustawiając opcję Custom można to zmienić. Jest to jednak kwestia zaawansowana i poza agendą tego artykułu. Dodatkowo ustawiamy pewien próg, po którym algorytm wie czy dana para ma zostać sklasyfikowana jako taka sama.
- W dalszej części wybieramy tylko unikalne wartości z Fuzzy Matching, którego jedną z kolumn są rekordy powtarzające się dla danego źródła.
- Te rekordy łączymy z poprzednimi rekordami, usuwając tym samym duplikaty.
- Na końcu całość jeszcze łączymy z tymi rekordami, które na samym początku wykazały brak potrzeby użycia Fuzzy Matching.
Podsumowanie
Fuzzy Matching to jedno z najpotężniejszych narzędzi w Alteryx. W następnym artykule z tego cyklu przedstawię jego jeszcze szersze zastosowanie, jak i również możliwości zmiany jego konfiguracji. Stay tuned!
Pobierz plik z przykładowym workflow.
Zainteresował Cię ten artykuł? Dowiedz się więcej o Alteryx:
Ładowanie danych z Excela w Alteryx
Podstawy Data Science w Alteryx
Raport w Alteryx z użyciem Visual Layout – czyli tworzymy ranking najlepszych filmów!