Web Analytics
Grupowanie wartości
Grupowanie wartości

Grupowanie wartości

Grupowanie wartości

image

Mapowanie automatyczne do wartości standardowej za pomocą dopasowania

Aby wyszukać i automatycznie zgrupować podobne wartości, należy skorzystać z jednego z dostępnych algorytmów dopasowania. Wartości pól grupowane są wtedy pod wartością, która pojawiła się w zbiorze najczęściej. Po wykonanej operacji zawsze masz możliwość ręcznego zweryfikowania wyników i w razie konieczności zmodyfikowania wartości w grupie (dodanie lub usunięcie).

Jeśli do sprawdzania wartości pól używasz ról danych, możesz użyć opcji Group Values (Group and Replace w poprzednich wersjach), by dopasować nieprawidłowe wartości do właściwych.

Opcje grupowania wartości

Wybierz jedną z następujących opcji, by zgrupować wartości (rozwiń każdą z ▶️, by dowiedzieć się więcej):

Pronounciation - grupowanie wartości, które brzmią podobnie.

Ta opcja wykorzystuje algorytm Metaphone 3, który indeksuje słowa według ich wymowy (stąd najbardziej odpowiednia dla słów angielskich), który generalnie używany jest przez wiele popularnych modułów sprawdzania pisowni. Opcja ta nie jest dostępna w przypadku ról danych.

Common characters - grupowanie wartości, które mają takie same litery czy cyfry.

Opcja wykorzystuje algorytm N-Gram, który indeksuje słowa według ich unikalnych znaków omijając znaki interpunkcyjne, duplikaty i spacje. Algorytm działa dla każdego obsługiwanego języka. Ta opcja nie jest dostępna w przypadku ról danych.

Przykładowe działanie: algorytm dopasuje i zgrupuje nazwy reprezentowane jako „John Smith”, „Smith John” i „Smith, John”, jako że obie generują klucz „hijmnost”. Niemniej jednak ponieważ algorytm ten nie uwzględnia wymowy, wartość „Tom Jhinois” również będzie miała ten sam klucz „hijmnost” i również zostanie uwzględniona w tej samej grupie.

Spelling - grupowanie wartości tekstowych o podobnej pisowni.

Ta opcja wykorzystuje algorytm odległości Levenshteina (edycyjnej) do obliczenia odległości edycji między dwiema wartościami tekstowymi przy użyciu stałego domyślnego progu. Następnie grupuje je razem, gdy odległość edycji jest mniejsza niż wartość progu. Algorytm ten działa dla każdego obsługiwanego języka.

Począwszy od Tableau Prep w wersji 2019.2.3 opcji tej można używać po użyciu roli danych. W takim przypadku dopasowuje ona nieprawidłowe wartości do najbliższej prawidłowej wartości, korzystając z odległości edycji. Jeśli standardowa wartość nie znajduje się w próbce zestawu danych, Tableau Prep dodaje ją automatycznie i oznacza wartość jako nieobecną w oryginalnym zestawie danych.

Pronounciation + Spelling - grupowanie wartości tekstowych na podstawie pisowni i wymowy.

Opcja dostępna w Tableau Prep w wersji 2019.1.4 i nowszych.

Po przypisaniu roli danych do swoich pól możesz użyć tej jej, by dopasować i zgrupować wartości ze standardową wartością zdefiniowaną przez Twoją rolę danych. Opcja ta dalej dopasowuje nieprawidłowe wartości do najbardziej podobnej prawidłowej wartości na podstawie pisowni i wymowy. Jeśli standardowa wartość nie znajduje się w próbce zestawu danych, Tableau Prep dodaje ją automatycznie i oznacza wartość jako nieobecną w oryginalnym zestawie danych. Opcja ta jest także najbardziej odpowiednia dla słów angielskich.

Odsyłamy do artykułu Tableau tutaj, gdzie znajdziesz więcej informacji o samych algorytmach.

Jak grupować podobne wartości za pomocą dopasowania

  1. W panelu Profil lub w panelu Wyników wybierz pole, które chcesz edytować.
  2. Kliknij More options i wybierz Group values, a następnie wybierz jedną z opcji, które poznałeś w akapicie wyżej:
    • Pronounciation
    • Common Characters
    • Spelling
    • Na przykładzie poniżej grupujemy pole Return Notes poprzez Pronounciation:

      image

      Tableau Prep wyszuka i zgrupuje pasujące wartości zastępując je wartością, która występuje najczęściej w zestawie. W naszym przykładzie z 137 unikalnych wartości otrzymaliśmy jedynie 44.

      image
  3. Przejrzyj wyniki tej operacji. W razie konieczności masz możliwość ręcznej manipulacji - dodaj lub usuń wartości według potrzeb. Wartości, które dla brzmią nadal podobnie dodajemy ręcznie z prawej strony odznaczając je na liście. Ilość wartości zmalała do 43.
  4. image
  5. Kliknij Done w prawym górnym rogu.
  6. image
  7. W podsumowaniu zmian widzimy podpowiedź o 95 wartościach podmienionych na 6.
  8. image

Jak dostosować wyniki w trakcie grupowania wartości

Jeśli grupujesz podobne wartości według Spelling lub Pronounciation, możesz również zmienić wyniki, używając suwaka, który niejako dostosowuje rygorystyczność parametrów grupowania.

image

W zależności od ustawienia suwaka możesz mieć większą kontrolę nad:

  • liczbą wartości zawartych w grupie;
  • liczbą samych utworzonych grup.

Domyślnie Tableau Prep wykrywa optymalne ustawienie grupowania i wyświetla suwak w pewnej określonej pozycji. Po zmianie progu Tableau Prep analizuje próbkę wartości, aby stworzyć nowe grupy. Grupy wygenerowane na podstawie nowego ustawienia są zapisywane i rejestrowane w oknie Changes, ale ustawienie progu nie jest zapisywane. Przy następnym otwarciu edytora Group Values (w trakcie edycji istniejącej zmiany czy wprowadzenia nowej), suwak progu zostanie wyświetlony w pozycji domyślnej, co umożliwi dokonanie wszelkich korekt w oparciu o bieżący zestaw danych. Wykonaj następujące kroki:

  1. W panelu Profil lub w panelu Wyników wybierz pole, które chcesz edytować. Kliknij More options i wybierz Group Values, a następnie Spelling albo Pronounctiation. Tableau Prep wyszuka i zgrupuje pasujące wartości na podstawie domyślnych ustawień suwaka.
  2. image
  3. Z lewej strony edytora grupy przeciągnij suwak do jednego z 5 poziomów progów, aby dopasować wyniki:
    1. przesuń suwak w lewo⏪, by ustawić bardziej rygorystyczny próg - powoduje to mniejszą liczbę dopasowań i tworzy mniej grup.
    2. przesuń suwak w prawo⏩, by ustawić luźniejszy próg - powoduje to więcej dopasowań i tworzy więcej grup.
    3. image
  4. By zapisać zmiany, kliknij Done w prawym górnym rogu.
  5. image

Następna strona →