Web Analytics
Agregacja danych
Agregacja danych

Agregacja danych

Agregacja danych

image
image

Agregacja danych to fundamentalny element analizy danych umożliwiający podsumowywanie i interpretację dużych zbiorów danych. Tableau Prep pełni rolę potężnego narzędzia w tym procesie usprawniając przygotowanie i agregację danych. W tym artykule eksplorujemy:

istotę agregacji danych, jej znaczenie w analizie oraz sposób, w jaki Tableau Prep upraszcza ten proces.

funkcje Tableau Prep do agregacji danych wraz z praktycznymi przykładami i najlepszymi praktykami dla skutecznej agregacji.

sposoby, jak wykorzystać Tableau Prep do efektywnej agregacji danych w Twoich analizach.

Jeśli chcesz dostosować szczegółowość danych, skorzystaj z opcji Aggregate, by dodać krok grupowania i agregowania danych. To, czy dane są agregowane, czy grupowane, zależy od typu danych (String, Number lub Date).

Łącząc dane za pomocą Tableau Prep, czasami konieczne jest przeprowadzenie agregacji danych. Agregacja to proces matematyczny, który zmniejsza szczegółowość (poziom granulacji) danych poprzez przekształcenie wielu wartości w jedną, np., jeśli posiadamy dane dotyczące ukończenia uczelni, gdzie każdy wiersz reprezentuje szczegółowe informacje o każdym studencie, agregacja może przekształcić te dane w taki sposób, że każdy wiersz będzie teraz reprezentować dane dla każdej grupy. Innymi słowy, studenci zostają "zgrupowani" w grupy, a ich dane są agregowane w dane dotyczące odpowiednich grup.

Zanim przystąpisz do agregacji danych, należy wziąć pod uwagę następujące kwestie:

Pola grupujące

Grupowanie pól decyduje o strukturze wyniku poprzez określenie poziomu nowej szczegółowości. W przypadku danych dotyczących ukończenia szkoły wyższej, nowa szczegółowość może odnosić się do poziomu wydziałów lub szerzej kierunków albo samych grup (jeśli dane te obejmują więcej niż jeden kierunek czy grupę).

Operacja matematyczne

Jeśli chodzi o operacje matematyczne, wybór zależy od preferencji dotyczących agregacji danych. Na przykład, czy chcesz zsumować liczbę puszek farb każdego koloru, aby uzyskać całkowitą liczbę puszek farb? A może interesuje Cię minimalny godzinowy odczyt temperatury w ciągu dnia, by uzyskać minimalną temperaturę dzienną?

Aggregate - kroki

  1. W panelu przepływu kliknij ikonę ➕ i wybierz opcję Aggregate. Panel przepływu wyświetli nowy etap agregacji, a panel profilu zostanie dostosowany wyświetlając profil zagregowany i grupowy.
  2. Przeciągnij pola z lewego panelu do panelu Grouped Fields (pola tworzące wiersz) lub do panelu Aggregated Fields (dane, które zostaną zagregowane i zaprezentowane na poziomie zgrupowanych pól). Możesz również: >> Użyć opcji drag&drop dla pól pomiędzy dwoma panelami. >> Wyszukać pola na liście i wybrać te, które chcesz uwzględnić w swojej agregacji. >> Poprzez dwukrotnie kliknięcie pola dodać je do lewego lub prawego panelu. >> Zmienić funkcję pola, by automatycznie dodać je do odpowiedniego panelu. >> Kliknij opcję Add All lub Remove All, aby zbiorczo dodać lub usunąć pola. >> Skorzystać z operacji czyszczenia pól. Aby uzyskać więcej informacji na temat dostępnych opcji czyszczenia, zobacz treści o operacjach czyszczenia ▶️ tutaj ◀️.

Poniższy przykład pokazuje zagregowaną sumę zysku i ilości oraz średni rabat według regionu i roku sprzedaży. Pola są rozdzielane pomiędzy kolumny Grouped Fields i Aggregated Fields na podstawie typu danych. Aby zmienić typ grupy lub agregacji, kliknij ich nagłówek, np. SUM, AVG. Na siatce danych poniżej agregacji i w profilu grupy można podejrzeć przykłady zawierające się w grupie czy agregacji. Ponadto wszelkie operacje czyszczenia pól są widoczne na karcie Changes.

image

SUM - suma wszystkich wartości w wyrażeniu. Wartości SUM można używać wyłącznie z polami numerycznymi. Wartości null są ignorowane.

AVERAGE - średnia wszystkich wartości w wyrażeniu. AVERAGE można używać wyłącznie z polami numerycznymi. Wartości null są ignorowane.

MEDIAN - mediana pojedynczego wyrażenia. MEDIANĘ można stosować wyłącznie z polami numerycznymi. Wartości null są ignorowane.

COUNT - liczba elementów w grupie. Wartości null nie są zliczane.

COUNT DISTINCT - liczba odrębnych elementów w grupie. Wartości NULL nie są zliczane. Każda unikalna wartość jest liczona tylko raz.

MINIMUM - wartość minimalna wśród wszystkich wartości w wyrażeniu. MAXIMUM - wartość maksymalna wśród wszystkich wartości w wyrażeniu. STD. DEV - przykładowe odchylenie standardowe wyrażenia.

STD. DEV POP - odchylenie standardowe populacji wyrażenia.

VARIANCE - statystyczna wariancja wszystkich wartości w danym wyrażeniu na podstawie próby populacji.

VARIANCE POP. - statystyczna wariancja wszystkich wartości w danym wyrażeniu na podstawie próby populacji.

PERCENTILE - wartość percentyla z danego wyrażenia odpowiadającą określonej liczbie. Prawidłowe wartości liczby to od 0 do 1. PERCENTYL([wyrażenie], 0,50) zawsze zwraca średnią wartość w wyrażeniu.

← Poprzednia strona

Następna strona →

Spis treści artykułu