Web Analytics
Box plot / Box-and-whisker plot
📌

Box plot / Box-and-whisker plot

Box plot / Box-and-whisker plot

Box Plot (wykres pudełkowy) przedstawia dużą ilość informacji o zbiorze danych, jest wykresem prezentującym rozłożenie, położenie oraz rozkład cechy statystycznej danego wymiaru. Oś x dzieli wykres na kategorie, a oś y przedstawia wartości miary. Pokazuje jednocześnie dla danej kategorii wartość maksymalną (górna linia), wartość minimalną (linia dolna), rozproszenie danych (wielkość pudełka i linii), medianę (środkowa linia wewnątrz pudełka), pierwszy i trzeci kwartyl (górna i dolna część pudełka) oraz rozstęp ćwiartkowy (wysokość pudełka).

Do stworzenia Box Plot potrzebny będzie przynajmniej jeden wymiar i jedna miara.

image

Tworzenie Box Plot (wykresu pudełkowego)

Korzystając z pliku Sample Superstore, trzymając CTRL zaznacz następujące miary i wymiary: Region (People), Segment oraz Sales następnie otwórz okno Show Me i wybierz wykres box-and-whiskers-plot (1).

image

W efekcie otrzymujemy wykres prezentujący sprzedaż zależnie od regionu.

image

Budowa wykresu pudełkowego

image

Wersja z wartościami odstającymi

image

Interpretacja Box Plot

Podstawowy Box Plot składa się z:

  • Górnego ekstremum (Upper Whisker) - zawiera obserwacje nie przekraczające 1.5 I ćwiartki, będące jednocześnie maximum dla wykresu.
  • Trzeci kwartyl (3 Q) - zawiera 75% wszystkich wartości.
  • Mediany – 50% wartości znajduje się powyżej tej wysokości, a 50% wartości - poniżej.
  • Pierwszy kwartyl (I Q) - 25% obserwacji położonych jest poniżej, a 75% powyżej tej wartości.
  • Dolnego ekstremum (Lower Whisker) - zawiera obserwacje nie przekraczające 1.5 I ćwiartki, będącego jednocześnie minimum dla wykresu.

Dodatkowo możliwe jest zaobserwowanie outliers. Są to wartości znacząco odstające od reszty (przekraczają 1.5 I ćwiartki).

Wszystkie informacje możemy uzyskać najeżdżając kursorem na wykres.

image

Przykład

Jest to wykres, który ułatwia analizę rozkładu danych i jest stosowany w statystyce opisowej. Dlatego będzie szczególnie użyteczny przy dość dużej granulacji danych. Na poniższym przykładzie widzimy wykres pudełkowy prezentujący średnią cenę w podziale na producentów (punkt) oraz kategorie produktowe (kolumna). Pozwala ocenić rozkład ceny, a przez to spójność polityki cenowej. Elementy odstające są bardzo dobrze widoczne.

image

Formatowanie

Wykres można formatować poprzez kliknięcie prawym przyciskiem myszy na “pudełko”.

image

ZALETY

  • Prezentuje dużo informacji o zbiorze danych.
  • Zawiera podsumowanie podstawowych miar (miara, dwa kwartyle, medianę, max oraz min).
  • Pozwala na wykrycie wartości odstających.
  • Pozwala na lepsze zobrazowanie wielkości populacji.

WADY

  • Może być trudny w odbiorze i interpretacji dla niedoświadczonych użytkowników.
  • Wymaga podstawowej znajomości statystki.

DOBRE PRAKTYKI

  • Użycie transparentnego koloru pudełka kiedy chcemy pokazać wszystkie punkty danych.
  • Rozproszenie nakładających się punktów danych wzdłuż osi x.
  • Użycie rozbieżnych kolorów dla górnego i dolnego kwartyla.
👉
Dodatkowe informacje o wykresie pudełkowym znajdziesz w artykule na naszym blogu pod tym ▶ linkiem ◀.

← Poprzednia strona

Histogram

Następna strona →

Gantt chart