Box plot / Box-and-whisker plot
Box Plot
(wykres pudełkowy) przedstawia dużą ilość informacji o zbiorze danych, jest wykresem prezentującym rozłożenie, położenie oraz rozkład cechy statystycznej danego wymiaru. Oś x dzieli wykres na kategorie, a oś y przedstawia wartości miary. Pokazuje jednocześnie dla danej kategorii wartość maksymalną (górna linia), wartość minimalną (linia dolna), rozproszenie danych (wielkość pudełka i linii), medianę (środkowa linia wewnątrz pudełka), pierwszy i trzeci kwartyl (górna i dolna część pudełka) oraz rozstęp ćwiartkowy (wysokość pudełka).
Do stworzenia Box Plot
potrzebny będzie przynajmniej jeden wymiar i jedna miara.
Tworzenie Box Plot (wykresu pudełkowego)
Korzystając z pliku Sample Superstore, trzymając CTRL zaznacz następujące miary i wymiary: Region (People), Segment oraz Sales następnie otwórz okno Show Me
i wybierz wykres box-and-whiskers-plot
(1).
W efekcie otrzymujemy wykres prezentujący sprzedaż zależnie od regionu.
Budowa wykresu pudełkowego
Wersja z wartościami odstającymi
Interpretacja Box Plot
Podstawowy Box Plot składa się z:
- Górnego ekstremum (
Upper Whisker
) - zawiera obserwacje nie przekraczające 1.5 I ćwiartki, będące jednocześnie maximum dla wykresu. - Trzeci kwartyl (3 Q) - zawiera 75% wszystkich wartości.
- Mediany – 50% wartości znajduje się powyżej tej wysokości, a 50% wartości - poniżej.
- Pierwszy kwartyl (I Q) - 25% obserwacji położonych jest poniżej, a 75% powyżej tej wartości.
- Dolnego ekstremum (
Lower Whisker
) - zawiera obserwacje nie przekraczające 1.5 I ćwiartki, będącego jednocześnie minimum dla wykresu.
Dodatkowo możliwe jest zaobserwowanie outliers
. Są to wartości znacząco odstające od reszty (przekraczają 1.5 I ćwiartki).
Wszystkie informacje możemy uzyskać najeżdżając kursorem na wykres.
Przykład
Jest to wykres, który ułatwia analizę rozkładu danych i jest stosowany w statystyce opisowej. Dlatego będzie szczególnie użyteczny przy dość dużej granulacji danych. Na poniższym przykładzie widzimy wykres pudełkowy prezentujący średnią cenę w podziale na producentów (punkt) oraz kategorie produktowe (kolumna). Pozwala ocenić rozkład ceny, a przez to spójność polityki cenowej. Elementy odstające są bardzo dobrze widoczne.
Formatowanie
Wykres można formatować poprzez kliknięcie prawym przyciskiem myszy na “pudełko”.
ZALETY
- Prezentuje dużo informacji o zbiorze danych.
- Zawiera podsumowanie podstawowych miar (miara, dwa kwartyle, medianę, max oraz min).
- Pozwala na wykrycie wartości odstających.
- Pozwala na lepsze zobrazowanie wielkości populacji.
WADY
- Może być trudny w odbiorze i interpretacji dla niedoświadczonych użytkowników.
- Wymaga podstawowej znajomości statystki.
DOBRE PRAKTYKI
- Użycie transparentnego koloru pudełka kiedy chcemy pokazać wszystkie punkty danych.
- Rozproszenie nakładających się punktów danych wzdłuż osi x.
- Użycie rozbieżnych kolorów dla górnego i dolnego kwartyla.
← Poprzednia strona
Następna strona →
Pozostałe typy wizualizacji
Kontakt | Polityka prywatności
© Vizyble - Wszelkie prawa zastrzeżone