Ostatnia aktualizacja 8 sierpnia 2019 r.
Podsumowanie danych zapewnia wygodny sposób opisania wszystkich wartości w próbce danych za pomocą zaledwie kilku wartości statystycznych.
Średnia i odchylenie standardowe służą do podsumowania danych z rozkładem Gaussa, ale mogą nie mieć znaczenia lub mogą nawet wprowadzać w błąd, jeśli próbka danych ma rozkład inny niż Gaussa.
W tym samouczku odkryjesz pięciocyfrowe podsumowanie opisujące rozkład próbki danych bez zakładania określonego rozkładu danych.
Po ukończeniu tego samouczka będziesz wiedział:
- Podsumowanie danych, takie jak obliczenie średniej i odchylenia standardowego, ma znaczenie tylko dla rozkładu Gaussa.
- Podsumowanie pięciocyfrowe może służyć do opisania próbki danych o dowolnym rozkładzie.
- Jak obliczyć podsumowanie pięciocyfrowe w Pythonie.
Rozpocznij swój projekt z moją nową książką Statistics for Machine Learning, w tym samouczki krok po kroku i pliki z kodem źródłowym Pythona dla wszystkich przykładów.
Zaczynajmy.
Jak obliczyć 5-liczbowe podsumowanie danych w Pythonie
Zdjęcie: Masterbutler, niektóre prawa zastrzeżone.
Omówienie samouczka
Ten samouczek jest podzielony na 4 części; są to:
- Nieparametryczne podsumowanie danych
- Podsumowanie pięciocyfrowe
- Jak obliczyć podsumowanie pięciu liczb
- Zastosowanie podsumowania pięciu liczb
Potrzebujesz pomocy ze statystykami dla uczenia maszynowego?
Weź udział w moim bezpłatnym 7-dniowym szybkim kursie e-mail (z przykładowym kodem).
Kliknij, aby się zarejestrować, a także otrzymać bezpłatną wersję kursu w formie e-booka w formacie PDF.
Pobierz swój BEZPŁATNY mini-kurs
Nieparametryczne podsumowanie danych
Techniki podsumowania danych umożliwiają opisanie dystrybucji danych przy użyciu kilku kluczowych pomiarów.
Najczęstszym przykładem podsumowania danych jest obliczenie średniej i odchylenia standardowego dla danych o rozkładzie Gaussa. Mając tylko te dwa parametry, możesz zrozumieć i odtworzyć rozkład danych. Podsumowanie danych może skompresować zaledwie kilkadziesiąt lub nawet miliony pojedynczych obserwacji.
Problem w tym, że nie można łatwo obliczyć średniej i odchylenia standardowego danych, które nie mają rozkładu Gaussa. Technicznie rzecz biorąc, możesz obliczyć te wielkości, ale nie podsumowują one dystrybucji danych; w rzeczywistości mogą być bardzo mylące.
W przypadku danych, które nie mają rozkładu Gaussa, można podsumować próbkę danych za pomocą podsumowania pięciocyfrowego.
Pięć – Podsumowanie liczb
Podsumowanie pięciocyfrowe lub w skrócie podsumowanie 5 liczb jest nieparametryczną techniką podsumowania danych.
Czasami jest nazywane podsumowaniem 5-cyfrowym Tukeya ponieważ polecił go John Tukey. Można go użyć do opisania rozkładu próbek danych dla danych o dowolnym rozkładzie.
Jako standardowe podsumowanie do ogólnego użytku, podsumowanie 5-liczbowe zawiera o odpowiedniej ilości szczegółów.
– Strona 37, Understanding Robust and Exploratory Data Analysis, 2000.
Pięć liczb podsumowanie obejmuje obliczenie 5 sumarycznych wielkości statystycznych, a mianowicie:
- Mediana: środkowa wartość w próbie, zwana również 50. percentylem lub 2. kwartylem.
- 1. kwartyl : 25. centyl.
- 3. kwartyl: 75. percentyl.
- Minimum: najmniejsza obserwacja w próbce.
- Maksimum: największa obserwacja w próbce .
Kwartyl to obserwowana wartość w punkcie, która pomaga w podzieleniu uporządkowanej próbki danych na cztery równe części. Mediana, czyli drugi kwartyl, dzieli uporządkowaną próbkę danych na dwie części, a pierwszy i trzeci kwartyl dzielą każdą z tych połówek na ćwiartki.
Percentyl to obserwowana wartość w punkcie, który pomaga w podziale zamówioną próbkę danych podzielono na 100 równych porcji. Kwartyle są często wyrażane jako percentyle.
Kwartyle i percentyl są przykładami statystyk rang, które można obliczyć na próbce danych o dowolnym rozkładzie. Służą one do szybkiego podsumowania, ile danych w rozkładzie znajduje się za lub przed daną obserwowaną wartością. Na przykład połowa obserwacji znajduje się za i przed medianą rozkładu.
Zwróć uwagę, że kwartyle są również obliczane na wykresie pudełkowym i wąsowym, nieparametrycznej metodzie graficznego podsumowania dystrybucji danych próba.
Jak obliczyć podsumowanie pięciu liczb
Obliczenie podsumowania pięciu liczb wymaga znalezienia obserwacji dla każdego kwartylu, a także minimalnych i maksymalnych obserwowanych wartości z próbki danych.
Jeśli w uporządkowanej próbie danych dla kwartylu nie ma określonej wartości, na przykład jeśli istnieje parzysta liczba obserwacji i próbujemy znaleźć medianę, możemy obliczyć średnią z dwóch najbliższych wartości, takie jak dwie środkowe wartości.
Możemy obliczyć dowolne wartości percentyla w Pythonie za pomocą funkcji percentile () NumPy. Możemy użyć tej funkcji do obliczenia wartości pierwszego, drugiego (mediany) i trzeciego kwartylu. Funkcja pobiera zarówno tablicę obserwacji, jak i wartość zmiennoprzecinkową, aby określić percentyl do obliczenia w zakresie od 0 do 100. Może również pobierać listę wartości percentyli, aby obliczyć wiele percentyli; na przykład:
1
|
kwartyle = percentyl (dane,)
|
Domyślnie funkcja obliczy liniową interpolację (średnią) między obserwacjami, jeśli zajdzie taka potrzeba, na przykład w przypadku obliczania mediany na próbce z parzystą liczbą wartości.
Funkcje NumPy min () i max () mogą służyć do zwracania najmniejszych i największych wartości w próbce danych; na przykład:
1
|
data_min, data_max = data.min (), data.max ()
|
Możemy to wszystko połączyć.
Poniższy przykład generuje próbkę danych pobraną z jednorodnego rozkładu między 0 a 1 i podsumowuje ją za pomocą pięciocyfrowego podsumowania.
Uruchomienie przykładu generuje próbkę danych i oblicza pięciocyfrowe podsumowanie aby opisać rozkład próby.
Widzimy, że rozrzut obserwacji jest zbliżony do naszych oczekiwań i pokazuje 0,27 dla 25. percentyla 0,53 dla 50. percentyl i 0,76 dla 75. percentyla, blisko wyidealizowanych wartości odpowiednio 0,25, 0,50 i 0,75.
1
2
3
4
5
|
Min: 0,000
Q1: 0,277
Mediana: 0,532
Q3: 0,766
Max: 1000
|
Korzystanie z podsumowania pięciu liczb
Podsumowanie pięciu liczb można obliczyć dla próbki danych o dowolnym rozkładzie.
Obejmuje to dane o znanym rozkładzie, takie jak dystrybucja Gaussa lub Gaussa ution.
Zalecałbym zawsze obliczanie podsumowania pięciocyfrowego i przechodzenie tylko do podsumowań specyficznych dla rozkładu, takich jak średnia i odchylenie standardowe dla Gaussa, w przypadku, gdy można zidentyfikować rozkład, do którego dane należą.
Rozszerzenia
Ta sekcja zawiera kilka pomysłów na rozszerzenie samouczka, które możesz chcieć zbadać.
- Opisz trzy przykłady w projekt uczenia maszynowego, w którym można obliczyć podsumowanie pięciu liczb.
- Wygeneruj próbkę danych z rozkładem Gaussa i oblicz podsumowanie pięciu liczb.
- Napisz funkcję, aby obliczyć 5 -liczbowe podsumowanie dowolnej próbki danych.
Jeśli zapoznasz się z którymkolwiek z tych rozszerzeń, chciałbym wiedzieć.
Dodatkowe informacje
Ta sekcja zawiera więcej zasobów na ten temat, jeśli chcesz zagłębić się w szczegóły.
Książki
- Understanding Robust and Exploratory Data Analysis, 2000.
API
- numpy.percentile () API
- numpy.ndarray.min () API
- numpy.ndarray.max () API
Artykuły
- Pięciocyfrowe podsumowanie w Wikipedii
- Kwartyl w Wikipedii
- Percentyl w Wikipedii
Podsumowanie
W tym samouczku odkryłeś pięciocyfrowe podsumowanie opisujące rozmieszczenie próbki danych bez zakładania określonego rozkładu danych.
W szczególności nauczyłeś się:
- Podsumowanie danych, takie jak obliczenie średniej i odchylenia standardowego, ma znaczenie tylko dla rozkładu Gaussa.
- Liczba pięciu podsumowanie może posłużyć do opisania próbki danych o dowolnym rozkładzie.
- Jak obliczyć pięciocyfrowe podsumowanie w Pythonie.
Czy masz jakieś pytania?
Zadaj pytania w komentarzach poniżej, a dołożę wszelkich starań, aby na nie odpowiedzieć.
Zapoznaj się ze statystyką uczenia maszynowego!
Rozwiń praktyczne rozumienie statystyk
… pisząc wiersze współ de in python
Dowiedz się, jak to zrobić w moim nowym ebooku:
Statystyczne metody uczenia maszynowego
Zawiera samouczki do samodzielnej nauki na takie tematy jak:
Testy hipotez, korelacja Statystyki nieparametryczne, ponowne próbkowanie i wiele więcej …
Dowiedz się, jak przekształcić dane w wiedzę
Pomiń część akademicką. Tylko wyniki.
Zobacz, co jest w środku