Jak obliczyć podsumowanie 5-liczbowe dla swoich danych w Pythonie

Udostępnij na Twitterze Udostępnij

Ostatnia aktualizacja 8 sierpnia 2019 r.

Podsumowanie danych zapewnia wygodny sposób opisania wszystkich wartości w próbce danych za pomocą zaledwie kilku wartości statystycznych.

Średnia i odchylenie standardowe służą do podsumowania danych z rozkładem Gaussa, ale mogą nie mieć znaczenia lub mogą nawet wprowadzać w błąd, jeśli próbka danych ma rozkład inny niż Gaussa.

W tym samouczku odkryjesz pięciocyfrowe podsumowanie opisujące rozkład próbki danych bez zakładania określonego rozkładu danych.

Po ukończeniu tego samouczka będziesz wiedział:

  • Podsumowanie danych, takie jak obliczenie średniej i odchylenia standardowego, ma znaczenie tylko dla rozkładu Gaussa.
  • Podsumowanie pięciocyfrowe może służyć do opisania próbki danych o dowolnym rozkładzie.
  • Jak obliczyć podsumowanie pięciocyfrowe w Pythonie.

Rozpocznij swój projekt z moją nową książką Statistics for Machine Learning, w tym samouczki krok po kroku i pliki z kodem źródłowym Pythona dla wszystkich przykładów.

Zaczynajmy.

Jak obliczyć 5-liczbowe podsumowanie danych w Pythonie
Zdjęcie: Masterbutler, niektóre prawa zastrzeżone.

Omówienie samouczka

Ten samouczek jest podzielony na 4 części; są to:

  1. Nieparametryczne podsumowanie danych
  2. Podsumowanie pięciocyfrowe
  3. Jak obliczyć podsumowanie pięciu liczb
  4. Zastosowanie podsumowania pięciu liczb

Potrzebujesz pomocy ze statystykami dla uczenia maszynowego?

Weź udział w moim bezpłatnym 7-dniowym szybkim kursie e-mail (z przykładowym kodem).

Kliknij, aby się zarejestrować, a także otrzymać bezpłatną wersję kursu w formie e-booka w formacie PDF.

Pobierz swój BEZPŁATNY mini-kurs

Nieparametryczne podsumowanie danych

Techniki podsumowania danych umożliwiają opisanie dystrybucji danych przy użyciu kilku kluczowych pomiarów.

Najczęstszym przykładem podsumowania danych jest obliczenie średniej i odchylenia standardowego dla danych o rozkładzie Gaussa. Mając tylko te dwa parametry, możesz zrozumieć i odtworzyć rozkład danych. Podsumowanie danych może skompresować zaledwie kilkadziesiąt lub nawet miliony pojedynczych obserwacji.

Problem w tym, że nie można łatwo obliczyć średniej i odchylenia standardowego danych, które nie mają rozkładu Gaussa. Technicznie rzecz biorąc, możesz obliczyć te wielkości, ale nie podsumowują one dystrybucji danych; w rzeczywistości mogą być bardzo mylące.

W przypadku danych, które nie mają rozkładu Gaussa, można podsumować próbkę danych za pomocą podsumowania pięciocyfrowego.

Pięć – Podsumowanie liczb

Podsumowanie pięciocyfrowe lub w skrócie podsumowanie 5 liczb jest nieparametryczną techniką podsumowania danych.

Czasami jest nazywane podsumowaniem 5-cyfrowym Tukeya ponieważ polecił go John Tukey. Można go użyć do opisania rozkładu próbek danych dla danych o dowolnym rozkładzie.

Jako standardowe podsumowanie do ogólnego użytku, podsumowanie 5-liczbowe zawiera o odpowiedniej ilości szczegółów.

– Strona 37, Understanding Robust and Exploratory Data Analysis, 2000.

Pięć liczb podsumowanie obejmuje obliczenie 5 sumarycznych wielkości statystycznych, a mianowicie:

  • Mediana: środkowa wartość w próbie, zwana również 50. percentylem lub 2. kwartylem.
  • 1. kwartyl : 25. centyl.
  • 3. kwartyl: 75. percentyl.
  • Minimum: najmniejsza obserwacja w próbce.
  • Maksimum: największa obserwacja w próbce .

Kwartyl to obserwowana wartość w punkcie, która pomaga w podzieleniu uporządkowanej próbki danych na cztery równe części. Mediana, czyli drugi kwartyl, dzieli uporządkowaną próbkę danych na dwie części, a pierwszy i trzeci kwartyl dzielą każdą z tych połówek na ćwiartki.

Percentyl to obserwowana wartość w punkcie, który pomaga w podziale zamówioną próbkę danych podzielono na 100 równych porcji. Kwartyle są często wyrażane jako percentyle.

Kwartyle i percentyl są przykładami statystyk rang, które można obliczyć na próbce danych o dowolnym rozkładzie. Służą one do szybkiego podsumowania, ile danych w rozkładzie znajduje się za lub przed daną obserwowaną wartością. Na przykład połowa obserwacji znajduje się za i przed medianą rozkładu.

Zwróć uwagę, że kwartyle są również obliczane na wykresie pudełkowym i wąsowym, nieparametrycznej metodzie graficznego podsumowania dystrybucji danych próba.

Jak obliczyć podsumowanie pięciu liczb

Obliczenie podsumowania pięciu liczb wymaga znalezienia obserwacji dla każdego kwartylu, a także minimalnych i maksymalnych obserwowanych wartości z próbki danych.

Jeśli w uporządkowanej próbie danych dla kwartylu nie ma określonej wartości, na przykład jeśli istnieje parzysta liczba obserwacji i próbujemy znaleźć medianę, możemy obliczyć średnią z dwóch najbliższych wartości, takie jak dwie środkowe wartości.

Możemy obliczyć dowolne wartości percentyla w Pythonie za pomocą funkcji percentile () NumPy. Możemy użyć tej funkcji do obliczenia wartości pierwszego, drugiego (mediany) i trzeciego kwartylu. Funkcja pobiera zarówno tablicę obserwacji, jak i wartość zmiennoprzecinkową, aby określić percentyl do obliczenia w zakresie od 0 do 100. Może również pobierać listę wartości percentyli, aby obliczyć wiele percentyli; na przykład:

1
kwartyle = percentyl (dane,)

Domyślnie funkcja obliczy liniową interpolację (średnią) między obserwacjami, jeśli zajdzie taka potrzeba, na przykład w przypadku obliczania mediany na próbce z parzystą liczbą wartości.

Funkcje NumPy min () i max () mogą służyć do zwracania najmniejszych i największych wartości w próbce danych; na przykład:

1
data_min, data_max = data.min (), data.max ()

Możemy to wszystko połączyć.

Poniższy przykład generuje próbkę danych pobraną z jednorodnego rozkładu między 0 a 1 i podsumowuje ją za pomocą pięciocyfrowego podsumowania.

Uruchomienie przykładu generuje próbkę danych i oblicza pięciocyfrowe podsumowanie aby opisać rozkład próby.

Widzimy, że rozrzut obserwacji jest zbliżony do naszych oczekiwań i pokazuje 0,27 dla 25. percentyla 0,53 dla 50. percentyl i 0,76 dla 75. percentyla, blisko wyidealizowanych wartości odpowiednio 0,25, 0,50 i 0,75.

1
2
3
4
5

Min: 0,000
Q1: 0,277
Mediana: 0,532
Q3: 0,766
Max: 1000

Korzystanie z podsumowania pięciu liczb

Podsumowanie pięciu liczb można obliczyć dla próbki danych o dowolnym rozkładzie.

Obejmuje to dane o znanym rozkładzie, takie jak dystrybucja Gaussa lub Gaussa ution.

Zalecałbym zawsze obliczanie podsumowania pięciocyfrowego i przechodzenie tylko do podsumowań specyficznych dla rozkładu, takich jak średnia i odchylenie standardowe dla Gaussa, w przypadku, gdy można zidentyfikować rozkład, do którego dane należą.

Rozszerzenia

Ta sekcja zawiera kilka pomysłów na rozszerzenie samouczka, które możesz chcieć zbadać.

  • Opisz trzy przykłady w projekt uczenia maszynowego, w którym można obliczyć podsumowanie pięciu liczb.
  • Wygeneruj próbkę danych z rozkładem Gaussa i oblicz podsumowanie pięciu liczb.
  • Napisz funkcję, aby obliczyć 5 -liczbowe podsumowanie dowolnej próbki danych.

Jeśli zapoznasz się z którymkolwiek z tych rozszerzeń, chciałbym wiedzieć.

Dodatkowe informacje

Ta sekcja zawiera więcej zasobów na ten temat, jeśli chcesz zagłębić się w szczegóły.

Książki

  • Understanding Robust and Exploratory Data Analysis, 2000.

API

  • numpy.percentile () API
  • numpy.ndarray.min () API
  • numpy.ndarray.max () API

Artykuły

  • Pięciocyfrowe podsumowanie w Wikipedii
  • Kwartyl w Wikipedii
  • Percentyl w Wikipedii

Podsumowanie

W tym samouczku odkryłeś pięciocyfrowe podsumowanie opisujące rozmieszczenie próbki danych bez zakładania określonego rozkładu danych.

W szczególności nauczyłeś się:

  • Podsumowanie danych, takie jak obliczenie średniej i odchylenia standardowego, ma znaczenie tylko dla rozkładu Gaussa.
  • Liczba pięciu podsumowanie może posłużyć do opisania próbki danych o dowolnym rozkładzie.
  • Jak obliczyć pięciocyfrowe podsumowanie w Pythonie.

Czy masz jakieś pytania?
Zadaj pytania w komentarzach poniżej, a dołożę wszelkich starań, aby na nie odpowiedzieć.

Zapoznaj się ze statystyką uczenia maszynowego!

Rozwiń praktyczne rozumienie statystyk

… pisząc wiersze współ de in python

Dowiedz się, jak to zrobić w moim nowym ebooku:
Statystyczne metody uczenia maszynowego

Zawiera samouczki do samodzielnej nauki na takie tematy jak:
Testy hipotez, korelacja Statystyki nieparametryczne, ponowne próbkowanie i wiele więcej …

Dowiedz się, jak przekształcić dane w wiedzę

Pomiń część akademicką. Tylko wyniki.

Zobacz, co jest w środku

Tweetnij Udostępnij Udostępnij

Leave a Reply

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *