Sådan beregnes 5-talsoversigten for dine data i Python

Tweet Share Share

Sidst opdateret 8. august 2019

Dataopsummering giver en bekvem måde at beskrive alle værdierne i en dataprøve med blot nogle få statistiske værdier.

Gennemsnittet og standardafvigelsen bruges til at opsummere data med en Gaussisk fordeling, men er muligvis ikke meningsfulde eller kunne endda være vildledende, hvis din dataprøve har en ikke-Gaussisk fordeling.

I denne vejledning opdager du femtalersammendraget til beskrivelse af fordelingen af en dataprøve uden at antage en bestemt datadistribution.

Efter at have gennemført denne tutorial, ved du:

  • Dataopsummering, såsom beregning af middelværdien og standardafvigelsen, er kun meningsfuld for den gaussiske fordeling.
  • Femtalersammendraget kan bruges til at beskrive en dataprøve med enhver fordeling.
  • Sådan beregnes femtalersammendraget i Python.

Start dit projekt med min nye bog Statistics for Machine Learning, inklusive trinvise tutorials og Python-kildekodefiler til alle eksempler.

Lad os komme i gang.

Sådan beregnes 5-talsoversigten for dine data i Python
Foto af Masterbutler, nogle rettigheder forbeholdes.

Oversigt over tutorial

Denne tutorial er opdelt i 4 dele; de er:

  1. Ikke-parametrisk dataopsummering
  2. Femtalersammendrag
  3. Sådan beregnes femtalersammendraget
  4. Brug af femtalersammendraget

Brug for hjælp til statistik til maskinindlæring?

Tag mit gratis 7-dages e-mail-crashkursus nu (med prøvekode).

Klik for at tilmelde dig, og få også en gratis PDF-e-bogversion af kurset.

Download din GRATIS minikurs

Ikke-parametrisk dataopsummering

Datasammendragsteknikker giver en måde at beskrive fordelingen på af data ved hjælp af et par nøglemålinger.

Det mest almindelige eksempel på datasammendrag er beregningen af middelværdien og standardafvigelsen for data, der har en Gaussisk fordeling. Med disse to parametre alene kan du forstå og genskabe distributionen af dataene. Dataoversigten kan komprimere så få som tiere eller så mange som millioner individuelle observationer.

Problemet er, at du ikke let kan beregne gennemsnittet og standardafvigelsen for data, der ikke har en Gaussisk fordeling. Teknisk set kan du beregne disse størrelser, men de opsummerer ikke datadistributionen; faktisk kan de være meget vildledende.

I tilfælde af data, der ikke har en Gaussisk fordeling, kan du opsummere dataprøven ved hjælp af femtalersammendraget.

Fem -Nummeroversigt

Fem-nummeroversigten, eller kortfattet 5-nummeroversigt, er en ikke-parametrisk dataopsummeringsteknik.

Det kaldes undertiden Tukey-5-nummeroversigt fordi det blev anbefalet af John Tukey. Det kan bruges til at beskrive fordelingen af dataprøver til data med en hvilken som helst distribution.

Som en standardoversigt til generel brug giver 5-nummeroversigten om den rigtige mængde detaljer.

– Side 37, Forståelse af robust og sonderende dataanalyse, 2000.

Femtalet resumé involverer beregning af 5 sammenfattende statistiske størrelser: nemlig:

  • Median: Den midterste værdi i prøven, også kaldet 50. percentilen eller 2. kvartil.
  • 1. kvartil : Den 25. percentil.
  • 3. kvartil: Den 75. percentil.
  • Minimum: Den mindste observation i prøven.
  • Maksimum: Den største observation i prøven .

En kvartil er en observeret værdi på et punkt, der hjælper med at opdele den bestilte dataprøve i fire lige store størrelser. Medianen eller 2. kvartil opdeler den bestilte dataprøve i to dele, og 1. og 3. kvartiler opdeler hver af disse halvdele i kvartaler.

En percentil er en observeret værdi på et punkt, der hjælper med at opdele den bestilte dataprøve i 100 dele af samme størrelse. Kvartiler udtrykkes ofte også som percentiler.

Både kvartil- og percentilværdierne er eksempler på rangstatistikker, der kan beregnes på en dataprøve med en hvilken som helst fordeling. De bruges til hurtigt at opsummere, hvor meget af dataene i distributionen, der ligger bag eller foran en given observeret værdi. For eksempel er halvdelen af observationerne bag og foran medianen for en fordeling.

Bemærk, at kvartiler også beregnes i boks og whisker-plot, en ikke-parametrisk metode til grafisk at opsummere fordelingen af data prøve.

Sådan beregnes femtalersammendraget

Beregning af femtalersammendraget indebærer at finde observationer for hver kvartil samt minimums- og maksimumobservationsværdier fra dataprøven.

Hvis der ikke er nogen specifik værdi i den bestilte dataprøve for kvartilen, f.eks. hvis der er et lige antal observationer, og vi prøver at finde medianen, kan vi beregne gennemsnittet af de to nærmeste værdier, såsom de to midterste værdier.

Vi kan beregne vilkårlige percentilværdier i Python ved hjælp af percentilen () NumPy-funktionen. Vi kan bruge denne funktion til at beregne værdierne 1., 2. (median) og 3. kvartil. Funktionen tager både en række observationer og en flydende punktværdi for at specificere den percentil, der skal beregnes i området 0 til 100. Det kan også tage en liste med percentilværdier for at beregne flere percentiler; for eksempel:

1
kvartiler = percentil (data,)

Som standard beregner funktionen en lineær interpolation (gennemsnit) mellem observationer, hvis det er nødvendigt, såsom i tilfælde af beregning af medianen på en prøve med et lige antal værdier.

NumPy-funktionerne min () og max () kan bruges til at returnere de mindste og største værdier i dataprøven; for eksempel:

1
data_min, data_max = data.min (), data.max ()

Vi kan sætte alt dette sammen.

Eksemplet nedenfor genererer en dataprøve trukket fra en ensartet fordeling mellem 0 og 1 og opsummerer den ved hjælp af femtalersammendraget.

Når du kører eksemplet, genereres dataeksemplet og beregner femtalersammendrag for at beskrive prøvefordelingen.

Vi kan se, at spredningen af observationer er tæt på vores forventninger, der viser 0,27 for den 25. percentil 0,53 for 50. percentil og 0,76 for 75. percentil tæt på de idealiserede værdier på henholdsvis 0,25, 0,50 og 0,75.

1
2
3
4
5

Min: 0.000
Q1: 0.277
Median: 0,532
Q3: 0,766
Maks: 1.000

Brug af femtalersammendraget

Femtalersammendraget kan beregnes for en dataprøve med en hvilken som helst fordeling.

Dette inkluderer data, der har en kendt fordeling, såsom en Gaussisk eller Gaussisk-lignende distribution udion.

Jeg vil altid anbefale at beregne femtalersammendraget og kun gå videre til distributionsspecifikke resuméer, såsom gennemsnit og standardafvigelse for Gaussien, i tilfælde af at du kan identificere den fordeling, som dataene hører til.

Udvidelser

Dette afsnit viser nogle ideer til udvidelse af selvstudiet, som du måske ønsker at udforske.

  • Beskriv tre eksempler i en maskinindlæringsprojekt, hvor et femtalersammendrag kunne beregnes.
  • Generer en dataprøve med en Gaussisk fordeling og beregne femtalersammendraget.
  • Skriv en funktion til at beregne en 5 -nummeroversigt for enhver dataprøve.

Hvis du udforsker nogen af disse udvidelser, vil jeg meget gerne vide det.

Yderligere læsning

Dette afsnit giver flere ressourcer om emnet, hvis du ønsker at gå dybere.

Bøger

  • Forståelse af robust og sonderende dataanalyse, 2000.

API

  • numpy.percentile () API
  • numpy.ndarray.min () API
  • numpy.ndarray.max () API

Artikler

  • Femtalersammendrag på Wikipedia
  • Kvartil på Wikipedia
  • Percentil på Wikipedia

Oversigt

I denne vejledning opdagede du femtalersammendraget til beskrivelse af fordelingen af en dataprøve uden at antage en bestemt datadistribution.

Specifikt lærte du:

  • Datasammendrag, såsom beregning af gennemsnit og standardafvigelse, er kun meningsfulde for den gaussiske fordeling.
  • Femtalet resume kan bruges til at beskrive en dataprøve med en hvilken som helst fordeling.
  • Hvordan man beregner femtalersammendraget i Python.

Har du spørgsmål?
Stil dine spørgsmål i kommentarerne nedenfor, så vil jeg gøre mit bedste for at svare.

Få et håndtag om statistik til maskinindlæring!

Udvikle en arbejdsforståelse for statistik

… ved at skrive linjer på co de in python

Opdag hvordan i min nye E-bog:
Statistiske metoder til maskinindlæring

Den giver selvstudievejledninger om emner som:
Hypotesetests, korrelation, Ikke-parametriske statistikker, sampling og meget mere …

Find ud af, hvordan du omdanner data til viden

Spring over akademikerne. Bare resultater.

Se hvad der er inde i

Tweet Del Del

Leave a Reply

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *