Sist oppdatert 8. august 2019
Datasammendrag gir en praktisk måte å beskrive alle verdiene i et datautvalg med bare noen få statistiske verdier.
Gjennomsnittet og standardavviket brukes til å oppsummere data med en gaussisk fordeling, men kan ikke være meningsfylt, eller kunne til og med være villedende, hvis datautvalget ditt har en ikke-Gaussisk fordeling.
I denne veiledningen vil du oppdage fem-talls sammendraget for å beskrive distribusjonen av en dataeksempel uten å anta en spesifikk datadistribusjon. / p>
Etter å ha fullført denne opplæringen, vil du vite:
- Datasammendrag, for eksempel beregning av gjennomsnitt og standardavvik, er bare meningsfylt for den gaussiske fordelingen.
- Femtalssammendraget kan brukes til å beskrive en dataeksempel med hvilken som helst fordeling.
- Hvordan beregne fem-tallsammendraget i Python.
Start prosjektet ditt med min nye bok Statistics for Machine Learning, inkludert trinnvise opplæringsprogrammer og Python-kildekodefilene for alle eksempler.
La oss komme i gang.
Slik beregner du 5-talls sammendraget for dine data i Python
Foto av Masterbutler, noen rettigheter forbeholdt.
Opplæringsoversikt
Denne opplæringen er delt inn i 4 deler; de er:
- Oppsummering av ikke-parametrisk data
- Sammendrag med fem tall
- Hvordan beregne fem-tallsammendraget
- Bruk av femtallssammendraget
Trenger du hjelp med statistikk for maskinlæring?
Ta mitt gratis 7-dagers e-postkrasjkurs nå (med eksempelkode).
Klikk for å registrere deg og få også en gratis PDF-e-bokversjon av kurset.
Last ned din GRATIS minikurs
Ikke-parametrisk dataoppsummering
Datasammendragsteknikker gir en måte å beskrive distribusjonen på av data ved hjelp av noen få nøkkelmålinger.
Det vanligste eksemplet på datasammendrag er beregning av gjennomsnitt og standardavvik for data som har en gaussisk fordeling. Med disse to parametrene alene kan du forstå og gjenskape distribusjonen av dataene. Datasammendraget kan komprimere så få som titalls eller så mange som millioner individuelle observasjoner.
Problemet er at du ikke enkelt kan beregne gjennomsnittet og standardavviket til data som ikke har en gaussisk fordeling. Teknisk sett kan du beregne disse mengdene, men de oppsummerer ikke datadistribusjonen; faktisk kan de være veldig misvisende.
Når det gjelder data som ikke har en gaussisk fordeling, kan du oppsummere dataeksemplet ved hjelp av sammensetningen med fem tall.
Fem -Nummer Sammendrag
Fem-talls sammendraget, eller kortfattet 5-talls sammendrag, er en ikke-parametrisk teknikk for sammendrag av data.
Det kalles noen ganger Tukey 5-talls sammendrag fordi det ble anbefalt av John Tukey. Den kan brukes til å beskrive distribusjonen av dataprøver for data med hvilken som helst distribusjon.
Som et standard sammendrag for generell bruk, gir 5-talls sammendraget om riktig mengde detaljer.
– Side 37, Forståelse av robust og utforskende dataanalyse, 2000.
Femtalet sammendrag involverer beregning av 5 sammendragsstatistiske størrelser: nemlig:
- Median: Den midterste verdien i utvalget, også kalt 50. persentilen eller 2. kvartil.
- 1. kvartil : Den 25. persentilen.
- 3. kvartil: Den 75. persentilen.
- Minimum: Den minste observasjonen i prøven.
- Maksimum: Den største observasjonen i prøven .
En kvartil er en observert verdi på et punkt som hjelper til med å dele den bestilte datasamlingen i fire like store deler. Medianen, eller 2. kvartil, deler den ordnede dataprøven i to deler, og den første og tredje kvartilen deler hver av disse halvdelene i kvartaler.
En prosentil er en observert verdi på et punkt som hjelper til med å dele den bestilte datasamlingen i 100 like store deler. Kvartiler blir ofte også uttrykt som prosentiler.
Både kvartil- og persentilverdiene er eksempler på rangstatistikk som kan beregnes på et datautvalg med en hvilken som helst fordeling. De brukes til å raskt oppsummere hvor mye av dataene i distribusjonen som ligger bak eller foran en gitt observert verdi. For eksempel er halvparten av observasjonene bak og foran medianen til en fordeling.
Merk at kvartiler også beregnes i boks og kinnet plot, en ikke-parametrisk metode for å grafisk oppsummere fordelingen av data prøve.
Hvordan beregne fem-tallsammendraget
Beregning av fem-tallsammendraget innebærer å finne observasjonene for hvert kvartil, samt minimums- og maksimumsverdiene fra dataeksemplet.
Hvis det ikke er noen spesifikk verdi i det bestilte datasamplet for kvartilen, for eksempel hvis det er et jevnt antall observasjoner og vi prøver å finne medianen, kan vi beregne gjennomsnittet av de to nærmeste verdier, for eksempel de to midtre verdiene.
Vi kan beregne vilkårlige persentilverdier i Python ved hjelp av persentilen () NumPy-funksjonen. Vi kan bruke denne funksjonen til å beregne verdiene 1., 2. (median) og 3. kvartil. Funksjonen tar både en rekke observasjoner og en flytende verdi for å spesifisere prosentilen som skal beregnes i området 0 til 100. Det kan også ta en liste over prosentilverdier for å beregne flere prosentiler; for eksempel:
1
|
kvartiler = prosentil (data,)
|
Som standard vil funksjonen beregne en lineær interpolasjon (gjennomsnitt) mellom observasjoner om nødvendig, for eksempel i tilfelle beregning av medianen på en prøve med et jevnt antall verdier.
NumPy-funksjonene min () og max () kan brukes til å returnere de minste og største verdiene i dataeksemplet; for eksempel:
1
|
data_min, data_max = data.min (), data.max ()
|
Vi kan sette alt dette sammen.
Eksemplet nedenfor genererer en dataeksempel trukket fra en jevn fordeling mellom 0 og 1 og oppsummerer den ved hjelp av fem-tallsammendraget.
Når du kjører eksemplet, genereres dataeksemplet og beregner fem-tallsammendraget for å beskrive prøvefordelingen.
Vi kan se at spredningen av observasjoner er nær våre forventninger og viser 0,27 for den 25. persentilen 0,53 for 50. persentil og 0,76 for 75. persentil, nær de idealiserte verdiene på henholdsvis 0,25, 0,50 og 0,75.
1
2
3
4
5
|
Min: 0.000
Q1: 0.277
Median: 0.532
Q3: 0.766
Maks: 1.000
|
Bruk av fem-tallsammendraget
Fem-talls sammendraget kan beregnes for et dataeksempel med en hvilken som helst fordeling.
Dette inkluderer data som har en kjent distribusjon, for eksempel en Gaussisk eller Gaussisk-lignende distribusjon ution.
Jeg vil anbefale å alltid beregne fem-tallsammendraget, og bare gå videre til distribusjonsspesifikke oppsummeringer, for eksempel gjennomsnitt og standardavvik for Gauss, i tilfelle du kan identifisere fordelingen som dataene tilhører.
Utvidelser
Denne delen viser noen ideer for å utvide opplæringen du kanskje vil utforske.
- Beskriv tre eksempler i en maskinlæringsprosjekt der et fem-talls sammendrag kan beregnes.
- Generer en dataeksempel med en gaussisk fordeling og beregne fem-tallsammendraget.
- Skriv en funksjon for å beregne en 5 -nummer sammendrag for alle dataeksempler.
Hvis du utforsker noen av disse utvidelsene, vil jeg gjerne vite det.
Videre lesing
Denne delen gir flere ressurser om emnet hvis du ønsker å gå dypere.
Bøker
- Forstå Robust and Exploratory Data Analysis, 2000.
API
- numpy.percentile () API
- numpy.ndarray.min () API
- numpy.ndarray.max () API
Artikler
- Femtalersammendrag på Wikipedia
- Kvartil på Wikipedia
- Prosentil på Wikipedia
Sammendrag
I denne opplæringen oppdaget du fem-talls sammendraget for å beskrive fordelingen av et dataeksempel uten å anta en spesifikk datadistribusjon.
Spesielt lærte du:
- Datasammendrag, for eksempel beregning av gjennomsnitt og standardavvik, er bare meningsfylt for den gaussiske fordelingen.
- Femtallet sammendrag kan brukes til å beskrive et dataeksempel med hvilken som helst fordeling.
- Hvordan beregner man fem-tallsammendraget i Python.
Har du spørsmål?
Still spørsmålene dine i kommentarene nedenfor, så vil jeg gjøre mitt beste for å svare.
Få et håndtak på statistikk for maskinlæring!
Utvikle en arbeidsforståelse for statistikk
… ved å skrive linjer på co de in python
Oppdag hvordan i min nye eBok:
Statistiske metoder for maskinlæring
Den gir selvstudieringsveiledninger om emner som:
Hypotesetester, Korrelasjon, Ikke-parametriske statistikker, sampling og mye mer …
Oppdag hvordan du kan transformere data til kunnskap
Hopp over akademikerne. Bare resultater.
Se hva som er inne i