Senast uppdaterad den 8 augusti 2019
Datasammanfattning ger ett bekvämt sätt att beskriva alla värden i ett dataprov med bara några få statistiska värden.
Medelvärdet och standardavvikelsen används för att sammanfatta data med en Gaussisk fördelning, men kanske inte är meningsfulla eller kan till och med vara vilseledande, om ditt dataprov har en icke-Gaussisk fördelning.
I denna handledning kommer du att upptäcka femsiffrasammanfattningen för att beskriva fördelningen av ett dataprov utan att anta en specifik datadistribution.
Efter att ha slutfört denna handledning vet du:
- Datasammanfattning, som att beräkna medelvärdet och standardavvikelsen, är bara meningsfullt för den Gaussiska fördelningen.
- Sammanfattningen av fem siffror kan användas för att beskriva ett dataprov med vilken fördelning som helst.
- Hur man beräknar femtalssammanfattningen i Python.
Starta ditt projekt med min nya bok Statistics for Machine Learning, inklusive steg-för-steg-handledning och Python-källkodsfiler för alla exempel.
Låt oss komma igång.
Hur man beräknar 5-siffrans sammanfattning för dina data i Python
Foto av Masterbutler, vissa rättigheter reserverade.
Självstudieöversikt
Denna handledning är uppdelad i fyra delar; de är:
- Sammanfattning av icke-parametrisk data
- Sammanfattning av fem nummer
- Hur man beräknar femtalssammanfattningen
- Använd i femtalssammanfattningen
Behöver du hjälp med statistik för maskininlärning?
Ta min gratis 7-dagars e-postkraschkurs nu (med exempelkod).
Klicka för att registrera dig och få en gratis PDF-e-bokversion av kursen.
Ladda ner din GRATIS minikurs
Sammanfattning av icke-parametrisk data
Datasammanfattningstekniker ger ett sätt att beskriva fördelningen av data med hjälp av några få nyckelmätningar.
Det vanligaste exemplet på datasammanfattning är beräkningen av medelvärdet och standardavvikelsen för data som har en Gaussisk fördelning. Med dessa två parametrar ensamma kan du förstå och återskapa distributionen av data. Datasammanfattningen kan komprimera så få som tiotals eller så många som miljoner individuella observationer.
Problemet är att du inte enkelt kan beräkna medel- och standardavvikelsen för data som inte har en Gaussisk fördelning. Tekniskt kan du beräkna dessa kvantiteter, men de sammanfattar inte datafördelningen; i själva verket kan de vara mycket vilseledande.
När det gäller data som inte har en Gaussisk fördelning kan du sammanfatta dataexemplet med hjälp av en femtalssammanfattning.
Fem -Nummeröversikt
Sammanfattningen av fem siffror, eller kortfattat 5-siffrarsammanfattning, är en icke-parametrisk datasammanfattningsteknik.
Det kallas ibland Tukey 5-siffrarsammanfattning eftersom det rekommenderades av John Tukey. Den kan användas för att beskriva distributionen av dataprov för data med vilken distribution som helst.
Som en standardöversikt för allmän användning ger 5-siffrans sammanfattning om rätt mängd detaljer.
– Sida 37, Förstå Robust och Exploratory Data Analysis, 2000.
Femtalet sammanfattning innefattar beräkning av fem sammanfattande statistiska kvantiteter: nämligen:
- Median: medelvärdet i urvalet, även kallat 50: e percentilen eller den andra kvartilen.
- 1: a kvartilen : Den 25: e percentilen.
- Tredje kvartilen: Den 75: e percentilen.
- Minimum: Den minsta observationen i urvalet.
- Maximum: Den största observationen i urvalet .
En kvartil är ett observerat värde vid en punkt som hjälper till att dela upp det beställda dataprov i fyra lika stora delar. Medianen, eller andra kvartilen, delar upp det beställda dataprovet i två delar, och det första och tredje kvartalet delar var och en av dessa halvor i kvartal.
En percentil är ett observerat värde vid en punkt som hjälper till att dela det beställda dataprovet i 100 lika stora delar. Kvartiler uttrycks ofta också som percentiler.
Både kvartil- och percentilvärdena är exempel på rangstatistik som kan beräknas på ett dataprov med vilken fördelning som helst. De används för att snabbt sammanfatta hur mycket av data i distributionen som ligger bakom eller framför ett givet observerat värde. Till exempel är hälften av observationerna bakom och framför medianen för en fördelning.
Observera att kvartiler också beräknas i rutan och whisker-diagrammet, en icke-parametrisk metod för att grafiskt sammanfatta fördelningen av data prov.
Hur man beräknar femsiffrasammanfattningen
Att beräkna femsiffrarsammanfattningen innebär att man hittar observationerna för varje kvartil samt de minsta och maximala observerade värdena från dataprov.
Om det inte finns något specifikt värde i det beställda dataprovet för kvartilen, till exempel om det finns ett jämnt antal observationer och vi försöker hitta medianen, kan vi beräkna medelvärdet av de två närmaste värden, till exempel de två mellersta värdena.
Vi kan beräkna godtyckliga percentilvärden i Python med hjälp av funktionen percentil () NumPy. Vi kan använda den här funktionen för att beräkna värdena 1: a, 2: a (median) och 3: e kvartil. Funktionen tar både en rad observationer och ett flytpunktsvärde för att specificera percentilen som ska beräknas i området 0 till 100. Det kan också ta en lista med percentilvärden för att beräkna flera percentiler; till exempel:
1
|
kvartiler = percentil (data,)
|
Som standard beräknar funktionen en linjär interpolering (genomsnitt) mellan observationer om det behövs, t.ex. vid beräkning av medianen på ett prov med ett jämnt antal värden.
NumPy-funktionerna min () och max () kan användas för att returnera de minsta och största värdena i dataprov; till exempel:
1
|
data_min, data_max = data.min (), data.max ()
|
Vi kan sätta ihop allt detta.
Exemplet nedan genererar ett dataprov som dras från en enhetlig fördelning mellan 0 och 1 och sammanfattar det med femsiffrasammanfattningen.
Genom att köra exemplet genereras dataprov och beräknar femsiffrasammanfattningen för att beskriva provfördelningen.
Vi kan se att spridningen av observationer ligger nära våra förväntningar och visar 0,27 för den 25: e percentilen 0,53 för 50: e percentilen och 0,76 för den 75: e percentilen, nära de idealiserade värdena 0,25, 0,50 respektive 0,75.
1
2
3
4
5
|
Min: 0,000
Q1: 0,277
Median: 0.532
Q3: 0.766
Max: 1.000
|
Användning av femtalssammanfattningen
Sammanfattningen av fem siffror kan beräknas för ett dataprov med vilken fördelning som helst.
Detta inkluderar data som har en känd fördelning, såsom en Gaussisk eller Gaussisk-liknande distribution ution.
Jag rekommenderar att du alltid beräknar femsiffrasammanfattningen och bara går vidare till distributionsspecifika sammanfattningar, såsom medelvärde och standardavvikelse för Gauss, om du kan identifiera fördelningen till vilken data tillhör.
Tillägg
Detta avsnitt listar några idéer för att utvidga handledningen som du kanske vill utforska.
- Beskriv tre exempel i en maskininlärningsprojekt där en femsiffrig sammanfattning kunde beräknas.
- Skapa ett dataprov med en Gaussisk fördelning och beräkna femsiffrig sammanfattning.
- Skriv en funktion för att beräkna en 5 -sammanfattning för alla dataprov.
Om du utforskar något av dessa tillägg skulle jag gärna veta.
Ytterligare läsning
Detta avsnitt ger fler resurser om ämnet om du vill gå djupare.
Böcker
- Förstå Robust och Exploratory Data Analysis, 2000.
API
- numpy.percentile () API
- numpy.ndarray.min () API
- numpy.ndarray.max () API
Artiklar
- Femsiffrig sammanfattning på Wikipedia
- Kvartil på Wikipedia
- Procentil på Wikipedia
Sammanfattning
I den här självstudien upptäckte du en femsiffrig sammanfattning för att beskriva fördelningen av ett dataprov utan att anta en specifik datadistribution.
Du lärde dig specifikt:
- Datasammanfattning, som att beräkna medelvärdet och standardavvikelsen, är endast meningsfullt för den Gaussiska fördelningen.
- Femtalet sammanfattning kan användas för att beskriva ett dataprov med vilken distribution som helst.
- Hur man beräknar femsiffrasammanfattningen i Python.
Har du några frågor?
Ställ dina frågor i kommentarerna nedan så gör jag mitt bästa för att svara.
Få hand om statistik för maskininlärning!
Utveckla en arbetsförståelse för statistik
… genom att skriva rader av co de in python
Upptäck hur i min nya e-bok:
Statistiska metoder för maskininlärning
Det ger självstudier om ämnen som:
Hypotesprov, korrelation, Icke-parametriska statistik, omprovtagning och mycket mer …
Upptäck hur man omvandlar data till kunskap
Hoppa över akademikerna. Bara resultat.
Se vad som finns i