Hoe de 5-cijferige samenvatting voor uw gegevens in Python te berekenen

Tweet Share Share

Laatst bijgewerkt op 8 augustus 2019

Gegevenssamenvatting biedt een handige manier om alle waarden in een gegevenssteekproef te beschrijven met slechts een paar statistische waarden.

Het gemiddelde en de standaarddeviatie worden gebruikt om gegevens samen te vatten met een Gaussiaanse verdeling, maar zijn mogelijk niet zinvol, of kunnen zelfs misleidend zijn, als uw gegevenssteekproef een niet-Gaussische verdeling heeft.

In deze zelfstudie ontdekt u de samenvatting van vijf cijfers voor het beschrijven van de verdeling van een gegevenssteekproef zonder een specifieke gegevensverdeling aan te nemen.

Na het voltooien van deze tutorial weet je:

  • Gegevenssamenvatting, zoals het berekenen van het gemiddelde en de standaarddeviatie, zijn alleen zinvol voor de Gauss-verdeling.
  • De samenvatting met vijf cijfers kan worden gebruikt om een gegevensmonster met elke distributie te beschrijven.
  • Hoe de samenvatting met vijf cijfers in Python te berekenen.

Geef je project een vliegende start met mijn nieuwe boek Statistics for Machine Learning, inclusief stapsgewijze tutorials en de Python-broncodebestanden voor alle voorbeelden.

Laten we beginnen.

Hoe de samenvatting van vijf cijfers voor uw gegevens in Python te berekenen
Foto door Masterbutler, sommige rechten voorbehouden.

Overzicht tutorial

Deze tutorial is opgedeeld in 4 delen; dit zijn:

  1. Niet-parametrische gegevenssamenvatting
  2. Samenvatting van vijf cijfers
  3. Hoe de samenvatting van vijf cijfers te berekenen
  4. Gebruik van de vijfcijferige samenvatting

Hulp nodig bij Statistieken voor Machine Learning?

Volg nu mijn gratis 7-daagse e-mailcursus (met voorbeeldcode).

Klik om u aan te melden en ontvang ook een gratis pdf-e-boekversie van de cursus.

Download uw GRATIS minicursus

Niet-parametrische gegevenssamenvatting

Technieken voor gegevenssamenvatting bieden een manier om de distributie te beschrijven van gegevens met behulp van een paar belangrijke metingen.

Het meest gebruikelijke voorbeeld van gegevenssamenvatting is de berekening van het gemiddelde en de standaarddeviatie voor gegevens met een Gauss-verdeling. Met alleen deze twee parameters kunt u de distributie van de gegevens begrijpen en opnieuw creëren. De samenvatting van de gegevens kan slechts enkele tientallen of wel miljoenen afzonderlijke waarnemingen comprimeren.

Het probleem is dat u niet gemakkelijk het gemiddelde en de standaarddeviatie kunt berekenen van gegevens die geen Gaussiaanse verdeling hebben. Technisch gezien kunt u deze hoeveelheden berekenen, maar ze geven geen samenvatting van de gegevensverdeling; in feite kunnen ze erg misleidend zijn.

In het geval van gegevens die geen Gaussiaanse verdeling hebben, kunt u de gegevenssteekproef samenvatten met behulp van de vijfcijferige samenvatting.

Vijf -Nummeroverzicht

De samenvatting met vijf cijfers, of kortweg vijf cijfers, is een niet-parametrische gegevenssamenvattingstechniek.

Het wordt ook wel de Tukey-samenvatting met vijf cijfers genoemd omdat het werd aanbevolen door John Tukey. Het kan worden gebruikt om de distributie van gegevensvoorbeelden voor gegevens met elke distributie te beschrijven.

Als een standaard samenvatting voor algemeen gebruik biedt de samenvatting met 5 cijfers over de juiste hoeveelheid details.

– Pagina 37, Understanding Robust and Exploratory Data Analysis, 2000.

De vijf cijfers samenvatting omvat de berekening van 5 samenvattende statistische grootheden: namelijk:

  • Mediaan: de middelste waarde in de steekproef, ook wel het 50e percentiel of het 2e kwartiel genoemd.
  • 1e kwartiel : Het 25e percentiel.
  • 3e kwartiel: het 75e percentiel.
  • Minimum: de kleinste waarneming in de steekproef.
  • Maximum: de grootste waarneming in de steekproef .

Een kwartiel is een waargenomen waarde op een punt dat helpt bij het opsplitsen van het bestelde gegevensmonster in vier even grote delen. Het mediaan, of 2e kwartiel, splitst het geordende gegevensmonster in twee delen, en het eerste en derde kwartiel splitsen elk van die helften op in kwartalen.

Een percentiel is een waargenomen waarde op een punt dat helpt bij het splitsen het bestelde gegevensmonster in 100 even grote porties. Kwartielen worden vaak ook uitgedrukt als percentielen.

Zowel de kwartiel- als de percentielwaarden zijn voorbeelden van rangstatistieken die kunnen worden berekend op basis van een gegevenssteekproef met elke verdeling. Ze worden gebruikt om snel samen te vatten hoeveel van de gegevens in de distributie achter of vóór een bepaalde waargenomen waarde staan. De helft van de waarnemingen bevindt zich bijvoorbeeld achter en vóór de mediaan van een distributie.

Merk op dat kwartielen ook worden berekend in de box and whisker-plot, een niet-parametrische methode om de distributie van een gegeven grafisch samen te vatten. monster.

Hoe de samenvatting met vijf cijfers te berekenen

Bij het berekenen van de samenvatting met vijf cijfers moet je de waarnemingen voor elk kwartiel vinden, evenals de minimale en maximale waargenomen waarden van het gegevensmonster.

Als er geen specifieke waarde is in de geordende gegevenssteekproef voor het kwartiel, bijvoorbeeld als er een even aantal waarnemingen is en we proberen de mediaan te vinden, dan kunnen we het gemiddelde berekenen van de twee dichtstbijzijnde waarden, zoals de twee middelste waarden.

We kunnen willekeurige percentielwaarden in Python berekenen met de functie percentile () NumPy. We kunnen deze functie gebruiken om de waarden van het 1e, 2e (mediaan) en 3e kwartiel te berekenen. De functie heeft zowel een reeks waarnemingen als een drijvende-kommawaarde nodig om het te berekenen percentiel in het bereik van 0 tot 100 te specificeren. Er kan ook een lijst met percentielwaarden voor nodig zijn om meerdere percentielen te berekenen; bijvoorbeeld:

1
kwartielen = percentiel (gegevens,)

Standaard berekent de functie een lineaire interpolatie (gemiddelde) tussen waarnemingen indien nodig, zoals in het geval van het berekenen van de mediaan op een steekproef met een even aantal waarden.

De NumPy-functies min () en max () kunnen worden gebruikt om de kleinste en grootste waarden in de gegevenssteekproef te retourneren; bijvoorbeeld:

1
data_min, data_max = data.min (), data.max ()

We kunnen dit allemaal samenvoegen.

In het onderstaande voorbeeld wordt een gegevenssteekproef gegenereerd op basis van een uniforme verdeling tussen 0 en 1 en wordt deze samengevat met behulp van de samenvatting van vijf cijfers.

Als u het voorbeeld uitvoert, wordt de gegevenssteekproef gegenereerd en wordt de samenvatting van vijf cijfers berekend om de steekproefverdeling te beschrijven.

We kunnen zien dat de spreiding van waarnemingen dicht bij onze verwachtingen ligt, namelijk 0,27 voor het 25e percentiel, 0,53 voor de 50e percentiel en 0,76 voor het 75e percentiel, dicht bij de geïdealiseerde waarden van respectievelijk 0,25, 0,50 en 0,75.

1
2
3
4
5

Min: 0.000
Q1: 0.277
Mediaan: 0,532
Q3: 0,766
Max: 1.000

Gebruik van de vijfcijferige samenvatting

De vijfcijferige samenvatting kan worden berekend voor een gegevensmonster met elke willekeurige verdeling.

Dit omvat gegevens met een bekende distributie, zoals een Gaussische of Gauss-achtige distributie ution.

Ik zou aanraden om altijd de samenvatting met vijf cijfers te berekenen en alleen verder te gaan met distributiespecifieke samenvattingen, zoals gemiddelde en standaarddeviatie voor de Gaussiaanse, in het geval dat u de distributie kunt identificeren waarnaar de gegevens horen.

Extensies

Deze sectie bevat enkele ideeën voor het uitbreiden van de tutorial die je misschien wilt verkennen.

  • Beschrijf drie voorbeelden in een machine learning-project waarbij een samenvatting van vijf cijfers kan worden berekend.
  • Genereer een gegevenssteekproef met een Gaussiaanse verdeling en bereken de samenvatting van vijf cijfers.
  • Schrijf een functie om een 5 te berekenen -aantal samenvatting voor elk gegevensvoorbeeld.

Als u een van deze extensies verkent, zou ik dat graag willen weten.

Verder lezen

Deze sectie biedt meer bronnen over het onderwerp als je dieper wilt gaan.

Boeken

  • Understanding Robust and Exploratory Data Analysis, 2000.

API

  • numpy.percentile () API
  • numpy.ndarray.min () API
  • numpy.ndarray.max () API

Artikelen

  • Samenvatting van vijf cijfers op Wikipedia
  • Kwartiel op Wikipedia
  • Percentiel op Wikipedia

Samenvatting

In deze tutorial ontdekte je de samenvatting met vijf cijfers voor het beschrijven van de distributie van een gegevenssteekproef zonder een specifieke gegevensverdeling aan te nemen.

Je hebt in het bijzonder geleerd:

  • Gegevenssamenvatting, zoals het berekenen van het gemiddelde en de standaarddeviatie, zijn alleen zinvol voor de Gauss-verdeling.
  • Het vijfgetal samenvatting kan worden gebruikt om een gegevensmonster met elke verdeling te beschrijven.
  • Hoe de samenvatting van vijf cijfers in Python te berekenen.

Heb je vragen?
Stel je vragen in de reacties hieronder en ik zal mijn best doen om deze te beantwoorden.

Krijg grip op statistieken voor machine learning!

Ontwikkel een goed begrip van statistieken

… door regels te schrijven co de in python

Ontdek hoe in mijn nieuwe e-boek:
Statistische methoden voor machinaal leren

Het biedt zelfstudiehandleidingen over onderwerpen als:
Hypothesetests, correlatie, Niet-parametrische statistieken, resampling en nog veel meer …

Ontdek hoe u gegevens omzet in kennis

Sla de academici over. Alleen resultaten.

Bekijk wat erin zit

Tweet Delen Delen

Leave a Reply

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *