Zuletzt aktualisiert am 8. August 2019
bietet die Datenzusammenfassung Eine bequeme Möglichkeit, alle Werte in einer Datenstichprobe mit nur wenigen statistischen Werten zu beschreiben.
Der Mittelwert und die Standardabweichung werden verwendet, um Daten mit einer Gaußschen Verteilung zusammenzufassen, sind jedoch möglicherweise nicht aussagekräftig oder könnten Dies kann sogar irreführend sein, wenn Ihre Datenstichprobe eine nicht-Gaußsche Verteilung aufweist.
In diesem Lernprogramm finden Sie eine Zusammenfassung mit fünf Zahlen zur Beschreibung der Verteilung einer Datenstichprobe, ohne eine bestimmte Datenverteilung anzunehmen.
Nach Abschluss dieses Lernprogramms wissen Sie:
- Datenzusammenfassungen wie die Berechnung des Mittelwerts und der Standardabweichung sind nur für die Gaußsche Verteilung von Bedeutung.
- Die Zusammenfassung mit fünf Zahlen kann verwendet werden, um ein Datenbeispiel mit einer beliebigen Verteilung zu beschreiben.
- So berechnen Sie die Zusammenfassung mit fünf Zahlen in Python.
Starten Sie Ihr Projekt mit meinem neuen Buch Statistik für maschinelles Lernen, das schrittweise Anleitungen und die Python-Quellcodedateien für alle Beispiele enthält.
Beginnen wir.
So berechnen Sie die 5-Zahlen-Zusammenfassung für Ihre Daten in Python
Foto von Masterbutler, einige Rechte vorbehalten. P. >
Tutorial-Übersicht
Dieses Tutorial ist in 4 Teile unterteilt. Dies sind:
- Nichtparametrische Datenzusammenfassung
- Fünf-Zahlen-Zusammenfassung
- Berechnen der Fünf-Zahlen-Zusammenfassung
- Verwendung der Fünf-Zahlen-Zusammenfassung
Benötigen Sie Hilfe bei Statistiken für maschinelles Lernen?
Nehmen Sie jetzt an meinem kostenlosen 7-tägigen E-Mail-Crashkurs teil (mit Beispielcode).
Klicken Sie hier, um sich anzumelden und eine kostenlose PDF-E-Book-Version des Kurses zu erhalten.
Laden Sie Ihren herunter KOSTENLOSER Minikurs
Nichtparametrische Datenzusammenfassung
Datenzusammenfassungstechniken bieten eine Möglichkeit, die Verteilung zu beschreiben von Daten unter Verwendung einiger Schlüsselmessungen.
Das häufigste Beispiel für die Zusammenfassung von Daten ist die Berechnung des Mittelwerts und der Standardabweichung für Daten mit einer Gaußschen Verteilung. Allein mit diesen beiden Parametern können Sie die Verteilung der Daten verstehen und neu erstellen. Die Datenzusammenfassung kann nur zehn oder bis zu Millionen einzelne Beobachtungen komprimieren.
Das Problem ist, dass Sie den Mittelwert und die Standardabweichung von Daten ohne Gaußsche Verteilung nicht einfach berechnen können. Technisch gesehen können Sie diese Größen berechnen, sie fassen jedoch die Datenverteilung nicht zusammen. Tatsächlich können sie sehr irreführend sein.
Bei Daten ohne Gaußsche Verteilung können Sie die Datenstichprobe mithilfe der Fünf-Zahlen-Zusammenfassung zusammenfassen.
Fünf -Number Summary
Die Fünf-Zahlen-Zusammenfassung, kurz 5-Zahlen-Zusammenfassung, ist eine nicht parametrische Datenzusammenfassungstechnik.
Sie wird manchmal als Tukey-Fünf-Zahlen-Zusammenfassung bezeichnet weil es von John Tukey empfohlen wurde. Es kann verwendet werden, um die Verteilung von Datenproben für Daten mit beliebiger Verteilung zu beschreiben.
Als Standardzusammenfassung für den allgemeinen Gebrauch bietet die 5-Zahlen-Zusammenfassung über die richtige Menge an Details.
– Seite 37, Grundlegendes zur robusten und explorativen Datenanalyse, 2000.
Die fünf Zahlen Die Zusammenfassung umfasst die Berechnung von 5 zusammenfassenden statistischen Größen:
- Median: Der Mittelwert in der Stichprobe, auch als 50. Perzentil oder 2. Quartil bezeichnet.
- 1. Quartil : Das 25. Perzentil.
- 3. Quartil: Das 75. Perzentil.
- Minimum: Die kleinste Beobachtung in der Stichprobe.
- Maximum: Die größte Beobachtung in der Stichprobe
Ein Quartil ist ein beobachteter Wert an einem Punkt, der die Aufteilung der geordneten Datenprobe in vier gleich große Teile erleichtert. Der Median oder das 2. Quartil teilt die geordnete Datenstichprobe in zwei Teile auf, und das 1. und 3. Quartil teilen jede dieser Hälften in Viertel auf.
Ein Perzentil ist ein beobachteter Wert an einem Punkt, der die Aufteilung erleichtert die bestellte Datenprobe in 100 gleich große Portionen. Quartile werden häufig auch als Perzentile ausgedrückt.
Sowohl der Quartil- als auch der Perzentilwert sind Beispiele für Rangstatistiken, die für eine Datenstichprobe mit beliebiger Verteilung berechnet werden können. Sie werden verwendet, um schnell zusammenzufassen, wie viele Daten in der Verteilung hinter oder vor einem bestimmten beobachteten Wert liegen. Beispielsweise befindet sich die Hälfte der Beobachtungen hinter und vor dem Median einer Verteilung.
Beachten Sie, dass Quartile auch im Box- und Whisker-Diagramm berechnet werden, einer nichtparametrischen Methode zur grafischen Zusammenfassung der Verteilung von Daten Stichprobe.
Berechnen der Fünf-Zahlen-Zusammenfassung
Bei der Berechnung der Fünf-Zahlen-Zusammenfassung werden die Beobachtungen für jedes Quartil sowie die minimalen und maximalen beobachteten Werte aus der Datenstichprobe ermittelt.
Wenn die geordnete Datenstichprobe für das Quartil keinen bestimmten Wert enthält, z. B. wenn es eine gerade Anzahl von Beobachtungen gibt und wir versuchen, den Median zu finden, können wir den Mittelwert der beiden nächsten berechnen Werte, wie z. B. die beiden Mittelwerte.
Mit der NumPy-Funktion perzentile () können wir in Python beliebige Perzentilwerte berechnen. Mit dieser Funktion können wir den 1., 2. (Median) und 3. Quartilwert berechnen. Die Funktion verwendet sowohl ein Array von Beobachtungen als auch einen Gleitkommawert, um das zu berechnende Perzentil im Bereich von 0 bis 100 anzugeben. Sie kann auch eine Liste von Perzentilwerten verwenden, um mehrere Perzentile zu berechnen. Beispiel:
1
|
Quartile = Perzentil (Daten,)
|
Standardmäßig berechnet die Funktion bei Bedarf eine lineare Interpolation (Durchschnitt) zwischen Beobachtungen, z im Fall der Berechnung des Medians für eine Stichprobe mit einer geraden Anzahl von Werten.
Mit den NumPy-Funktionen min () und max () können die kleinsten und größten Werte in der Datenstichprobe zurückgegeben werden. Beispiel:
1
|
data_min, data_max = data.min (), data.max ()
|
Wir können all dies zusammenfassen.
Das folgende Beispiel generiert eine Datenstichprobe aus einer gleichmäßigen Verteilung zwischen 0 und 1 und fasst sie anhand der Zusammenfassung mit fünf Zahlen zusammen.
Durch Ausführen des Beispiels wird die Datenstichprobe generiert und die Zusammenfassung mit fünf Zahlen berechnet
Wir können sehen, dass die Streuung der Beobachtungen nahe an unseren Erwartungen liegt und 0,27 für das 25. Perzentil 0,53 für das zeigt 50. Perzentil und 0,76 für das 75. Perzentil nahe den idealisierten Werten von 0,25, 0,50 bzw. 0,75.
1
2
3
4
5
|
Min: 0,000
Q1: 0,277
Median: 0,532
Q3: 0,766
Max: 1.000
|
Verwendung der Fünf-Zahlen-Zusammenfassung
Die Fünf-Zahlen-Zusammenfassung kann für eine Datenprobe mit beliebiger Verteilung berechnet werden.
Dies umfasst Daten mit einer bekannten Verteilung, z. B. eine Gaußsche oder eine Gaußsche Verteilung ution.
Ich würde empfehlen, immer die Zusammenfassung mit fünf Zahlen zu berechnen und nur mit verteilungsspezifischen Zusammenfassungen wie Mittelwert und Standardabweichung für den Gaußschen fortzufahren, falls Sie die Verteilung identifizieren können, zu der Die Daten gehören dazu.
Erweiterungen
In diesem Abschnitt werden einige Ideen zum Erweitern des Lernprogramms aufgeführt, das Sie möglicherweise untersuchen möchten.
- Beschreiben Sie drei Beispiele in a Maschinelles Lernprojekt, bei dem eine Zusammenfassung mit fünf Zahlen berechnet werden kann.
- Generieren Sie eine Datenstichprobe mit einer Gaußschen Verteilung und berechnen Sie die Zusammenfassung mit fünf Zahlen.
- Schreiben Sie eine Funktion zur Berechnung einer 5 -Zahlenzusammenfassung für jedes Datenbeispiel.
Wenn Sie eine dieser Erweiterungen untersuchen, würde ich gerne wissen.
Weiterführende Literatur
Dieser Abschnitt enthält weitere Ressourcen zu diesem Thema, wenn Sie tiefer gehen möchten.
Bücher
- Grundlegendes zur robusten und explorativen Datenanalyse, 2000.
API
- numpy.percentile () API
- numpy.ndarray.min () API
- numpy.ndarray.max () API
Artikel
- Fünf-Zahlen-Zusammenfassung auf Wikipedia
- Quartil auf Wikipedia
- Perzentil auf Wikipedia
Zusammenfassung
In diesem Lernprogramm haben Sie die fünfstellige Zusammenfassung zur Beschreibung der Verteilung einer Datenstichprobe ohne Annahme einer bestimmten Datenverteilung entdeckt.
Insbesondere haben Sie gelernt:
- Datenzusammenfassungen wie die Berechnung des Mittelwerts und der Standardabweichung sind nur für die Gaußsche Verteilung von Bedeutung.
- Die Fünfzahl Zusammenfassung kann verwendet werden, um ein Datenbeispiel mit einer beliebigen Verteilung zu beschreiben.
- Wie berechnet man die Zusammenfassung mit fünf Zahlen in Python?
Haben Sie Fragen?
Stellen Sie Ihre Fragen in den Kommentaren unten und ich werde mein Bestes geben, um sie zu beantworten.
Statistiken zum maschinellen Lernen in den Griff bekommen!
Entwickeln Sie ein funktionierendes Verständnis der Statistik
… indem Sie Zeilen von schreiben co de in python
Entdecken Sie in meinem neuen E-Book, wie:
Statistische Methoden für maschinelles Lernen
Es bietet Tutorials zum Selbststudium zu folgenden Themen:
Hypothesentests, Korrelation, Nichtparametrische Statistiken, Resampling und vieles mehr …
Entdecken Sie, wie Sie Daten in Wissen umwandeln
Überspringen Sie die Akademiker. Nur Ergebnisse.
Sehen, was drin ist