Ultimo aggiornamento l’8 agosto 2019
Fornisce il riepilogo dei dati un modo conveniente per descrivere tutti i valori in un campione di dati con solo pochi valori statistici.
La media e la deviazione standard vengono utilizzate per riassumere i dati con una distribuzione gaussiana, ma potrebbero non essere significative o potrebbero essere anche fuorviante, se il tuo campione di dati ha una distribuzione non gaussiana.
In questo tutorial scoprirai il riepilogo a cinque numeri per descrivere la distribuzione di un campione di dati senza assumere una distribuzione di dati specifica.
Dopo aver completato questo tutorial, saprai:
- Il riepilogo dei dati, come il calcolo della media e della deviazione standard, è significativo solo per la distribuzione gaussiana.
- Il riepilogo a cinque numeri può essere utilizzato per descrivere un campione di dati con qualsiasi distribuzione.
- Come calcolare il riepilogo a cinque numeri in Python.
Dai il via al tuo progetto con il mio nuovo libro Statistics for Machine Learning, che include tutorial passo passo e file di codice sorgente Python per tutti gli esempi.
Cominciamo.
Come calcolare il riepilogo a 5 numeri per i tuoi dati in Python
Foto di Masterbutler, alcuni diritti riservati.
Panoramica del tutorial
Questo tutorial è diviso in 4 parti; sono:
- Riepilogo dei dati non parametrici
- Riepilogo a cinque numeri
- Come calcolare il riepilogo a cinque numeri
- Uso del riepilogo a cinque numeri
Serve aiuto con Statistics for Machine Learning?
Segui subito il mio corso intensivo e-mail gratuito di 7 giorni (con codice di esempio).
Fai clic per iscriverti e ottenere anche una versione gratuita in formato PDF ebook del corso.
Scarica il tuo Mini-corso GRATUITO
Riepilogo dei dati non parametrici
Le tecniche di riepilogo dei dati forniscono un modo per descrivere la distribuzione dei dati utilizzando alcune misurazioni chiave.
L’esempio più comune di riepilogo dei dati è il calcolo della media e della deviazione standard per i dati che hanno una distribuzione gaussiana. Con questi due parametri da soli, è possibile comprendere e ricreare la distribuzione dei dati. Il riepilogo dei dati può comprimere un minimo di decine o un massimo di milioni di osservazioni individuali.
Il problema è che non è possibile calcolare facilmente la media e la deviazione standard dei dati che non hanno una distribuzione gaussiana. Tecnicamente, puoi calcolare queste quantità, ma non riassumono la distribuzione dei dati; in effetti, possono essere molto fuorvianti.
Nel caso di dati che non hanno una distribuzione gaussiana, puoi riassumere il campione di dati utilizzando il riepilogo a cinque numeri.
Cinque -Riassunto numero
Il riepilogo a cinque numeri, o in breve sommario a 5 numeri, è una tecnica di riepilogo dei dati non parametrica.
A volte è chiamato riepilogo a 5 numeri di Tukey perché è stato consigliato da John Tukey. Può essere utilizzato per descrivere la distribuzione di campioni di dati per dati con qualsiasi distribuzione.
Come riepilogo standard per uso generale, il riepilogo a 5 numeri fornisce sulla giusta quantità di dettagli.
– Pagina 37, Understanding Robust and Exploratory Data Analysis, 2000.
The five-number riepilogo implica il calcolo di 5 quantità statistiche riepilogative: ovvero:
- Mediana: il valore medio nel campione, chiamato anche 50 ° percentile o 2 ° quartile.
- 1 ° quartile : Il 25 ° percentile.
- 3 ° quartile: il 75 ° percentile.
- Minimo: l’osservazione più piccola nel campione.
- Massimo: l’osservazione più grande nel campione .
Un quartile è un valore osservato in un punto che aiuta a dividere il campione di dati ordinato in quattro parti di uguali dimensioni. La mediana, o 2 ° quartile, divide il campione di dati ordinato in due parti e il 1 ° e il 3 ° quartile dividono ciascuna di queste metà in quarti.
Un percentile è un valore osservato in un punto che aiuta nella suddivisione il campione di dati ordinato in 100 porzioni di uguali dimensioni. I quartili sono spesso espressi anche come percentili.
Entrambi i valori del quartile e del percentile sono esempi di statistiche di rango che possono essere calcolate su un campione di dati con qualsiasi distribuzione. Sono utilizzati per riepilogare rapidamente la quantità di dati nella distribuzione dietro o davanti a un dato valore osservato. Ad esempio, metà delle osservazioni è dietro e davanti alla mediana di una distribuzione.
Tieni presente che i quartili vengono calcolati anche nel diagramma a scatola e baffo, un metodo non parametrico per riepilogare graficamente la distribuzione di un dato campione.
Come calcolare il riepilogo a cinque numeri
Il calcolo del riepilogo a cinque numeri implica la ricerca delle osservazioni per ciascun quartile nonché i valori minimi e massimi osservati dal campione di dati.
Se non c’è un valore specifico nel campione di dati ordinato per il quartile, come se ci fosse un numero pari di osservazioni e stiamo cercando di trovare la mediana, allora possiamo calcolare la media dei due più vicini valori, come i due valori centrali.
Possiamo calcolare valori percentili arbitrari in Python utilizzando la funzione NumPy percentile (). Possiamo usare questa funzione per calcolare i valori del 1 °, 2 ° (mediano) e 3 ° quartile. La funzione accetta sia una matrice di osservazioni che un valore in virgola mobile per specificare il percentile da calcolare nell’intervallo da 0 a 100. Può anche richiedere un elenco di valori percentili per calcolare più percentili; ad esempio:
1
|
quartiles = percentile (data,)
|
Per impostazione predefinita, la funzione calcolerà un’interpolazione lineare (media) tra le osservazioni, se necessario, come nel caso di calcolo della mediana su un campione con un numero pari di valori.
Le funzioni NumPy min () e max () possono essere utilizzate per restituire i valori più piccoli e più grandi nel campione di dati; ad esempio:
1
|
data_min, data_max = data.min (), data.max ()
|
Possiamo mettere insieme tutto questo.
L’esempio seguente genera un campione di dati tratto da una distribuzione uniforme tra 0 e 1 e lo riepiloga utilizzando il riepilogo a cinque numeri.
L’esecuzione dell’esempio genera il campione di dati e calcola il riepilogo a cinque numeri per descrivere la distribuzione campionaria.
Possiamo vedere che la diffusione delle osservazioni è vicina alle nostre aspettative mostrando 0,27 per il 25 ° percentile 0,53 per il 50 ° percentile e 0,76 per il 75 ° percentile, vicini ai valori idealizzati rispettivamente di 0,25, 0,50 e 0,75.
1
2
3
4
5
|
Min: 0.000
Q1: 0.277
Mediana: 0,532
Q3: 0,766
Max: 1.000
|
Uso del riepilogo a cinque numeri
Il riepilogo a cinque numeri può essere calcolato per un campione di dati con qualsiasi distribuzione.
Questo include i dati che hanno una distribuzione nota, come una distribuzione gaussiana o simile alla gaussiana ution.
Suggerirei di calcolare sempre il riepilogo a cinque numeri e di passare solo a riepiloghi specifici della distribuzione, come la media e la deviazione standard per la gaussiana, nel caso in cui sia possibile identificare la distribuzione a cui i dati appartengono.
Estensioni
Questa sezione elenca alcune idee per estendere il tutorial che potresti voler esplorare.
- Descrivi tre esempi in un progetto di machine learning in cui è possibile calcolare un riepilogo a cinque numeri.
- Genera un campione di dati con una distribuzione gaussiana e calcola il riepilogo a cinque numeri.
- Scrivi una funzione per calcolare un 5 -numero di riepilogo per qualsiasi campione di dati.
Se esplori una di queste estensioni, mi piacerebbe saperlo.
Ulteriori letture
Questa sezione fornisce più risorse sull’argomento se stai cercando di approfondire.
Libri
- Understanding Robust and Exploratory Data Analysis, 2000.
API
- API numpy.percentile ()
- API numpy.ndarray.min ()
- numpy.ndarray.API max ()
Articoli
- Riepilogo di cinque numeri su Wikipedia
- Quartile su Wikipedia
- Percentile su Wikipedia
Riepilogo
In questo tutorial, hai scoperto il riepilogo a cinque numeri per descrivere la distribuzione di un campione di dati senza presupporre una distribuzione di dati specifica.
In particolare, hai imparato:
- Il riepilogo dei dati, come il calcolo della media e della deviazione standard, è significativo solo per la distribuzione gaussiana.
- I cinque numeri riepilogo può essere utilizzato per descrivere un campione di dati con qualsiasi distribuzione.
- Come calcolare il riepilogo a cinque numeri in Python.
Hai qualche domanda?
Poni le tue domande nei commenti qui sotto e farò del mio meglio per rispondere.
Ottieni un controllo sulle statistiche per l’apprendimento automatico!
Sviluppa una comprensione operativa delle statistiche
… scrivendo righe di co de in python
Scopri come nel mio nuovo ebook:
Metodi statistici per l’apprendimento automatico
Fornisce tutorial di autoapprendimento su argomenti come:
Test di ipotesi, correlazione, Statistiche non parametriche, ricampionamento e molto altro …
Scopri come trasformare i dati in conoscenza
Salta gli accademici. Solo risultati.
Guarda cosa c’è dentro