Ultima actualizare la 8 august 2019
Rezumatul datelor oferă o modalitate convenabilă de a descrie toate valorile dintr-un eșantion de date cu doar câteva valori statistice.
Media și deviația standard sunt utilizate pentru a rezuma datele cu o distribuție gaussiană, dar poate să nu fie semnificative sau ar putea chiar să inducă în eroare, dacă eșantionul de date are o distribuție non-gaussiană.
În acest tutorial, veți descoperi rezumatul cu cinci numere pentru descrierea distribuției unui eșantion de date fără a presupune o distribuție de date specifică. / p>
După finalizarea acestui tutorial, veți ști:
- Rezumarea datelor, cum ar fi calcularea mediei și a deviației standard, sunt semnificative doar pentru distribuția Gaussiană.
- Rezumatul cu cinci numere poate fi utilizat pentru a descrie un eșantion de date cu orice distribuție.
- Cum se calculează rezumatul cu cinci numere în Python.
Lansați proiectul cu noua mea carte Statistici pentru învățarea automată, inclusiv tutoriale pas cu pas și fișierele de cod sursă Python pentru toate exemplele.
Să începem.
Cum se calculează rezumatul cu 5 numere pentru datele dvs. în Python
Fotografie de Masterbutler, unele drepturi rezervate.
Prezentare generală a tutorialului
Acest tutorial este împărțit în 4 părți; acestea sunt:
- Rezumarea datelor nonparametrice
- Rezumat cu cinci numere
- Cum se calculează rezumatul cu cinci numere
- Utilizați din rezumatul cu cinci numere
Aveți nevoie de ajutor cu statistici pentru învățarea automată?
Luați cursul meu gratuit de 7 zile pentru e-mail acum (cu un exemplu de cod).
Faceți clic pentru a vă înscrie și pentru a primi, de asemenea, o versiune gratuită PDF a cărții Ebook a cursului.
Descărcați Mini-curs GRATUIT
Rezumarea nonparametrică a datelor
Tehnicile de rezumare a datelor oferă o modalitate de a descrie distribuția de date folosind câteva măsurători cheie.
Cel mai frecvent exemplu de rezumare a datelor este calculul abaterii medii și standard pentru datele care au o distribuție Gaussiană. Numai cu acești doi parametri, puteți înțelege și recrea distribuția datelor. Rezumatul datelor poate comprima doar zeci sau milioane de observații individuale.
Problema este că nu puteți calcula cu ușurință media și abaterea standard a datelor care nu au o distribuție gaussiană. Din punct de vedere tehnic, puteți calcula aceste cantități, dar acestea nu rezumă distribuția datelor; de fapt, pot fi foarte înșelătoare.
În cazul datelor care nu au o distribuție gaussiană, puteți rezuma eșantionul de date utilizând rezumatul cu cinci numere.
Cinci -Rezumatul numerelor
Rezumatul cu cinci numere, sau rezumatul cu 5 numere pe scurt, este o tehnică de rezumare a datelor non-parametrice.
Uneori se numește rezumat cu 5 numere Tukey deoarece a fost recomandat de John Tukey. Poate fi folosit pentru a descrie distribuția eșantioanelor de date pentru date cu orice distribuție.
Ca rezumat standard pentru uz general, rezumatul cu 5 numere oferă despre cantitatea corectă de detalii.
– Pagina 37, Înțelegerea analizei de date robuste și exploratorii, 2000.
Cele cinci numere rezumatul implică calculul a 5 cantități statistice rezumative: și anume:
- Mediană: valoarea medie din eșantion, numită și percentila 50 sau a doua quartilă.
- Primul quartil : A 25-a percentilă.
- A treia quartilă: A 75-a percentilă.
- Minim: Cea mai mică observație din eșantion.
- Maxim: Cea mai mare observație din eșantion .
O quartilă este o valoare observată într-un punct care ajută la împărțirea eșantionului de date comandat în patru părți de dimensiuni egale. Mediana sau al doilea sfert, împarte eșantionul de date ordonat în două părți, iar primul și al treilea sfert împarte fiecare dintre aceste jumătăți în sferturi.
O percentilă este o valoare observată într-un punct care ajută la împărțire. eșantionul de date comandat în 100 de porțiuni de dimensiuni egale. Cvartilele sunt deseori exprimate și ca percentile.
Atât valorile cvartilei cât și percentilele sunt exemple de statistici de rang care pot fi calculate pe un eșantion de date cu orice distribuție. Acestea sunt utilizate pentru a rezuma rapid cât de mult din datele din distribuție se află în spatele sau în fața unei valori observate date. De exemplu, jumătate din observații se află în spatele și în fața medianei unei distribuții.
Rețineți că quartile sunt, de asemenea, calculate în graficul casetei și al mușchilor, o metodă nonparametrică pentru a rezuma grafic distribuția unei date. probă.
Cum se calculează rezumatul cu cinci numere
Calculul rezumatului cu cinci numere implică găsirea observațiilor pentru fiecare quartilă, precum și valorile minime și maxime observate din eșantionul de date.
Dacă nu există o valoare specifică în eșantionul de date ordonat pentru quartile, cum ar fi dacă există un număr par de observații și încercăm să găsim mediana, atunci putem calcula media celor două cele mai apropiate valori, cum ar fi cele două valori medii.
Putem calcula valori percentile arbitrare în Python folosind funcția percentile () NumPy. Putem folosi această funcție pentru a calcula valorile 1, 2 (mediană) și 3 quartile. Funcția ia atât o serie de observații, cât și o valoare în virgulă mobilă pentru a specifica percentila de calculat în intervalul de la 0 la 100. De asemenea, poate lua o listă de valori percentile pentru a calcula mai multe percentile; de exemplu:
1
|
quartile = percentile (data,)
|
În mod implicit, funcția va calcula o interpolare liniară (medie) între observații, dacă este necesar, cum ar fi în cazul calculării medianei pe un eșantion cu un număr par de valori.
Funcțiile NumPy min () și max () pot fi utilizate pentru a returna cele mai mici și cele mai mari valori din eșantionul de date; de exemplu:
1
|
data_min, data_max = data.min (), data.max ()
|
Putem pune toate acestea laolaltă.
Exemplul de mai jos generează un eșantion de date extrase dintr-o distribuție uniformă între 0 și 1 și îl rezumă utilizând rezumatul de cinci numere.
Rularea exemplului generează eșantionul de date și calculează rezumatul de cinci numere pentru a descrie distribuția eșantionului.
Putem vedea că răspândirea observațiilor este apropiată de așteptările noastre, arătând 0,27 pentru percentila 25 0,53 pentru Percentila 50 și 0,76 pentru percentila 75, aproape de valorile idealizate de 0,25, 0,50 și respectiv 0,75.
1
2
3
4
5
|
Min: 0.000
Q1: 0.277
Mediană: 0.532
Q3: 0.766
Max: 1.000
|
Utilizarea sumarului cu cinci numere
Rezumatul cu cinci numere poate fi calculat pentru un eșantion de date cu orice distribuție.
Aceasta include date care au o distribuție cunoscută, cum ar fi o distribuție Gaussiană sau Gaussiană uți.
Aș recomanda să calculați întotdeauna rezumatul cu cinci numere și să treceți doar la rezumate specifice distribuției, cum ar fi deviația medie și standard pentru Gaussian, în cazul în care puteți identifica distribuția la care datele aparțin.
Extensii
Această secțiune prezintă câteva idei pentru extinderea tutorialului pe care ați putea dori să îl explorați.
- Descrieți trei exemple într-un proiect de învățare automată în care ar putea fi calculat un rezumat cu cinci numere.
- Generați un eșantion de date cu o distribuție gaussiană și calculați rezumatul cu cinci numere.
- Scrieți o funcție pentru a calcula un 5 -Rezum numeric pentru orice eșantion de date.
Dacă veți explora oricare dintre aceste extensii, mi-ar plăcea să știu.
Lecturi suplimentare
Această secțiune oferă mai multe resurse pe această temă dacă doriți să aprofundați.
Cărți
- Înțelegerea analizei de date robuste și exploratorii, 2000.
API
- numpy.percentile () API
- API numpy.ndarray.min ()
- numpy.ndarray.max () API
Articole
- Rezumat cu cinci numere pe Wikipedia
- Quartile pe Wikipedia
- Percentil pe Wikipedia
Rezumat
În acest tutorial, ați descoperit rezumatul în cinci numere pentru descrierea distribuției unui eșantion de date fără a presupune o distribuție specifică a datelor.
Mai exact, ați aflat:
- Rezumarea datelor, cum ar fi calcularea mediei și a deviației standard, sunt semnificative doar pentru distribuția Gaussiană.
- Cifrele cu cinci rezumat poate fi folosit pentru a descrie un eșantion de date cu orice distribuție.
- Cum se calculează rezumatul cu cinci numere din Python.
Aveți întrebări?
Puneți întrebările dvs. în comentariile de mai jos și voi face tot posibilul să răspund.
Obțineți un control asupra statisticilor pentru învățarea automată!
Dezvoltați o înțelegere funcțională a statisticilor
… scriind linii de co de in python
Descoperiți cum în noua mea carte electronică:
Metode statistice pentru învățarea automată
Oferă tutoriale de auto-studiu pe subiecte precum:
Teste de ipoteză, corelație, Statistici nonparametrice, eșantionare și multe altele …
Descoperiți cum să transformați datele în cunoștințe
Omiteți cadrele universitare. Doar rezultate.
Vedeți ce este în interiorul