Viimeksi päivitetty 8. elokuuta 2019
Tietojen yhteenveto tarjoaa kätevä tapa kuvata kaikki datanäytteen arvot vain muutamalla tilastollisella arvolla.
Keskiarvoa ja keskihajontaa käytetään tietojen yhteenvetoon Gaussin jakaumalla, mutta ne eivät välttämättä ole merkityksellisiä tai voisivat jopa olla harhaanjohtava, jos tietonäytteelläsi on muu kuin Gaussin jakauma.
Tässä opetusohjelmassa löydät viisinumeroisen yhteenvedon, jolla kuvaillaan datanäytteen jakaumaa ilman, että oletetaan tiettyä tiedonjakoa.
Tämän opetusohjelman suorittamisen jälkeen tiedät:
- Tietojen yhteenvedolla, kuten keskiarvon ja keskihajonnan laskemisella, on merkitystä vain Gaussin jakaumalle.
- Viisilukuista yhteenvetoa voidaan käyttää kuvaamaan minkä tahansa jakauman omaava datanäyte.
- Kuinka lasketaan viisinumeroinen yhteenveto Pythonissa.
Käynnistä projektisi uudella koneen oppimisen tilastotiedolla, mukaan lukien vaiheittaiset oppaat ja Python-lähdekooditiedostot kaikille esimerkeille.
Aloitetaan.
Kuinka lasket 5-numeroisen yhteenvedon tiedoillesi Pythonissa – Photo by Masterbutler, some rights reserved.
Opetusohjelman yleiskatsaus
Tämä opetusohjelma on jaettu 4 osaan; ne ovat:
- Ei-parametrinen tietojen yhteenveto
- Viiden numeron yhteenveto
- Viiden luvun yhteenvedon laskeminen
- Käytä viisinumeroisen yhteenvedon
Tarvitsetko apua koneoppimisen tilastoissa?
Suorita nyt ilmainen 7 päivän sähköposti-kaatumiskurssini (esimerkkikoodilla).
Napsauta rekisteröityäksesi ja hanki myös ilmainen PDF Ebook -versio kurssista.
Lataa ILMAINEN minikurssi
Ei-parametrinen tietojen yhteenveto
Tietojen yhteenvetotekniikat tarjoavat tavan kuvata jakaumaa dataa muutamalla avainmittauksella.
Yleisin esimerkki tietojen yhteenvedosta on Gaussin jakauman omaavien tietojen keskiarvon ja keskihajonnan laskeminen. Pelkästään näiden kahden parametrin avulla voit ymmärtää ja luoda uudelleen tietojen jakauman. Tietojen yhteenveto voi pakata vain kymmeniä tai jopa miljoonia yksittäisiä havaintoja.
Ongelmana on, että et voi helposti laskea sellaisten tietojen keskiarvoa ja keskihajontaa, joilla ei ole Gaussin jakaumaa. Teknisesti voit laskea nämä määrät, mutta ne eivät ole yhteenveto tietojen jakautumisesta; Itse asiassa ne voivat olla hyvin harhaanjohtavia.
Jos tiedossa ei ole Gauss-jakaumaa, voit tiivistää datanäytteen viiden numeron yhteenvedolla.
Viisi -Numeron yhteenveto
Viiden numeron yhteenveto tai lyhyesti 5-numeroinen yhteenveto on ei-parametrinen tietojen yhteenvetotekniikka.
Sitä kutsutaan joskus Tukey 5-numeroiseksi yhteenvedoksi koska John Tukey suositteli sitä. Sitä voidaan käyttää kuvaamaan datanäytteiden jakauma kaikilla jakaumilla varustetuille tiedoille.
5-numeroinen yhteenveto tarjoaa yleiskäyttöön vakiomuotoisen yhteenvedon. noin oikea määrä yksityiskohtia.
– Sivu 37, Vankan ja tutkivan tiedon analyysin ymmärtäminen, 2000.
Viisilukuinen yhteenveto sisältää viiden tilastollisen yhteenlasketun määrän laskemisen: nimittäin:
- Mediaani: Otoksen keskiarvo, jota kutsutaan myös 50. prosenttipisteeksi tai 2. kvartiiliksi.
- 1. kvartiili : 25. prosenttipiste.
- 3. kvartiili: 75. prosenttipiste.
- Minimi: Näytteen pienin havainto.
- Maksimi: Näytteen suurin havainto .
Kvartiili on havaittu arvo pisteessä, joka auttaa jakamaan järjestetyn datanäytteen neljään yhtä suureksi osaksi. Mediaani eli 2. kvartiili jakaa tilatun datanäytteen kahteen osaan, ja 1. ja 3. kvartiili jakavat molemmat puolikkaat neljäsosiksi.
Prosentti on havaittu arvo pisteessä, joka auttaa jakamisessa tilattu datanäyte 100 yhtä suureksi osaksi. Kvartilit ilmaistaan usein myös prosenttipisteinä.
Sekä kvartiili- että prosenttipistearvot ovat esimerkkejä rankatilastoista, jotka voidaan laskea datanäytteestä missä tahansa jakaumassa. Niitä käytetään nopeasti yhteenvetoon siitä, kuinka suuri osa jakelun tiedoista on tietyn havaitun arvon takana tai edessä. Esimerkiksi puolet havainnoista on jakauman mediaanin takana ja edessä.
Huomaa, että kvartilit lasketaan myös ruutu- ja viiksikuvaajassa, ei-parametrinen menetelmä tietojen jakauman graafiseen yhteenvetoon. näyte.
Viisilukuisen yhteenvedon laskeminen
Viisinumeroisen yhteenvedon laskeminen edellyttää, että löydetään havainnot kullekin kvartiilille sekä havaitut vähimmäis- ja enimmäisarvot datanäytteestä.
Jos kvartiilin järjestetyssä datanäytteessä ei ole erityistä arvoa, kuten jos havaintoja on parillinen määrä ja yritämme löytää mediaanin, voimme laskea kahden lähimmän keskiarvon arvot, kuten kaksi keskiarvoa.
Voimme laskea mielivaltaiset prosenttipisteet Pythonissa prosenttipiste () NumPy-funktion avulla. Voimme käyttää tätä toimintoa ensimmäisen, toisen (mediaani) ja kolmannen kvartiilin arvon laskemiseen. Toiminto vie sekä havaintoryhmän että liukulukuarvon määritettäessä prosenttipiste laskettavaksi välillä 0 – 100. Se voi myös viedä luettelon prosenttipisteistä useiden prosenttipisteiden laskemiseksi; esimerkiksi:
1
|
kvartiilit = prosenttipiste (data,)
|
Oletusarvoisesti funktio laskee tarvittaessa lineaarisen interpolaation (keskiarvon) havaintojen välillä, kuten jos mediaani lasketaan näytteelle, jolla on parillinen määrä arvoja.
NumPy-funktioita min () ja max () voidaan käyttää palauttamaan pienimmät ja suurimmat arvot datanäytteessä; esimerkiksi:
1
|
data_min, data_max = data.min (), data.max ()
|
Kaikki voidaan koota yhteen.
Seuraavassa esimerkissä luodaan tietonäyte, joka on otettu tasaisesta jakaumasta 0: n ja 1: n välillä, ja tiivistää sen viisinumeroisella yhteenvedolla.
Esimerkin suorittaminen luo datanäytteen ja laskee viisinumeroisen yhteenvedon kuvaamaan otosjakaumaa.
Voimme nähdä, että havaintojen leviäminen on lähellä odotuksiamme, joka osoittaa 0,27 25. prosenttipisteelle 0,53 50. prosenttipiste ja 75. prosenttipiste 0,76, lähellä idealisoituja arvoja 0,25, 0,50 ja 0,75.
1
2
3
4
5
|
Min: 0,000
Q1: 0,277
Mediaani: 0,532
Q3: 0,766
Maksimi: 1000
|
Viiden numeron yhteenvedon käyttö
Viiden numeron yhteenveto voidaan laskea minkä tahansa jakauman sisältävälle tietonäytteelle.
Tämä sisältää tietoja, joilla on tunnettu jakauma, kuten Gaussin tai Gaussin kaltainen jakelija ution.
Suosittelen aina laskemaan viisinumeroisen yhteenvedon ja siirtymään vain jakaumakohtaisiin yhteenvetoihin, kuten Gaussin keskiarvo ja keskihajonta, siinä tapauksessa, että voit tunnistaa jakauman, johon tiedot kuuluvat.
Laajennukset
Tässä osassa luetellaan joitain ideoita opetusohjelman laajentamiseksi, joita haluat ehkä tutkia.
- Kuvaa kolme esimerkkiä koneoppimisprojekti, jossa voidaan laskea viisinumeroinen yhteenveto.
- Luo datanäyte Gaussin jakaumalla ja laske viisinumeroinen yhteenveto.
- Kirjoita funktio laskemaan 5 -numeroyhteenveto mistä tahansa tietonäytteestä.
Jos tutustut johonkin näistä laajennuksista, haluaisin tietää.
Lisälukemista
Tässä osiossa on enemmän aihealuetta, jos haluat mennä syvemmälle.
Kirjat
- Understanding Robust and Exploratory Data Analysis, 2000.
API
- numpy.percentile () API
- numpy.ndarray.min () sovellusliittymä
- numpy.ndarray.max () API
Artikkelit
- Viiden numeron yhteenveto Wikipediassa
- Kvartiili Wikipediassa
- Prosentti Wikipediassa
Yhteenveto
Tässä opetusohjelmassa olet löytänyt viisinumeroisen yhteenvedon tietonäytteen jakauman kuvaamiseksi ilman, että oletat tietyn tiedonjakelun.
Erityisesti opit:
- Tietojen yhteenvedolla, kuten keskiarvon ja keskihajonnan laskemisella, on merkitystä vain Gaussin jakaumalle.
- Viisilukuinen Yhteenvetoa voidaan käyttää kuvaamaan minkä tahansa jakauman datanäyte.
- Kuinka laskea viisinumeroinen yhteenveto Pythonissa.
Onko sinulla kysyttävää?
Esitä kysymyksesi alla olevissa kommenteissa ja teen parhaani vastata.
Hanki käsitys koneoppimisen tilastoista!
Kehitä toimiva ymmärrys tilastoista
… kirjoittamalla rivejä yhteistyössä de in python
Tutustu uuteen e-kirjaani:
Koneoppimisen tilastolliset menetelmät
Se tarjoaa itsenäisiä opetusohjelmia aiheista, kuten:
hypoteesitestit, korrelaatio, Ei-parametriset tilastot, uudelleennäytteet ja paljon muuta …
Katso, miten tietoja voidaan muuntaa tiedoksi
Ohita tutkijat. Vain tulokset.
Katso mitä sisällä