Utolsó frissítés: 2019. augusztus 8.
Az adatok összegzése biztosítja kényelmes módszer az adatminta összes értékének néhány statisztikai értékkel történő leírására.
Az átlagot és a szórást az adatok Gauss-eloszlású összefoglalására használják, de nem biztos, hogy értelmesek, vagy sőt félrevezető is lehet, ha az adatmintája nem Gauss-eloszlású. / p>
A bemutató kitöltése után tudni fogja:
- Az adatok összegzése, például az átlag és a szórás kiszámítása, csak a Gauss-eloszlás szempontjából értelmes.
- Az ötszámú összefoglaló bármilyen eloszlású adatminta leírására használható.
- Hogyan lehet kiszámolni az ötszámú összesítést a Pythonban.
Indítsa el a projektet a Statisztikai adatok a gépi tanuláshoz című új könyvemmel, beleértve az összes példát ismertető részletes útmutatásokat és a Python-forráskód fájlokat.
Kezdjük.
Hogyan számolhatjuk ki az 5 számú összefoglalót az adatokhoz a Pythonban
Fotó: Masterbutler, néhány jog fenntartva.
Oktatóanyag áttekintése
Ez az oktatóanyag négy részre oszlik; ezek a következők:
- Nemparametrikus adatok összegzése
- Ötszámú összefoglaló
- Az ötszámú összegzés kiszámítása
- Használat az Ötszámú Összefoglalás
segítségre van szüksége a gépi tanulás statisztikáihoz?
Most vegyen részt az ingyenes 7 napos e-mailes összeomlási tanfolyamomon (mintakóddal).
Kattintson a regisztrációhoz, és kérjen egy ingyenes PDF Ebook verziót is a tanfolyamról.
Töltse le a INGYENES mini tanfolyam
Nemparametrikus adatösszegzés
Az adatösszesítési technikák módot adnak az eloszlás leírására néhány kulcsfontosságú méréssel.
Az adatok összegzésének leggyakoribb példája a Gauss-eloszlású adatok átlagának és szórásának kiszámítása. Csak ezzel a két paraméterrel megértheti és újra létrehozhatja az adatok eloszlását. Az adatok összefoglalása akár tíz vagy akár millió egyedi megfigyelést is képes tömöríteni.
A probléma az, hogy nem lehet könnyen kiszámítani az adatok átlagát és szórását, amelyek nem rendelkeznek Gauss-eloszlással. Technikailag kiszámíthatja ezeket a mennyiségeket, de ezek nem foglalják össze az adateloszlást; valójában nagyon félrevezetőek lehetnek.
Azoknál az adatoknál, amelyek nem rendelkeznek Gauss-eloszlással, összefoglalhatja az adatmintát az ötszámú összefoglaló segítségével.
Öt -Number Summary
Az ötszámú, röviden 5-ös összefoglaló nem paraméteres adatösszefoglaló technika.
Néha Tukey 5-ös összefoglalónak hívják. mert John Tukey ajánlotta. Bármely eloszlású adatok adatmintáinak eloszlásának leírására használható.
Általános használatra szánt általános összefoglalásként az 5 számú összefoglaló a megfelelő mennyiségű részletről.
– 37. oldal, A robusztus és feltáró adatok elemzésének megértése, 2000.
Az öt szám Az összegzés 5 összesítő statisztikai mennyiség kiszámítását foglalja magában: nevezetesen:
- Medián: A minta középső értéke, amelyet 50. percentilisnek vagy 2. kvartilisnek is neveznek.
- 1. kvartilis : A 25. percentilis.
- 3. kvartilis: a 75. percentilis.
- Minimum: A legkisebb megfigyelés a mintában.
- Maximum: A legnagyobb megfigyelés a mintában .
A kvartilis egy olyan pontban megfigyelt érték, amely elősegíti a rendezett adatminta négy azonos méretű részre osztását. A medián, vagyis a 2. kvartilis, a rendezett adatmintát két részre osztja, az 1. és a 3. kvartilis pedig mindkét felét negyedekre osztja.
A percentilis egy megfigyelt érték egy olyan ponton, amely elősegíti a felosztást a rendezett adatminta 100 egyforma részre. A kvartiliseket gyakran százalékokként is kifejezik.
A kvartilis és a percentilis értékek is a rangstatisztikák példái, amelyek bármilyen eloszlású adatmintán kiszámíthatók. Gyorsan összefoglalják őket, hogy az eloszlásban lévő adatok mekkora része van egy adott megfigyelt érték mögött vagy előtt. Például a megfigyelések fele az eloszlás mediánja mögött és előtt áll.
Ne feledje, hogy a kvartiliseket a doboz és a bajusz diagramban is kiszámítják, ez egy nem paraméteres módszer az adatok eloszlásának grafikus összefoglalására. minta.
Hogyan számolhatjuk az ötszámú összefoglalót
Az ötszámú összegzés kiszámítása magában foglalja az egyes kvartilisekre vonatkozó megfigyelések, valamint az adatminta minimális és maximális megfigyelt értékeinek megtalálását.
Ha a kvartilis rendezett adatmintájában nincs konkrét érték, például ha páros számú megfigyelés van, és megpróbáljuk megtalálni a mediánt, akkor kiszámíthatjuk a két legközelebbi átlagát értékeket, például a két középső értéket.
Önkényes percentilis értékeket kiszámíthatunk a Pythonban a percentilis () NumPy függvény segítségével. Ezzel a függvénnyel kiszámíthatjuk az 1., 2. (medián) és 3. kvartilis értékeket. A függvény mind megfigyelések tömbjét, mind lebegőpontos értéket igényel a 0 és 100 közötti tartományban kiszámítandó percentilis meghatározásához. A százalékos értékek felsorolását is igénybe veheti több százaléka kiszámításához; például:
1
|
kvartilis = percentilis (adatok,
|
Alapértelmezés szerint a függvény szükség esetén lineáris interpolációt (átlagot) számol a megfigyelések között, például a medián páros értékű mintán történő kiszámításakor.
A Num (Min) és Max () függvényekkel vissza lehet adni az adatminta legkisebb és legnagyobb értékét; például:
1
|
data_min, data_max = data.min (), data.max ()
|
Mindezeket összerakhatjuk.
Az alábbi példa generál egy adatmintát, amely 0 és 1 közötti egyenletes eloszlásból származik, és összefoglalja az ötszámú összefoglaló segítségével.
A példa futtatásával létrehozza az adatmintát, és kiszámolja az ötszámú összefoglalót. hogy leírjuk a minta eloszlását.
Láthatjuk, hogy a megfigyelések elterjedése közel áll a várakozásainkhoz: 0,25 a 25. percentilisnél 0,53 a Az 50. percentilis és a 75. percentilisnél 0,76, közel az idealizált 0,25, 0,50 és 0,75 értékekhez.
1
2
3
4
5
|
Min .: 0,000
Q1: 0,277
Medián: 0.532
Q3: 0.766
Max: 1.000
|
Ötszámú összefoglaló használata
Az ötszámú összefoglaló kiszámolható bármely eloszlású adatmintához.
Ide tartoznak az ismert eloszlású adatok, például egy Gauss-féle vagy egy Gauss-féle disztribúció ution.
Azt javasoljuk, hogy mindig számolja ki az ötszámú összefoglalót, és csak az eloszlásspecifikus összefoglalókra térjen át, például a Gauss-féle átlagra és szórásra, abban az esetben, ha azonosítani tudja az eloszlást, amelyhez az adatok hozzátartoznak.
Bővítmények
Ez a szakasz felsorol néhány ötletet az oktatóanyag kibővítésére, amelyeket érdemes felfedezni.
- Írjon le három példát a gépi tanulási projekt, ahol öt szám összegzést lehetne kiszámítani.
- Hozzon létre egy adatmintát Gauss-eloszlással, és számolja ki az öt számot.
- Írjon egy függvényt az 5 számításához -száma összefoglaló bármely adatmintához.
Ha felfedezné ezeket a kiterjesztéseket, szívesen megtudnám.
További olvasmányok
Ez a szakasz több forrást nyújt a témához, ha mélyebbre szeretne térni.
Könyvek
- Understanding Robust and Exploratory Data Analysis, 2000.
API
- numpy.percentile () API
- numpy.ndarray.min () API
- numpy.ndarray.max () API
Cikkek
- Ötszámú összefoglaló a Wikipédiáról
- Kvartilis a Wikipédiáról
- Százalék a Wikipédián
Összefoglalás
Ebben az oktatóanyagban felfedezte az ötmagos összefoglalót az adatminta eloszlásának leírására anélkül, hogy konkrét adatelosztást feltételezne. >
Konkrétan megtanulta:
- Az adatok összegzése, például az átlag és a szórás kiszámítása, csak a Gauss-eloszlás szempontjából értelmes.
- Az öt szám Az összefoglaló segítségével bármilyen eloszlású adatminta leírható.
- Hogyan lehet kiszámolni az öt számot tartalmazó összesítést a Pythonban.
Van kérdése?
Tegye fel kérdéseit az alábbi megjegyzésekben, és mindent megteszek a válaszadás érdekében.
Kezelje a gépi tanulás statisztikáit!
Fejlessze ki a statisztikák működőképes megértését
… sorok írásával társ de in python
Fedezze fel az új e-könyvemben:
Statisztikai módszerek a gépi tanuláshoz
Önálló tanulási útmutatásokat nyújt olyan témákban, mint:
Hipotézistesztek, összefüggések, Nemparaméteres statisztikák, újramintavételezés és még sok más …
Fedezze fel, hogyan lehet az adatokat tudássá alakítani
Az akadémikusok kihagyása. Csak eredmények.
Nézze meg, mi van benne: