Jak vypočítat pětimístné shrnutí vašich dat v Pythonu

Sdílet sdílení

Poslední aktualizace 8. srpna 2019

Shrnutí dat poskytuje pohodlný způsob, jak popsat všechny hodnoty ve vzorku dat pouze s několika statistickými hodnotami.

Střední a standardní odchylka se používají ke shrnutí dat s Gaussovým rozdělením, ale nemusí být smysluplné nebo může může být dokonce zavádějící, pokud má váš vzorek dat jiné než gaussovské rozdělení.

V tomto výukovém programu najdete souhrn pěti čísel, který popisuje distribuci vzorku dat, aniž byste předpokládali konkrétní rozdělení dat.

Po absolvování tohoto kurzu budete vědět:

  • Shrnutí dat, jako je výpočet střední hodnoty a směrodatné odchylky, má smysl pouze pro Gaussovo rozdělení.
  • Pětimístné shrnutí lze použít k popisu vzorku dat s libovolnou distribucí.
  • Jak vypočítat pětimístné shrnutí v Pythonu.

Zahajte svůj projekt svou novou knihou Statistika pro strojové učení, včetně podrobných návodů a souborů zdrojového kódu Pythonu pro všechny příklady.

Pojďme začít.

Jak vypočítat pětimístné shrnutí vašich dat v Pythonu
Fotografie od Masterbutler, některá práva vyhrazena.

Přehled výukového programu

Tento výukový program je rozdělen do 4 částí; jsou to:

  1. Neparametrické shrnutí dat
  2. Pětimístné shrnutí
  3. Jak vypočítat pětimístné shrnutí
  4. Použití přehledu pěti čísel

Potřebujete pomoc se statistikou strojového učení?

Zúčastněte se mého bezplatného sedmidenního e-mailového havarijního kurzu (s ukázkovým kódem).

Kliknutím se zaregistrujte a získejte také bezplatnou verzi kurzu Ebook ve formátu PDF.

Stáhněte si BEZPLATNÝ minikurz

Neparametrická sumarizace dat

Techniky sumarizace dat poskytují způsob, jak popsat distribuci dat pomocí několika klíčových měření.

Nejběžnějším příkladem sumarizace dat je výpočet střední a standardní odchylky pro data, která mají Gaussovo rozdělení. Pouze s těmito dvěma parametry můžete pochopit a znovu vytvořit distribuci dat. Souhrn dat může komprimovat pouze několik desítek nebo až milionů jednotlivých pozorování.

Problém je v tom, že nemůžete snadno vypočítat průměr a směrodatnou odchylku dat, která nemají Gaussovo rozdělení. Technicky můžete tyto veličiny vypočítat, ale neshrají distribuci dat; ve skutečnosti mohou být velmi zavádějící.

V případě dat, která nemají Gaussovo rozdělení, můžete shrnout datový vzorek pomocí souhrnu pěti čísel.

Pět -Number Summary

Pětimístné shrnutí, nebo zkráceně 5číselné shrnutí, je neparametrická technika sumarizace dat.

Někdy se mu říká 5místné shrnutí Tukey protože to doporučil John Tukey. Může být použit k popisu distribuce vzorků dat pro data s jakoukoli distribucí.

Souhrn s pěti čísly jako standardní souhrn pro obecné použití poskytuje o správném množství podrobností.

– Strana 37, Porozumění robustní a průzkumné analýze dat, 2000.

Pětimístné číslo souhrn zahrnuje výpočet 5 souhrnných statistických veličin: a to:

  • Medián: Střední hodnota ve vzorku, nazývaná také 50. percentil nebo 2. kvartil.
  • 1. kvartil : 25. percentil.
  • 3. kvartil: 75. percentil.
  • Minimum: Nejmenší pozorování ve vzorku.
  • Maximum: Největší pozorování ve vzorku .

Kvartil je pozorovaná hodnota v bodě, který pomáhá při rozdělení uspořádaného vzorku dat na čtyři stejně velké části. Medián neboli 2. kvartil rozděluje seřazený vzorek dat na dvě části a 1. a 3. kvartil rozděluje každou z těchto polovin na čtvrtiny.

Percentil je pozorovaná hodnota v bodě, který pomáhá při rozdělení objednaný vzorek dat do 100 stejně velkých porcí. Kvartily jsou často také vyjádřeny jako percentily.

Hodnoty kvartilu i percentilu jsou příklady statistik pořadí, které lze vypočítat na vzorku dat s libovolnou distribucí. Používají se k rychlému shrnutí, kolik dat v distribuci je za nebo před danou pozorovanou hodnotou. Například polovina pozorování je za a před mediánem distribuce.

Všimněte si, že kvartily se počítají také v grafu pole a vousů, což je neparametrická metoda pro grafické shrnutí distribuce dat vzorek.

Jak vypočítat pětimístný souhrn

Výpočet pětimístného souhrnu zahrnuje nalezení pozorování pro každý kvartil a také minimální a maximální pozorované hodnoty ze vzorku dat.

Pokud v objednaném vzorku dat pro kvartil není žádná konkrétní hodnota, například pokud existuje sudý počet pozorování a snažíme se najít medián, můžeme vypočítat průměr dvou nejbližších hodnoty, například dvě střední hodnoty.

Můžeme vypočítat libovolné hodnoty percentilu v Pythonu pomocí funkce percentilu () NumPy. Tuto funkci můžeme použít k výpočtu hodnot 1., 2. (střední) a 3. kvartilu. Funkce bere pole pozorování i hodnotu s plovoucí desetinnou čárkou k určení percentilu k výpočtu v rozsahu od 0 do 100. Může také brát seznam hodnot percentilu k výpočtu více percentilů; například:

1
quartiles = percentil (data,)

Ve výchozím nastavení funkce v případě potřeby vypočítá lineární interpolaci (průměr) mezi pozorováními, například v případě výpočtu mediánu u vzorku se sudým počtem hodnot.

Funkce NumPy min () a max () lze použít k vrácení nejmenší a největší hodnoty v datovém vzorku; například:

1
data_min, data_max = data.min (), data.max ()

To vše můžeme dát dohromady.

Následující příklad generuje vzorek dat získaný z jednotného rozdělení mezi 0 a 1 a shrnuje jej pomocí souhrnu pěti čísel.

Spuštění příkladu vygeneruje vzorek dat a vypočítá součet pěti čísel popsat rozdělení vzorku.

Vidíme, že šíření pozorování je blízké našim očekáváním, ukazuje 0,27 pro 25. percentil 0,53 pro 50. percentil a 0,76 pro 75. percentil, což je blízko idealizovaných hodnot 0,25, 0,50 a 0,75.

1
2
3
4
5

Min: 0,000
Q1: 0,277
Medián: 0,532
Q3: 0,766
Max: 1 000

Použití souhrnu pěti čísel

Souhrn pěti čísel lze vypočítat pro vzorek dat s libovolnou distribucí.

To zahrnuje data se známou distribucí, jako je Gaussian nebo distribuce podobná Gaussian ution.

Doporučil bych vždy vypočítat souhrn pěti čísel a přejít pouze na souhrny specifické pro distribuci, jako je průměr a směrodatná odchylka pro Gaussian, v případě, že můžete určit distribuci, do které data patří.

Rozšíření

V této části jsou uvedeny některé nápady pro rozšíření tutoriálu, který byste si možná měli prohlédnout.

  • Popište tři příklady v projekt strojového učení, kde lze vypočítat pětimístné shrnutí.
  • Generovat datový vzorek s Gaussovým rozdělením a vypočítat pětimístné shrnutí.
  • Napište funkci pro výpočet 5 -číslo čísla pro jakýkoli vzorek dat.

Pokud prozkoumáte kterékoli z těchto rozšíření, rád bych to věděl.

Další čtení

Tato část poskytuje další zdroje k tomuto tématu, pokud se chcete dostat hlouběji.

Knihy

  • Principy robustní a průzkumné analýzy dat, 2000.

API

  • numpy.percentile () API
  • numpy.ndarray.min () API
  • numpy.ndarray.max () API

Články

  • Pětimístné shrnutí na Wikipedii
  • Kvartil na Wikipedii
  • Percentil na Wikipedii

Shrnutí

V tomto výukovém programu jste objevili pětimístné shrnutí pro popis distribuce datového vzorku, aniž byste předpokládali konkrétní distribuci dat.

Konkrétně jste se dozvěděli:

  • Shrnutí dat, jako je výpočet průměru a směrodatné odchylky, má smysl pouze pro Gaussovo rozdělení.
  • Pět čísel souhrn lze použít k popisu vzorku dat s libovolnou distribucí.
  • Jak vypočítat pětimístné shrnutí v Pythonu.

Máte nějaké dotazy?
Zeptejte se na své dotazy v komentářích níže a já se pokusím odpovědět.

Získejte popis statistik pro strojové učení!

Rozvíjejte funkční porozumění statistikám

… psaním řádků co de v pythonu

Objevte, jak v mém novém Ebooku:
Statistické metody pro strojové učení

Poskytuje návody k samostudiu na témata jako:
Testy hypotéz, korelace, Neparametrické statistiky, převzorkování a mnoho dalšího …

Objevte, jak převést data na znalosti

Přeskočte akademické pracovníky. Jen výsledky.

Podívejte se, co je uvnitř

Tweet Sdílet Sdílet

Leave a Reply

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *