Odhad

  • Úvod
  • Odhad bodu
  • Požadované vlastnosti bodu Odhady
  • Důležitost vzorkování a designu
  • Standardní chyba a velikost vzorku
  • Další bodový odhad (ukázková standardní odchylka)
  • Shrnutí bodu Odhad
  • Úvod do odhadu intervalu
  • Shrňme
CO-4: Rozlišujte mezi různými měřícími stupnicemi , vyberte na základě těchto rozdílů vhodné popisné a inferenční statistické metody a výsledky interpretujte.
CO-6: Aplikujte základní pojmy pravděpodobnosti, náhodné variace a běžně použité statistické rozdělení pravděpodobnosti.
Video: Estimation (11:40)

Úvod

V našem úvodu k závěru jsme definované bodové odhady a inte odhady rval.

  • V bodovém odhadu odhadujeme neznámý parametr pomocí jediného čísla, které se vypočítá ze vzorových dat.
  • V intervalu odhad, odhadujeme neznámý parametr pomocí intervalu hodnot, který pravděpodobně bude obsahovat skutečnou hodnotu tohoto parametru (a uvedeme, jak jsme si jisti, že tento interval skutečně zachycuje skutečnou hodnotu parametru).

V této části představíme koncept intervalu spolehlivosti a naučíme se počítat intervaly spolehlivosti pro průměr populace a proporce populace (pokud jsou splněny určité podmínky).

V jednotce 4B budeme uvidíte, že intervaly spolehlivosti jsou užitečné, kdykoli chceme použít data k odhadu neznámého parametru populace, i když je tento parametr odhadován pomocí více proměnných (například v našich případech: CC, CQ, QQ).

Například , můžeme sestrojit intervaly spolehlivosti pro sklon regresní rovnice nebo korelačního koeficientu. Přitom vždy používáme svá data k odhadu intervalu pro neznámý parametr populace (TRUE sklon nebo TRUE korelační koeficient).

Odhad bodu

LO 4.29: Určete a použijte správné bodové odhady pro zadané parametry populace.

Bodový odhad je forma statistické inference, ve které na základě vzorových dat odhadujeme neznámý parametr zájmu pomocí jediné hodnoty (odtud odhad jmenného bodu). Jak ilustrují následující dva příklady, tato forma závěru je docela intuitivní.

PŘÍKLAD:

Předpokládejme, že nás zajímá studium úrovně IQ studentů na Smart University (SU). Zejména (protože úroveň IQ je kvantitativní proměnná) nás zajímá odhad střední hodnoty IQ (mu) všech studentů na SU.

Byl vybrán náhodný vzorek 100 studentů SU, a bylo zjištěno, že jejich průměrná úroveň IQ (vzorek) je 115 (x-bar).

Pokud bychom chtěli odhadnout µ (mu), průměrná úroveň IQ populace, o jedno číslo na základě vzorku , mělo by intuitivní smysl použít odpovídající veličinu ve vzorku, což je průměr vzorku, který je 115. Říkáme, že 115 je bodový odhad pro µ (mu) a obecně vždy použijeme průměr vzorku (x -bar) jako bodový odhad pro µ (mu). (Všimněte si, že když hovoříme o konkrétní hodnotě (115), použijeme termín odhad, a když mluvíme obecně o statistickém x-baru, použijeme výraz odhad.) Následující obrázek shrnuje tento příklad:

Zde je další příklad.

PŘÍKLAD:

Předpokládejme, že nás zajímají názory dospělých z USA ohledně legalizace užívání marihuany. Zejména nás zajímá parametr p, podíl Dospělí v USA, kteří věří, že marihuana by měla být legalizována.

Předpokládejme, že průzkum 1 000 dospělých v USA zjistí, že 560 z nich věří, že marihuana by měla být legalizována. Pokud bychom chtěli odhadnout p, podíl populace, za použití jediného čísla na vzorku by mělo intuitivní smysl použít odpovídající množství ve vzorku, podíl vzorku p-hat = 560/1000 = 0,56. V tomto případě říkáme, že 0,56 je bodový odhad pro p a obecně bychom ‚l Vždy používám p-hat jako bodový odhad pro p. (Všimněte si znovu, že když mluvíme o konkrétní hodnotě (0,56), použijeme termín odhad, a když mluvíme obecně o statistickém p-hat, použijeme termín odhad. Zde je vizuální shrnutí tohoto příkladu :

I Get This ?: Bodový odhad

Požadované vlastnosti bodových odhadů

Možná máte pocit, že jelikož je to tak intuitivní, můžete odhadnout bod sami, dokonce i bez výhoda celého kurzu ve statistice.Naše intuice nám jistě říká, že nejlepším odhadcem pro populační průměr (mu, µ) by měl být x-bar a nejlepším odhadcem pro populační podíl p by měl být p-hat.

Teorie pravděpodobnosti dělá víc než toto; ve skutečnosti poskytuje vysvětlení (mimo intuici), proč jsou x-bar a p-hat dobrou volbou jako bodový odhad pro µ (mu) a p. V sekci Distribuce vzorkování jednotky pravděpodobnosti jsme se dozvěděli o distribuci vzorkování x-baru a zjistili jsme, že pokud je vzorek odebírán náhodně, je distribuce průměrů vzorku přesně vycentrována na hodnotu střední hodnoty populace.

Naše statistika x-bar je proto považována za nestranný odhad pro µ (mu). Jakýkoli konkrétní průměr vzorku by se mohl ukázat jako menší než skutečný průměr populace, nebo by se mohl ukázat jako větší. Ale z dlouhodobého hlediska jsou takové ukázkové prostředky „na cíli“ v tom, že nebudou podceňovat o nic méně či méně často, než nadhodnocují.

Podobně jsme se dozvěděli, že rozdělení vzorkování podílu vzorku, p -hat, je soustředěno na populační podíl p (pokud je vzorek odebrán náhodně), což z p-hat dělá nestranný odhad pro p.

Jak bylo uvedeno v úvodu, teorie pravděpodobnosti hraje zásadní roli při stanovení výsledků statistického závěru. Naše tvrzení nad tímto průměrem a vzorkem poměr jsou nezaujaté odhady je první taková instance.

Důležitost vzorkování a designu

Všimněte si, jak důležité jsou principy vzorkování a designu pro naše výše uvedené výsledky: pokud je vzorek dospělých v USA v (příklad 2 na předchozí stránce) nebyl náhodný, ale místo toho zahrnoval převážně studenty vysokých škol, pak 0,56 by byl zkreslený odhad pro p, poměr všech dospělých v USA, kteří se domnívají, že by marihuana měla být legalizována.

Pokud by byl design průzkumu chybný, například načtení otázky s připomenutím nebezpečí marihuany vedoucí k tvrdým drogám nebo připomenutím výhod marihuany pro pacienty s rakovinou, pak 0,56 by bylo zkresleno na nízké, respektive vysoké straně.

Naše bodové odhady jsou skutečně nezaujaté odhady populačního parametru, pouze pokud je vzorek náhodný a návrh studie není chybné.

Standardní chyba a velikost vzorku

Nejenže je průměr vzorku a podíl vzorku v cíli, pokud jsou vzorky náhodné, ale jejich přesnost se zvyšuje s rostoucí velikostí vzorku.

Opět zde máme dvě „vrstvy“, které to vysvětlují.

Větší velikosti vzorků nám intuitivně poskytují více informací, pomocí kterých můžeme skutečná povaha populace. Můžeme tedy očekávat, že průměr vzorku a podíl získaný z většího vzorku budou blíže průměru populace a respektive podílu. V extrémním případě, když vybereme celou populaci (což se nazývá sčítání lidu), bude se průměr vzorku a podíl vzorku přesně shodovat s průměrem populace a poměrem populace. Existuje zde další vrstva, která opět vychází z toho, o čem jsme se dozvěděli rozdělení vzorkování střední hodnoty vzorku a podílu vzorku. Pro vysvětlení použijeme vzorkový průměr.

Připomeňme si, že distribuce vzorkování střední hodnoty x-tyče je, jak jsme již zmínili, soustředěna na střední hodnotu populace µ (mu) a má standardní chybu (směrodatná odchylka statistika, x-bar) z

Výsledkem je, že velikost vzorku n se zvyšuje, distribuce vzorkování x-baru se méně rozprostírá. To znamená, že hodnoty x-bar, které jsou založeny na větším vzorku, se pravděpodobněji blíží µ (mu) (jak ukazuje obrázek níže):

Podobně, protože distribuce vzorkování p-hat je soustředěna na p a má

který se s rostoucí velikostí vzorku zmenšuje, hodnoty p-hat se pravděpodobně blíží p, když je velikost vzorku větší.

Další bodový odhad

Dalším příkladem bodového odhadu je použití standardní směrodatné odchylky,

k odhadu standardní odchylky populace, σ (sigma).

V tomto kurzu se nebudeme zabývat odhadem populační normy odchylka sama o sobě, ale protože při standardizaci střední hodnoty vzorku často nahradíme standardní směrodatnou odchylku (y) za σ (sigma), je třeba zdůraznit, že s je unbia odhad sed pro σ (sigma).

Pokud bychom v našem odhadu pro směrodatnou odchylku populace dělili n namísto n – 1, pak by z dlouhodobého hlediska byla naše rozptyl vzorku vinen mírným podceněním.Dělení n – 1 dosahuje cíle, aby byl tento bodový odhad nestranný.

Důvod, proč náš vzorec pro s, zavedený v jednotce Exploratory Data Analysis, zahrnuje dělení n – 1 místo n, je skutečnost, že v praxi chceme použít nezaujaté odhady.

Shrňme

  • Jako bodový odhad pro p (podíl populace) používáme p-hat (podíl vzorku). Jedná se o nestranný odhad: jeho dlouhodobá distribuce je soustředěna na p, pokud je vzorek náhodný.
  • Jako bodový odhad používáme x-bar (průměr vzorku). pro µ (mu, průměr populace). Jedná se o nestranný odhad: jeho dlouhodobá distribuce je soustředěna na μ (mu), pokud je vzorek náhodný.
  • V obou případech platí, že čím větší je velikost vzorku, čím přesnější je bodový odhad. Jinými slovy, čím větší je velikost vzorku, tím je pravděpodobnější, že průměr (podíl) vzorku je blízký neznámému průměru (podílu) populace.
Získal jsem to ?: Vlastnosti bodových odhadů

Odhad intervalů

Odhad bodů je jednoduchý a intuitivní, ale také trochu problematický. Zde je důvod, proč:

Když odhadneme μ (mu) podle střední střední hodnoty x-bar, je téměř zaručeno, že uděláme nějakou chybu. I když víme, že hodnoty x-baru klesají kolem μ (mu), je velmi nepravděpodobné, že hodnota x-baru poklesne přesně na μ (mu).

Vzhledem k tomu, že takové chyby jsou skutečnost pro bodové odhady (pouhou skutečností, že náš odhad vycházíme z jednoho vzorku, který je malou částí populace), mají tyto odhady samy o sobě omezenou užitečnost, pokud nejsme schopni kvantifikovat rozsah chyba odhadu. Tento problém řeší odhad intervalů. Myšlenkou odhadu intervalu je proto vylepšit jednoduché odhady bodů poskytnutím informací o velikosti připojené chyby.

V tomto úvodu uvedeme příklady, které vám poskytnou solidní intuici o základní myšlenka odhadu intervalu.

PŘÍKLAD:

Zvažte příklad, který jsme probrali v části odhadu bodů:

Předpokládejme, že nás zajímá studium úrovní IQ studentů navštěvujících Smart University (SU). Zejména (protože úroveň IQ je kvantitativní proměnná) nás zajímá odhad μ (mu), průměrné úrovně IQ všech studentů v SU. Byl vybrán náhodný vzorek 100 studentů SU a jejich (průměrná) úroveň IQ byla 115 (x-bar).

V bodovém odhadu jsme jako bodový odhad pro μ (mu) použili x-bar = 115. Neměli jsme však tušení, co může být chyba odhadu spojená s takovým odhadem. Intervalový odhad posouvá bodový odhad o krok dále a říká něco jako:

„Jsem si 95% jistý, že při použití bodového odhadu x-bar = 115 k odhadu μ (mu) už nebudu než 3 body IQ. Jinými slovy, jsem si 95% jistý, že μ (mu) je mezi 3 ze 115 nebo mezi 112 (115 – 3) a 118 (115 + 3). “

Přesto další způsob, jak říci totéž, je: Jsem si 95% jistý, že μ (mu) je někde v (nebo pokrytém) intervalem (112,118). (Komentář: V tomto okamžiku byste se neměli bát, ani se pokusit zjistit , jak jsme dostali tato čísla. Uděláme to později. Jediné, co zde chceme udělat, je ujistit se, že rozumíte myšlence.)

Všimněte si, že zatímco bodový odhad poskytoval pouze jedno číslo jako odhad pro μ (mu) 115, odhad intervalu poskytuje celý interval „věrohodných hodnot“ pro μ (mu) (mezi 112 a 118) a také přikládá úroveň naší jistoty, že tento interval skutečně zahrnuje hodnotu μ (mu) k náš odhad (v našem příkladu 95% spolehlivost). Interval (112 118) se proto nazývá „95% interval spolehlivosti pro μ (mu).“

Podívejme se na další příklad:

PŘÍKLAD:

Podívejme se na druhý příklad ze sekce odhadu bodů.

Předpokládejme, že nás zajímají názory dospělých v USA týkající se legalizace používání zejména nás zajímá parametr p, podíl dospělých v USA, kteří věří, že marihuana by měla být legalizována.

Předpokládejme, že průzkum 1 000 dospělých v USA zjistí, že 560 z nich věří, že by marihuana měla být legalizována.

Pokud bychom chtěli odhadnout p, podíl populace, jediným číslem na základě vzorku by mělo intuitivní smysl použít odpovídající množství ve vzorku, podíl vzorku p-hat = 560/1000 = 0,56.

Odhad intervalu by to posunul o krok dále a řekl něco jako:

„Jsem si na 90% jistý, že používám 0,56 k odhadu skutečného podílu populace, p, jsem mimo (nebo mám chybu) ne více než 0,03 (nebo 3 procentní body). Jinými slovy, jsem si 90% jistý, že skutečná hodnota p je někde mezi 0.53 (0,56 – 0,03) a 0,59 (0,56 + 0,03). “

Ještě další způsob, jak to říci, je:„ Jsem si 90% jistý, že interval p (0,53, 0,59) pokrývá p. “

V tomto příkladu (0,53; 0,59) je 90% interval spolehlivosti pro p.

Shrňme to

Oba příklady nám ukázaly že myšlenkou odhadu intervalu je místo poskytnutí pouze jednoho čísla pro odhad neznámého požadovaného parametru poskytnout interval věrohodných hodnot parametru plus úroveň spolehlivosti, že hodnota parametru je pokryta tímto intervalem.

Nyní se podíváme podrobněji a naučíme se, jak jsou tyto intervaly spolehlivosti vytvářeny a interpretovány v kontextu. Jak uvidíte, myšlenky, které byly vyvinuty v části „Pravděpodobnostní distribuce“ jednotky Pravděpodobnost bude opět velmi důležité. Připomeňme, že pro bodový odhad vede naše chápání distribuce vzorkování k ověření, že naše statistiky jsou nestranné, a dává nám přesné vzorce pro standardní chybu našich statistik.

Začneme tím, že probereme intervaly spolehlivosti pro průměr populace μ (mu) a později diskutovat intervaly spolehlivosti pro podíl populace str.

Označeno jako: CO-4, odhad, odhad, odhad intervalu, LO 4,29, parametr, odhad bodu, Bodový odhad, velikost vzorku, vzorkování, distribuce vzorkování, standardní chyba statistiky, statistika, návrh studie, nestranný

Leave a Reply

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *