- Inledning
- Punktuppskattning
- Önskade egenskaper hos punkt Uppskattare
- Betydelsen av provtagning och design
- Standardfel och provstorlek
- En annan punktuppskattare (standardavvikelse för exempel)
- Punktöversikt Uppskattning
- Introduktion till intervalluppskattning
- Låt oss sammanfatta
Inledning
I vår introduktion till inferens definierade punktuppskattningar och inte rval-uppskattningar.
- I punktuppskattning uppskattar vi en okänd parameter med ett enda tal som beräknas utifrån exempeldata.
- I intervall uppskattning, vi uppskattar en okänd parameter med ett intervall med värden som sannolikt kommer att innehålla det verkliga värdet för den parametern (och ange hur säker vi är på att detta intervall verkligen fångar det verkliga värdet på parametern).
I det här avsnittet introducerar vi begreppet konfidensintervall och lär oss beräkna konfidensintervall för populationsmedel och befolkningsandelar (när vissa villkor är uppfyllda).
I enhet 4B kommer vi att se att konfidensintervall är användbara när vi vill använda data för att uppskatta en okänd populationsparameter, även när denna parameter uppskattas med flera variabler (till exempel våra fall: CC, CQ, QQ).
Till exempel , kan vi konstruera konfidensintervall för lutningen av en regressionsekvation eller korrelationskoefficienten. På det sättet använder vi alltid våra data för att tillhandahålla en intervallskattning för en okänd populationsparameter (SANT lutning eller SANT korrelationskoefficient).
Punktuppskattning
Punktuppskattning är formen av statistisk slutsats där vi, baserat på provdata, uppskattar den okända parametern av intresse med ett enda värde (därav uppskattning av namnpunkt). Som följande två exempel illustrerar är denna form av slutsats ganska intuitiv.
EXEMPEL:
Antag att vi är intresserade av att studera IQ-nivåerna för studenter vid Smart University (SU). I synnerhet (eftersom IQ-nivån är en kvantitativ variabel) är vi intresserade av att uppskatta µ (mu), den genomsnittliga IQ-nivån för alla studenter vid SU.
Ett slumpmässigt urval på 100 SU-studenter valdes, och deras (prov) genomsnittliga IQ-nivå befanns vara 115 (x-bar).
Om vi ville uppskatta µ (mu), betyder befolkningen IQ-nivå, med ett enda tal baserat på provet , skulle det vara intuitivt meningsfullt att använda motsvarande kvantitet i provet, provets medelvärde som är 115. Vi säger att 115 är punktuppskattningen för µ (mu), och i allmänhet kommer vi alltid att använda provmedlet (x -bar) som punktuppskattare för µ (mu). (Observera att när vi pratar om det specifika värdet (115) använder vi termen uppskattning, och när vi pratar i allmänhet om statistik-x-fältet använder vi termen estimator. Följande figur sammanfattar detta exempel:
Här är ett annat exempel.
EXEMPEL:
Antag att vi är intresserade av amerikanska vuxnas åsikter om legalisering av användning av marijuana. Vi är särskilt intresserade av parametern p, andelen Amerikanska vuxna som tror att marijuana bör legaliseras.
Antag att en undersökning av 1000 amerikanska vuxna finner att 560 av dem anser att marijuana bör legaliseras. Om vi ville uppskatta p, baseras befolkningsandelen med ett enda antal på provet, skulle det vara intuitivt meningsfullt att använda motsvarande kvantitet i provet, provets andel p-hat = 560/1000 = 0,56. Vi säger i detta fall att 0,56 är poängskattningen för p, och i allmänhet är vi ’l Jag använder alltid p-hat som punktskatt för p. (Notera återigen att när vi pratar om det specifika värdet (0,56) använder vi termen estimering, och när vi pratar i allmänhet om statistiken p-hat använder vi termen estimator. Här är en visuell sammanfattning av detta exempel :
Önskade egenskaper hos punktuppskattare
Du kanske känner att eftersom det är så intuitivt skulle du ha kunnat räkna ut punktuppskattning på egen hand, även utan nytta av en hel kurs i statistik.Visst berättar vår intuition att den bästa uppskattaren för populationsmedelvärdet (mu, µ) ska vara x-bar, och den bästa uppskattaren för befolkningsandelen p ska vara p-hat.
Sannolikhetsteori gör mer än detta; det ger faktiskt en förklaring (bortom intuitionen) varför x-bar och p-hat är de goda valen som punktestimatorer för µ (mu) respektive p. I avsnittet Provtagningsfördelningar i sannolikhetsenheten lärde vi oss om samplingsfördelningen av x-bar och fann att så länge ett prov tas slumpmässigt är fördelningen av provmedlen exakt centrerad på värdet av populationsmedelvärdet. p>
Vår statistik, x-stapel, sägs därför vara en opartisk uppskattare för µ (mu). Varje särskilt provmedelvärde kan visa sig vara mindre än det faktiska populationsmedlet, eller det kan visa sig vara mer. Men i det långa loppet är sådana provmedel ”på mål” genom att de inte kommer att underskatta mer eller mindre ofta än de överskattar.
På samma sätt fick vi veta att provfördelningen av provets andel, p -hat, är centrerad på befolkningsandelen p (så länge provet tas slumpmässigt), vilket gör p-hat till en opartisk uppskattning för p.
Som nämnts i inledningen spelar sannolikhetsteorin en viktig roll när vi fastställer resultat för statistisk inferens. Vårt påstående ovanför det genomsnitt av provet och urvalet andelen är opartiska uppskattare är den första förekomsten.
Betydelsen av provtagning och design
Lägg märke till hur viktiga principerna för provtagning och design är för våra resultat ovan: om urvalet av amerikanska vuxna i (exempel 2 på föregående sida) var inte slumpmässigt, men inkluderade istället huvudsakligen studenter, då skulle 0,56 vara en partisk uppskattning för p, proportionen av alla amerikanska vuxna som anser att marijuana bör legaliseras.
Om undersökningsdesignen var bristfällig, till exempel att ladda frågan med en påminnelse om farorna med marijuana som leder till hårda droger eller en påminnelse om fördelarna av marijuana för cancerpatienter, då skulle 0,56 vara partisk på den låga respektive höga sidan.
Standardfel och provstorlek
Provets medelvärde och provandel är inte bara på målet så länge proverna är slumpmässiga, men deras precision förbättras när provstorleken ökar.
Återigen finns det två ”lager” här för att förklara detta.
Kom ihåg att samplingsfördelningen för provmedlet x-bar är, som vi nämnde tidigare, centrerad på populationsmedelvärdet µ (mu) och har ett standardfel (standardavvikelse för statistik, x-bar) för
Som ett resultat, som provstorlek n ökar blir samplingsfördelningen av x-bar mindre spridd. Detta betyder att värdena på x-bar som baseras på ett större prov är mer benägna att vara närmare µ (mu) (som bilden nedan illustrerar):
På samma sätt, eftersom samplingsfördelningen av p-hat är centrerad vid p och har en
som minskar när provstorleken blir större, värdena för p-hat är mer benägna att vara närmare p när provstorleken är större.
En annan punktuppskattare
Ett annat exempel på en punktuppskattning använder standardavvikelse exempel,
för att uppskatta befolkningsstandardavvikelse, σ (sigma).
I den här kursen kommer vi inte att beräkna befolkningsstandarden avvikelse för sin egen skull, men eftersom vi ofta kommer att ersätta standardavvikelsen (erna) för σ (sigma) när vi standardiserar provmedlet, är det värt att påpeka att s är en obia sed estimator för σ (sigma).
Om vi hade dividerat med n istället för n – 1 i vår estimator för populationsstandardavvikelse, skulle på lång sikt vår provvarians göra sig skyldig till en liten underskattning.Division med n – 1 uppnår målet att göra denna punktestimator opartisk.
Anledningen till att vår formel för s, introducerad i Exploratory Data Analysis-enheten, innefattar delning med n – 1 istället för av n är faktum att vi vill använda opartiska uppskattare i praktiken.
Låt oss sammanfatta
- Vi använder p-hat (provandel) som en punktskattare för p (befolkningsandel). Det är en opartisk uppskattare: dess långsiktiga fördelning är centrerad på p så länge som urvalet är slumpmässigt.
- Vi använder x-bar (provmedelvärde) som en punktuppskattare för µ (mu, populationsmedelvärde). Det är en opartisk uppskattning: dess långsiktiga fördelning är centrerad på µ (mu) så länge urvalet är slumpmässigt.
- I båda fallen, desto större är provstorleken, ju mer exakt punktuppskattaren är. Med andra ord, ju större provstorleken är desto mer sannolikt är det att provets medelvärde (andel) är nära det okända populationsmedlet (proportion).
Intervalluppskattning
Punktuppskattning är enkel och intuitiv, men också lite problematisk. Det här är varför:
När vi uppskattar μ (mu) med hjälp av provet betyder x-bar, är vi nästan garanterade att göra något slags fel. Även om vi vet att värdena på x-bar faller runt μ (mu), är det mycket osannolikt att värdet på x-bar kommer att falla exakt vid μ (mu).
Med tanke på att sådana fel är ett faktum i livet för poänguppskattningar (bara genom att vi baserar vår uppskattning på ett urval som är en liten del av befolkningen), har dessa uppskattningar i sig begränsad nytta, såvida vi inte kan kvantifiera omfattningen av uppskattningsfel. Intervalluppskattning löser problemet. Idén bakom intervalluppskattning är därför att förbättra de enkla punktuppskattningarna genom att tillhandahålla information om storleken på det bifogade felet.
I denna introduktion ger vi exempel som ger dig en solid intuition om grundidén bakom intervalluppskattning.
EXEMPEL:
Tänk på exemplet som vi diskuterade i punktuppskattningsavsnittet:
Antag att vi är intresserade av att studera IQ-nivåerna för studenter som går på Smart University (SU). I synnerhet (eftersom IQ-nivån är en kvantitativ variabel) är vi intresserade av att uppskatta μ (mu), den genomsnittliga IQ-nivån för alla studenter i SU. Ett slumpmässigt urval på 100 SU-studenter valdes och deras (prov) genomsnittliga IQ-nivå befanns vara 115 (x-bar).
I punktuppskattning använde vi x-bar = 115 som punktuppskattning för μ (mu). Vi hade dock ingen aning om vad uppskattningsfelet i en sådan uppskattning kan vara. Intervalluppskattning tar punktuppskattning ett steg längre och säger något som:
”Jag är 95% säker på att genom att använda punktuppskattningen x-bar = 115 för att uppskatta μ (mu), är jag inte längre än 3 IQ-poäng. Med andra ord är jag 95% säker på att μ (mu) ligger inom 3 av 115 eller mellan 112 (115 – 3) och 118 (115 + 3). ”
Ändå ett annat sätt att säga samma sak är: Jag är 95% säker på att μ (mu) är någonstans i (eller täckt av) intervallet (112,118). (Kommentar: Vid denna tidpunkt borde du inte oroa dig för, eller försöka lista ut , hur vi fick dessa siffror. Vi gör det senare. Allt vi vill göra här är att se till att du förstår idén.)
Observera att medan punktuppskattning bara gav ett nummer som en uppskattning av μ (mu) av 115 ger intervalluppskattning ett helt intervall av ”troliga värden” för μ (mu) (mellan 112 och 118), och fäster också nivån på vårt förtroende för att detta intervall verkligen inkluderar värdet på μ (mu) till vår uppskattning (i vårt exempel 95% konfidens). Intervallet (112,118) kallas därför ”ett 95% konfidensintervall för μ (mu).”
Låt oss titta på ett annat exempel:
EXEMPEL:
Låt oss överväga det andra exemplet från punktuppskattningsavsnittet.
Antag att vi är intresserade av amerikanska vuxnas åsikter om legalisering av användningen av marijuana. Vi är särskilt intresserade av parametern p, andelen amerikanska vuxna som tror att marijuana ska legaliseras.
Antag att en undersökning av 1 000 amerikanska vuxna finner att 560 av dem anser att marijuana bör legaliseras.
Om vi ville uppskatta p, befolkningsandelen, med ett enda tal baserat på provet, skulle det vara intuitivt meningsfullt att använda motsvarande kvantitet i provet, provets andel p-hat = 560/1000 = 0,56.
Intervalluppskattning skulle ta detta ett steg längre och säga något som:
”Jag är 90% säker på att genom att använda 0,56 för att uppskatta den sanna befolkningsandelen, p, jag är av med (eller, jag har ett fel på) inte mer än 0,03 (eller 3 procentenheter). Med andra ord är jag 90% säker på att det faktiska värdet på p ligger någonstans mellan 0.53 (0,56 – 0,03) och 0,59 (0,56 + 0,03). ”
Ännu ett sätt att säga detta är:” Jag är 90% säker på att p täcks av intervallet (0,53, 0,59). ”
I detta exempel är (0,53, 0,59) ett 90% konfidensintervall för p.
Låt oss sammanfatta
De två exemplen visade oss att tanken bakom intervalluppskattning är, istället för att bara tillhandahålla ett nummer för att uppskatta en okänd parameter av intresse, att tillhandahålla ett intervall av troliga värden för parametern plus en förtroende för att värdet på parametern täcks av detta intervall. / p>
Vi kommer nu att gå in mer detaljerat och lära oss hur dessa konfidensintervall skapas och tolkas i sitt sammanhang. Som ni kommer se idéerna som utvecklades i avsnittet ”Sampling Distributions” i Probability Unit kommer återigen att vara mycket viktigt. Kom ihåg att för poängberäkning leder vår förståelse av samplingsfördelningar till verifiering av att vår statistik är opartisk och ger oss en exakt formel för standardfelet i vår statistik.
Vi börjar med att diskutera konfidensintervall för populationsmedelvärde μ (mu), och senare diskutera konfidensintervall för befolkningsandelen s.
Märkta som: CO-4, uppskattning, uppskattning, intervalluppskattning, LO 4.29, parameter, punktuppskattning, Point Estimator, Sample Size, Sampling, Sampling Distribution, Standard Error of a Statistics, Statistics, Study Design, Unbiased