Estimation

  • Introduktion
  • Point Estimation
  • Ønskede egenskaber ved point Estimatorer
  • Betydningen af prøveudtagning og design
  • Standardfejl og prøvestørrelse
  • Et andet punktestimator (prøve standardafvigelse)
  • Punktoversigt Estimering
  • Introduktion til intervallestimering
  • Lad os sammenfatte
CO-4: Skelnen mellem forskellige målestørrelser , vælg de relevante beskrivende og inferentielle statistiske metoder baseret på disse forskelle, og fortolk resultaterne.
CO-6: Anvend grundlæggende begreber om sandsynlighed, tilfældig variation og almindeligt brugte statistiske sandsynlighedsfordelinger.
Video: Estimering (11:40)

Introduktion

I vores introduktion til inferens brugte vi definerede punktestimater og inte rval estimater.

  • I punktestimering estimerer vi en ukendt parameter ved hjælp af et enkelt tal, der beregnes ud fra eksempeldataene.
  • I interval estimering estimerer vi en ukendt parameter ved hjælp af et interval af værdier, der sandsynligvis indeholder den sande værdi af denne parameter (og angiver, hvor sikker vi er på, at dette interval faktisk fanger den sande værdi af parameteren).

I dette afsnit introducerer vi konceptet med et konfidensinterval og lærer at beregne konfidensintervaller for befolkningsværdier og befolkningsforhold (når visse betingelser er opfyldt).

I enhed 4B vil vi se at konfidensintervaller er nyttige, når vi ønsker at bruge data til at estimere en ukendt populationsparameter, selv når denne parameter estimeres ved hjælp af flere variabler (såsom vores sager: CC, CQ, QQ).

For eksempel , kan vi konstruere konfidensintervaller for hældningen af en regressionsligning eller korrelationskoefficienten. Dermed bruger vi altid vores data til at give et intervalestimat for en ukendt populationsparameter (SAND hældning eller SAND korrelationskoefficient).

Estimering af punkt

LO 4.29: Bestem og brug de korrekte punktestimater til specificerede populationsparametre.

Punktestimering er formen for statistisk slutning, hvor vi, baseret på stikprøvedataene, estimerer den ukendte parameter af interesse ved hjælp af en enkelt værdi (deraf estimering af navnepunkt). Som de følgende to eksempler illustrerer, er denne form for slutning ret intuitiv.

EKSEMPEL:

Antag at vi er interesserede i at studere IQ-niveauet for studerende ved Smart University (SU). Især (da IQ-niveau er en kvantitativ variabel), er vi interesserede i at estimere µ (mu), det gennemsnitlige IQ-niveau for alle studerende ved SU.

En tilfældig stikprøve på 100 SU-studerende blev valgt, og deres (prøve) gennemsnitlige IQ-niveau blev fundet at være 115 (x-bar).

Hvis vi ønskede at estimere µ (mu), betyder populationen IQ-niveau med et enkelt tal baseret på prøven , ville det være intuitivt fornuftigt at bruge den tilsvarende mængde i prøven, prøven betyder, der er 115. Vi siger, at 115 er punktestimatet for µ (mu), og generelt bruger vi altid prøven gennemsnit (x -bar) som punktestimator for µ (mu). (Bemærk, at når vi taler om den specifikke værdi (115), bruger vi udtrykket estimat, og når vi generelt taler om den statistiske x-bar, bruger vi udtrykket estimator. Følgende figur opsummerer dette eksempel:

Her er et andet eksempel.

EKSEMPEL:

Antag at vi er interesserede i meninger fra amerikanske voksne om legalisering af brugen af marihuana. Især er vi interesserede i parameteren p, andelen af Amerikanske voksne, der mener, at marihuana skal legaliseres.

Antag at en meningsmåling på 1.000 amerikanske voksne finder, at 560 af dem mener, at marihuana skal legaliseres. Hvis vi vil estimere p, er befolkningens andel baseret på et enkelt tal baseret på prøven ville det være intuitivt fornuftigt at bruge den tilsvarende mængde i prøven, prøveforholdet p-hat = 560/1000 = 0,56. Vi siger i dette tilfælde, at 0,56 er pointestimatet for p, og generelt, vi l Jeg bruger altid p-hat som punktestimator for p. (Bemærk igen, at når vi taler om den specifikke værdi (0,56), bruger vi udtryk estimat, og når vi generelt taler om statistikken p-hat, bruger vi udtrykket estimator. Her er en visuel oversigt over dette eksempel :

Gjorde Jeg får dette ?: Punktestimering

Ønskede egenskaber ved punktestimatorer

Du føler måske, at da det er så intuitivt, kunne du have regnet ud pointestimering på egen hånd, selv uden gavn af et helt kursus i statistik.Bestemt fortæller vores intuition os, at den bedste estimator for populationsgennemsnittet (mu, µ) skal være x-bar, og den bedste estimator for befolkningsandelen p skal være p-hat.

Sandsynlighedsteori gør mere end dette; det giver faktisk en forklaring (ud over intuition), hvorfor x-bar og p-hat er de gode valg som punktestimatorer for henholdsvis µ (mu) og p. I afsnittet Samplingfordelinger i sandsynlighedsenheden lærte vi om samplingfordelingen af x-bar og fandt ud af, at så længe en stikprøve tages tilfældigt, er fordelingen af stikprøven nøjagtigt centreret på værdien af populationsgennemsnittet. p>

Vores statistik, x-bar, siges derfor at være en upartisk estimator for µ (mu). Enhver bestemt stikprøveværdi kan vise sig at være mindre end den faktiske befolkningsgennemsnit, eller det kan vise sig at være mere. Men i det lange løb er sådanne prøvemetoder “på mål”, idet de ikke undervurderer mere eller mindre ofte, end de overvurderer.

Ligeledes lærte vi, at prøveuddelingen af prøveforholdet, p -hat, er centreret om populationens andel p (så længe prøven er taget tilfældigt), hvilket gør p-hat til en upartisk estimator for p.

Som nævnt i indledningen spiller sandsynlighedsteori en væsentlig rolle, da vi etablerer resultater for statistisk inferens. Vores påstand over dette stikprøves gennemsnit og prøve andelen er upartiske estimatorer er den første sådan forekomst.

Betydningen af prøveudtagning og design

Bemærk, hvor vigtigt principperne for prøveudtagning og design er for vores ovenstående resultater: hvis prøven af amerikanske voksne i (eksempel 2 på forrige side) var ikke tilfældig, men inkluderede i stedet overvejende universitetsstuderende, så ville 0,56 være et partisk skøn for p, proportionen af alle amerikanske voksne, der mener, at marihuana skal legaliseres.

Hvis undersøgelsesdesignet var mangelfuldt, såsom at indlæse spørgsmålet med en påmindelse om farerne ved marihuana, der fører til hårde stoffer, eller en påmindelse om fordelene af marihuana til kræftpatienter, så ville 0,56 være forudindtaget på henholdsvis den lave eller den høje side.

Vores pointestimater er virkelig upartiske estimater for populationsparameteren, hvis prøven er tilfældig, og undersøgelsesdesignet ikke er mangelfuld.

Standardfejl og prøvestørrelse

Prøven er ikke kun middelværdi og prøveforhold på målet, så længe prøverne er tilfældige, men deres nøjagtighed forbedres, når prøvestørrelsen øges.

Igen er der to “lag” her for at forklare dette.

Intuitivt giver større stikprøvestørrelser os mere information, hvormed vi kan fastgøre den sande karakter af befolkningen. Vi kan derfor forvente, at stikprøven og gennemsnittet af prøven opnået fra en større prøve er henholdsvis tættere på populationens gennemsnit og andel. Når vi prøver hele befolkningen (der kaldes en folketælling), vil stikprøven og gennemsnittet af prøven nøjagtigt falde sammen med befolkningens gennemsnit og befolkningsandelen. Der er et andet lag her, der igen kommer fra det, vi lærte om prøvetagningsfordelingen af stikprøvernes gennemsnit og prøveproportionen. Lad os bruge eksemplets middelværdi til forklaringen.

Husk at samplingsfordelingen af prøve middelværdien x-bar er, som vi nævnte før, centreret på populationsgennemsnittet µ (mu) og har en standardfejl (standardafvigelse af statistik, x-bar) for

Som et resultat, som stikprøvestørrelse n øges, fordeles samplingfordelingen af x-bar mindre. Dette betyder, at værdierne på x-bar, der er baseret på en større prøve, er mere tilbøjelige til at være tættere på µ (mu) (som figuren nedenfor illustrerer):

Tilsvarende, da samplingsfordelingen af p-hat er centreret ved p og har en

som falder, efterhånden som stikprøvestørrelsen bliver større, er værdierne for p-hat mere tilbøjelige til at være tættere på p, når stikprøvestørrelsen er større.

Et andet punktestimator

Et andet eksempel på en punktestimator er at bruge prøve standardafvigelse,

for at estimere populationens standardafvigelse, σ (sigma).

I dette kursus vil vi ikke være optaget af at estimere befolkningsstandarden afvigelse for sin egen skyld, men da vi ofte vil erstatte prøven standardafvigelse (r) for σ (sigma), når vi standardiserer prøven, er det værd at påpege, at s er en ubia sed estimator for σ (sigma).

Hvis vi havde divideret med n i stedet for n – 1 i vores estimator for populationsstandardafvigelse, ville vores prøvevarians i det lange løb være skyld i en lille undervurdering.Division med n – 1 opnår målet om at gøre denne punktestimator upartisk.

Årsagen til, at vores formel for s, introduceret i den sonderende dataanalysenhed, involverer division med n – 1 i stedet for af n er det faktum, at vi ønsker at bruge upartiske estimatorer i praksis.

Lad os sammenfatte

  • Vi bruger p-hat (prøveforhold) som en pointestimator for p (befolkningsandel). Det er en upartisk estimator: dens langsigtede fordeling er centreret ved p, så længe prøven er tilfældig.
  • Vi bruger x-bar (prøve gennemsnit) som en pointestimator for µ (mu, populationsgennemsnit). Det er en upartisk estimator: dets langsigtede fordeling er centreret på µ (mu), så længe prøven er tilfældig.
  • I begge tilfælde er jo større prøvestørrelsen, jo mere præcis er punktestimatoren. Med andre ord, jo større stikprøvestørrelse er, desto mere sandsynligt er det, at stikprøvernes gennemsnit (andel) er tæt på det ukendte populationsgennemsnit (andel).
Fik jeg dette ?: Egenskaber for punktestimatorer

Intervalestimering

Punktestimering er enkel og intuitiv, men også lidt problematisk. Det er her:

Når vi estimerer μ (mu) ved hjælp af prøven betyder x-bar, er vi næsten garanteret at lave en slags fejl. Selvom vi ved, at værdierne for x-bar falder omkring μ (mu), er det meget usandsynligt, at værdien af x-bar falder nøjagtigt ved μ (mu).

I betragtning af at sådanne fejl er et faktisk liv for punktestimater (ved det blotte faktum, at vi baserer vores estimat på en prøve, der er en lille del af befolkningen), er disse estimater i sig selv af begrænset nytte, medmindre vi er i stand til at kvantificere omfanget af estimationsfejl. Interval estimering løser dette problem. Ideen bag intervalestimering er derfor at forbedre de enkle punktestimater ved at give information om størrelsen på den vedhæftede fejl.

I denne introduktion giver vi eksempler, der giver dig en solid intuition om den grundlæggende idé bag intervalestimering.

EKSEMPEL:

Overvej eksemplet, som vi diskuterede i punktestimeringsafsnittet:

Antag, at vi er interesserede i at studere IQ-niveauer for studerende, der går på Smart University (SU). Især (da IQ-niveau er en kvantitativ variabel), er vi interesserede i at estimere μ (mu), det gennemsnitlige IQ-niveau for alle studerende i SU. En tilfældig stikprøve på 100 SU-studerende blev valgt, og deres (prøve) gennemsnitlige IQ-niveau blev fundet at være 115 (x-bar).

I punktestimering brugte vi x-bar = 115 som punktestimat for μ (mu). Vi havde imidlertid ingen idé om, hvad den estimeringsfejl, der er involveret i en sådan estimering, kan være. Intervalestimering tager punktestimering et skridt videre og siger noget som:

“Jeg er 95% sikker på, at ved at bruge punktestimatet x-bar = 115 til at estimere μ (mu), er jeg ikke længere væk end 3 IQ-point. Med andre ord er jeg 95% sikker på, at μ (mu) er inden for 3 af 115 eller mellem 112 (115 – 3) og 118 (115 + 3). “

Alligevel en anden måde at sige det samme på er: Jeg er 95% sikker på, at μ (mu) er et eller andet sted i (eller dækket af) intervallet (112,118). (Kommentar: På dette tidspunkt skal du ikke bekymre dig om eller prøve at finde ud af , hvordan vi fik disse tal. Vi gør det senere. Alt, hvad vi vil gøre her, er at sikre dig, at du forstår ideen.)

Bemærk, at mens punktestimering kun gav et tal som et estimat for μ (mu) på 115, giver intervalestimering et helt interval af “sandsynlige værdier” for μ (mu) (mellem 112 og 118) og lægger også niveauet for vores tillid til, at dette interval faktisk inkluderer værdien af μ (mu) til vores skøn (i vores eksempel 95% konfidens). Intervallet (112,118) kaldes derfor “et 95% konfidensinterval for μ (mu).”

Lad os se på et andet eksempel:

EKSEMPEL:

Lad os overveje det andet eksempel fra punktestimeringsafsnittet.

Antag, at vi er interesserede i amerikanske voksnes meninger om legalisering af brugen af marihuana. Vi er især interesserede i parameteren p, andelen af amerikanske voksne, der mener, at marihuana skal legaliseres.

Antag at en meningsmåling på 1.000 amerikanske voksne finder, at 560 af dem mener, at marihuana skal legaliseres.

Hvis vi vil estimere p, er befolkningsandelen med et enkelt tal baseret på prøven ville det være intuitivt fornuftigt at bruge den tilsvarende mængde i prøven, prøveandelen p-hat = 560/1000 = 0,56.

Intervalestimering vil tage dette et skridt videre og sige noget ligesom:

“Jeg er 90% sikker på, at ved at bruge 0,56 for at estimere den sande befolkningsandel, p, jeg har ikke (eller, jeg har en fejl på) ikke mere end 0,03 (eller 3 procentpoint). Med andre ord er jeg 90% sikker på, at den faktiske værdi af p er et sted mellem 0.53 (0,56 – 0,03) og 0,59 (0,56 + 0,03). ”

Endnu en anden måde at sige dette på er:” Jeg er 90% sikker på, at p er dækket af intervallet (0,53, 0,59). ”

I dette eksempel er (0,53, 0,59) et 90% konfidensinterval for p.

Lad os opsummere

De to eksempler viste os at ideen bag intervalestimering er, i stedet for kun at angive et nummer til estimering af en ukendt parameter af interesse, at tilvejebringe et interval af sandsynlige værdier for parameteren plus et niveau af tillid til, at værdien af parameteren er dækket af dette interval. / p>

Vi vil nu gå mere i detaljer og lære, hvordan disse konfidensintervaller oprettes og fortolkes i sammenhæng. Som du vil se, er ideerne, der blev udviklet i afsnittet “Samplingfordelinger” i sandsynlighedsenheden vil igen være meget vigtigt. Husk, at for punktestimering fører vores forståelse af samplingsfordelinger til verifikation af, at vores statistik er upartisk og giver os en præcis formel for standardfejlen i vores statistikker.

Vi starter med at diskutere konfidensintervaller for populationsgennemsnit μ (mu), og senere diskutere konfidensintervaller for befolkningsandelen s.

Mærket som: CO-4, Estimering, Estimator, Interval Estimate, LO 4.29, Parameter, Point Estimate, Punktestimator, Prøvestørrelse, Sampling, Prøvefordeling, Standardfejl i en statistik, Statistik, Undersøgelsesdesign, Ikke-partisk

Leave a Reply

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *