Estimering

  • Innledning
  • Point Estimation
  • Ønskede egenskaper til punkt Estimatorer
  • Viktigheten av prøvetaking og design
  • Standardfeil og prøvestørrelse
  • En annen punktestimator (eksempel standardavvik)
  • Sammendrag av punkt Estimering
  • Introduksjon til intervallestimering
  • La oss oppsummere
CO-4: Skille mellom forskjellige måleskalaer , velg passende beskrivende og inferensielle statistiske metoder basert på disse skillene, og tolk resultatene.
CO-6: Bruk grunnleggende begreper om sannsynlighet, tilfeldig variasjon og ofte brukte statistiske sannsynlighetsfordelinger.
Video: Estimering (11:40)

Innledning

I vår introduksjon til inferens brukte vi definerte punktestimater og integrert estimater av rval.

  • I punktestimering estimerer vi en ukjent parameter ved hjelp av et enkelt tall som beregnes ut fra eksempeldataene.
  • I intervall estimering estimerer vi en ukjent parameter ved hjelp av et intervall med verdier som sannsynligvis vil inneholde den virkelige verdien til den parameteren (og oppgir hvor sikre vi er på at dette intervallet faktisk fanger den virkelige verdien til parameteren).

I denne delen vil vi introdusere begrepet konfidensintervall og lære å beregne konfidensintervaller for populasjonsmiddel og populasjonsandeler (når visse betingelser er oppfylt).

I Enhet 4B vil vi se at konfidensintervaller er nyttige når vi ønsker å bruke data til å estimere en ukjent populasjonsparameter, selv når denne parameteren er estimert ved hjelp av flere variabler (for eksempel våre tilfeller: CC, CQ, QQ).

For eksempel , kan vi konstruere konfidensintervaller for skråningen til en regresjonsligning eller korrelasjonskoeffisienten. Ved å gjøre det bruker vi alltid dataene våre for å gi et intervallestimat for en ukjent populasjonsparameter (SANN stigning eller SANN korrelasjonskoeffisient).

Punktestimering

LO 4.29: Bestem og bruk de riktige punktestimatene for spesifiserte populasjonsparametere.

Punktestimering er formen for statistisk slutning der vi, basert på eksempeldataene, estimerer den ukjente parameteren av interesse ved hjelp av en enkelt verdi (derav estimering av navnepunkt). Som de følgende to eksemplene illustrerer, er denne form for slutning ganske intuitiv.

EKSEMPEL:

Anta at vi er interessert i å studere IQ-nivåene til studenter ved Smart University (SU). Spesielt (siden IQ-nivå er en kvantitativ variabel), er vi interessert i å estimere µ (mu), det gjennomsnittlige IQ-nivået til alle studentene ved SU.

Et tilfeldig utvalg på 100 SU-studenter ble valgt, og deres (utvalg) gjennomsnittlige IQ-nivå ble funnet å være 115 (x-bar).

Hvis vi ønsket å estimere µ (mu), betyr populasjonen IQ-nivå, med et enkelt tall basert på prøven , ville det være intuitivt fornuftig å bruke den tilsvarende mengden i prøven, med gjennomsnittet av prøven som er 115. Vi sier at 115 er poengestimatet for µ (mu), og generelt vil vi alltid bruke prøvene (x -bar) som punktestimator for µ (mu). (Merk at når vi snakker om den spesifikke verdien (115), bruker vi begrepet estimat, og når vi snakker generelt om statistikken x-bar, bruker vi begrepet estimator. Følgende figur oppsummerer dette eksemplet:

Her er et annet eksempel.

EKSEMPEL:

Anta at vi er interessert i meninger fra amerikanske voksne om lovlig bruk av marihuana. Spesielt er vi interessert i parameteren p, andelen av Amerikanske voksne som mener marihuana bør legaliseres.

Anta at en meningsmåling på 1000 amerikanske voksne finner at 560 av dem mener at marihuana bør legaliseres. Hvis vi ønsker å estimere p, er befolkningsandelen basert på et enkelt tall basert på prøven, ville det være intuitivt fornuftig å bruke den tilsvarende mengden i prøven, prøveandelen p-hat = 560/1000 = 0,56. Vi sier i dette tilfellet at 0,56 er poengestimatet for p, og generelt sett l Jeg bruker alltid p-hat som punktestimator for p. (Merk igjen at når vi snakker om den spesifikke verdien (0.56), bruker vi begrepet estimat, og når vi snakker generelt om statistikken p-hat, bruker vi begrepet estimator. Her er en visuell oppsummering av dette eksemplet :

Gjorde Jeg får dette ?: Punktestimering

Ønskede egenskaper til punktestimatorer

Du kan føle at siden det er så intuitivt, kunne du ha funnet ut poengestimering på egen hånd, selv uten nytte av et helt kurs i statistikk.Absolutt forteller vår intuisjon oss at den beste estimatoren for populasjonsgjennomsnittet (mu, µ) skal være x-bar, og den beste estimatoren for populasjonsandelen p skal være p-hat.

Sannsynlighetsteori gjør mer enn dette; det gir faktisk en forklaring (utover intuisjon) hvorfor x-bar og p-hat er de gode valgene som punktestimatorer for henholdsvis µ (mu) og p. I delen Samplingsfordelinger av sannsynlighetsenheten lærte vi om samplingsfordelingen av x-bar og fant at så lenge et utvalg er tatt tilfeldig, er fordelingen av prøvene nøyaktig sentrert på verdien av populasjonsgjennomsnittet. p>

Vår statistikk, x-bar, sies derfor å være en upartisk estimator for µ (mu). Et hvilket som helst bestemt utvalgsmiddel kan vise seg å være mindre enn det faktiske populasjonsgjennomsnittet, eller det kan vise seg å være mer. Men i det lange løp er slike eksempler «på mål» ved at de ikke undervurderer mer eller mindre ofte enn de overvurderer.

På samme måte lærte vi at samplingsfordelingen av prøveandelen, p -hat, er sentrert på populasjonsandelen p (så lenge prøven tas tilfeldig), og gjør dermed p-hat til en objektiv estimator for p.

Som nevnt i innledningen, spiller sannsynlighetsteorien en viktig rolle når vi etablerer resultater for statistisk inferens. Vår påstand over det gjennomsnittet og prøven andelen er upartiske estimatorer er den første slike forekomsten.

Viktigheten av prøvetaking og design

Legg merke til hvor viktige prinsippene for prøvetaking og design er for våre resultater ovenfor: hvis utvalget av amerikanske voksne i (eksempel 2 på forrige side) ikke var tilfeldig, men inkluderte i stedet overveiende studenter, så ville 0,56 være et partisk estimat for p, proporsjonen av alle amerikanske voksne som mener marihuana bør legaliseres.

Hvis undersøkelsesdesignet var feil, for eksempel å laste spørsmålet med en påminnelse om farene ved marihuana som fører til harddroger, eller en påminnelse om fordelene av marihuana for kreftpasienter, vil 0,56 være forspent på henholdsvis lav eller høy side.

Poengestimatene våre er virkelig upartiske estimater for populasjonsparameteren bare hvis prøven er tilfeldig og studiedesignet ikke er feil.

Standardfeil og prøvestørrelse

Ikke bare er prøvenes gjennomsnitt og prøveandelen på målet så lenge prøvene er tilfeldige, men deres presisjon forbedres når prøvestørrelsen øker.

Igjen er det to «lag» her for å forklare dette.

Intuitivt gir større utvalgstørrelser oss mer informasjon som vi kan feste ned den sanne befolkningens natur. Vi kan derfor forvente at gjennomsnittet av prøven og andelen av prøvene som er oppnådd fra et større utvalg, vil være nærmere henholdsvis populasjonsgjennomsnittet og andelen. I ytterste konsekvens, når vi prøver hele befolkningen (som kalles en folketelling), vil gjennomsnittet av prøven og utvalgets andel nøyaktig falle sammen med befolkningens gjennomsnitt og befolkningsandelen. Det er et annet lag her som igjen kommer fra det vi lærte om prøvetakingsfordelingen av prøvene og prøvenes andel. La oss bruke eksemplets middel for forklaringen.

Husk at samplingsfordelingen av prøven betyr x-bar er, som vi nevnte tidligere, sentrert på populasjonsgjennomsnittet µ (mu) og har en standardfeil (standardavvik for statistikk, x-bar) av

Som et resultat, som prøvestørrelse n øker, blir samplingsfordelingen av x-bar mindre spredt. Dette betyr at verdiene til x-bar som er basert på et større utvalg, er mer sannsynlig å være nærmere µ (mu) (som figuren nedenfor illustrerer):

Tilsvarende, siden samplingsfordelingen av p-hat er sentrert på p og har en

som avtar etter hvert som utvalgsstørrelsen blir større, det er mer sannsynlig at verdiene til p-hat er nærmere p når utvalgsstørrelsen er større.

En annen punktestimator

Et annet eksempel på en punktestimator er å bruke eksempel på standardavvik,

for å estimere populasjonsstandardavvik, σ (sigma).

I dette kurset vil vi ikke være opptatt av å estimere populasjonsstandarden avvik for sin egen skyld, men siden vi ofte vil erstatte prøven standardavvik (er) for σ (sigma) når vi standardiserer prøven, er det verdt å påpeke at s er en unbia sed estimator for σ (sigma).

Hvis vi hadde delt med n i stedet for n – 1 i estimatoren vår for populasjonsstandardavvik, ville vi i det lange løp ha variansen vår for en liten undervurdering.Divisjon med n – 1 oppnår målet om å gjøre denne punktestimatoren upartisk.

Årsaken til at vår formel for s, introdusert i den sonderende dataanalyseenheten, involverer divisjon med n – 1 i stedet for av n er faktum at vi ønsker å bruke objektive estimatorer i praksis.

La oss oppsummere

  • Vi bruker p-hat (prøveandel) som en poengestimator for p (populasjonsandel). Det er en objektiv estimator: distribusjonen på lang sikt er sentrert på p så lenge prøven er tilfeldig.
  • Vi bruker x-bar (sample mean) som en punktestimator for µ (mu, gjennomsnitt for populasjon). Det er en upartisk estimator: den langsiktige fordelingen er sentrert på µ (mu) så lenge prøven er tilfeldig.
  • I begge tilfeller, jo større prøvestørrelse, jo mer presis er punktestimatoren. Med andre ord, jo større utvalgsstørrelsen er, desto mer sannsynlig er det at prøvenes gjennomsnitt (andel) er nær det ukjente populasjonsgjennomsnittet (andel).
Fikk jeg dette ?: Egenskaper for punktestimatorer

Intervallestimering

Punktestimering er enkel og intuitiv, men også litt problematisk. Dette er grunnen:

Når vi estimerer μ (mu) med eksemplet betyr x-bar, er vi nesten garantert å gjøre en slags feil. Selv om vi vet at verdiene til x-bar faller rundt μ (mu), er det svært lite sannsynlig at verdien av x-bar faller nøyaktig på μ (mu).

Gitt at slike feil er et faktum i livet for poengestimater (av det faktum at vi baserer vårt estimat på ett utvalg som er en liten brøkdel av befolkningen), har disse estimatene i seg selv begrenset nytte, med mindre vi er i stand til å kvantifisere omfanget av estimeringsfeil. Intervallestimering løser dette problemet. Ideen bak intervallestimering er derfor å forbedre de enkle punktestimatene ved å gi informasjon om størrelsen på feilen som er vedlagt.

I denne introduksjonen vil vi gi eksempler som vil gi deg en solid intuisjon om den grunnleggende ideen bak intervallestimering.

EKSEMPEL:

Tenk på eksemplet vi diskuterte i punktestimeringsdelen:

Anta at vi er interessert i å studere IQ-nivåene til studenter som går på Smart University (SU). Spesielt (siden IQ-nivå er en kvantitativ variabel), er vi interessert i å estimere μ (mu), det gjennomsnittlige IQ-nivået til alle studentene i SU. Et tilfeldig utvalg på 100 SU-studenter ble valgt, og deres (utvalg) gjennomsnittlige IQ-nivå ble funnet å være 115 (x-bar).

I punktestimering brukte vi x-bar = 115 som punktestimat for μ (mu). Vi hadde imidlertid ingen anelse om hva estimeringsfeilen som er involvert i en slik estimering kan være. Intervallestimering tar poengestimering et skritt videre og sier noe sånt som:

«Jeg er 95% trygg på at ved å bruke punktestimatet x-bar = 115 for å estimere μ (mu), er jeg ikke lenger ute enn 3 IQ-poeng. Med andre ord er jeg 95% trygg på at μ (mu) er innenfor 3 av 115, eller mellom 112 (115 – 3) og 118 (115 + 3). «

Likevel en annen måte å si det samme på er: Jeg er 95% sikker på at μ (mu) er et sted i (eller dekket av) intervallet (112,118). (Kommentar: På dette punktet bør du ikke bekymre deg for, eller prøve å finne ut , hvordan vi fikk disse tallene. Vi gjør det senere. Alt vi vil gjøre her er å sørge for at du forstår ideen.)

Merk at mens punktestimering ga bare ett tall som et estimat for μ (mu) på 115, gir intervallestimering et helt intervall av «sannsynlige verdier» for μ (mu) (mellom 112 og 118), og legger også nivået på vår tillit til at dette intervallet faktisk inkluderer verdien på μ (mu) til vår estimering (i vårt eksempel 95% konfidens). Intervallet (112,118) kalles derfor «et 95% konfidensintervall for μ (mu).»

La oss se på et annet eksempel:

EKSEMPEL:

La oss se på det andre eksemplet fra punktestimeringsdelen.

Anta at vi er interessert i meninger fra amerikanske voksne om lovlig bruk av marihuana. Spesielt er vi interessert i parameteren p, andelen amerikanske voksne som mener marihuana skal legaliseres.

Anta at en meningsmåling på 1000 amerikanske voksne finner at 560 av dem mener at marihuana bør legaliseres.

Hvis vi ønsker å estimere p, er populasjonsandelen med et enkelt tall basert på prøven, ville det være intuitivt fornuftig å bruke den tilsvarende mengden i prøven, prøveandelen p-hat = 560/1000 = 0,56.

Intervallestimering vil ta dette et skritt videre og si noe som:

«Jeg er 90% sikker på at ved å bruke 0,56 for å estimere den sanne befolkningsandelen, p, jeg har ikke (eller, jeg har en feil på) ikke mer enn 0,03 (eller 3 prosentpoeng). Med andre ord er jeg 90% trygg på at den faktiske verdien av p er et sted mellom 0.53 (0,56 – 0,03) og 0,59 (0,56 + 0,03). ”

Nok en måte å si dette på er:» Jeg er 90% trygg på at p dekkes av intervallet (0,53, 0,59). »

I dette eksemplet er (0,53, 0,59) et 90% konfidensintervall for s.

La oss oppsummere

De to eksemplene viste oss at ideen bak intervallestimering er, i stedet for å oppgi bare ett tall for å estimere en ukjent parameter av interesse, å gi et intervall av sannsynlige verdier for parameteren pluss et nivå av tillit til at verdien av parameteren dekkes av dette intervallet. / p>

Vi skal nå gå mer i detalj og lære hvordan disse konfidensintervallene blir opprettet og tolket i sammenheng. Som du vil se, ideene som ble utviklet i delen «Sampling Distributions» i Sannsynlighetsenheten vil igjen være veldig viktig. Husk at for poengestimering fører vår forståelse av samplingsfordelinger til bekreftelse av at statistikken vår er upartisk og gir oss en nøyaktig formel for standardfeilen i statistikken vår.

Vi begynner med å diskutere konfidensintervaller for populasjon gjennomsnitt μ (mu), og senere diskutere konfidensintervaller for populasjonsandelen s.

Merket som: CO-4, Estimat, Estimator, Interval Estimate, LO 4.29, Parameter, Point Estimate, Point Estimator, Sample Size, Sampling, Sampling Distribution, Standard Error of a Statistics, Statistic, Study Design, Unbias

Leave a Reply

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *