- Introduzione
- Stima del punto
- Proprietà desiderate del punto Stimatori
- Importanza del campionamento e del progetto
- Errore standard e dimensione del campione
- Un altro stima del punto (deviazione standard del campione)
- Riepilogo del punto Stima
- Introduzione alla stima a intervalli
- Riassumiamo
Introduzione
Nella nostra Introduzione all’inferenza abbiamo stime puntuali definite e inte stime rval.
- Nella stima puntuale, stimiamo un parametro sconosciuto utilizzando un singolo numero calcolato dai dati del campione.
- In intervallo stima, stimiamo un parametro sconosciuto utilizzando un intervallo di valori che è probabile che contenga il valore vero di quel parametro (e affermiamo quanto siamo sicuri che questo intervallo catturi effettivamente il valore vero del parametro).
In questa sezione, introdurremo il concetto di intervallo di confidenza e impareremo a calcolare gli intervalli di confidenza per le medie e le proporzioni della popolazione (quando sono soddisfatte determinate condizioni).
Nell’Unità 4B, vedremo vedere che gli intervalli di confidenza sono utili ogni volta che desideriamo utilizzare i dati per stimare un parametro di popolazione sconosciuto, anche quando questo parametro viene stimato utilizzando più variabili (come i nostri casi: CC, CQ, QQ).
Ad esempio , possiamo costruire intervalli di confidenza per la pendenza di un’equazione di regressione o il coefficiente di correlazione. In tal modo utilizziamo sempre i nostri dati per fornire una stima dell’intervallo per un parametro di popolazione sconosciuto (la VERA pendenza o il VERO coefficiente di correlazione).
Stima del punto
La stima puntuale è la forma di inferenza statistica in cui, in base ai dati del campione, stimiamo il parametro sconosciuto di interesse utilizzando un singolo valore (da cui la stima del punto del nome). Come illustrano i due esempi seguenti, questa forma di inferenza è abbastanza intuitiva.
ESEMPIO:
Supponi di essere interessati a studiare i livelli di QI degli studenti della Smart University (SU). In particolare (poiché il livello di QI è una variabile quantitativa), siamo interessati a stimare µ (mu), il livello medio di QI di tutti gli studenti di SU.
È stato scelto un campione casuale di 100 studenti SU, e il loro livello medio di QI (campione) è risultato essere 115 (x-bar).
Se volessimo stimare µ (mu), il livello di QI medio della popolazione, con un singolo numero basato sul campione , avrebbe senso intuitivo usare la quantità corrispondente nel campione, la media campionaria che è 115. Diciamo che 115 è la stima puntuale per µ (mu) e, in generale, useremo sempre la media campionaria (x -bar) come stimatore puntuale per µ (mu). (Nota che quando parliamo del valore specifico (115), usiamo il termine stima, e quando parliamo in generale della statistica x-bar, usiamo il termine stimatore. La figura seguente riassume questo esempio:
Ecco un altro esempio.
ESEMPIO:
Supponiamo di essere interessati alle opinioni degli adulti statunitensi in merito alla legalizzazione dell’uso della marijuana. In particolare, ci interessa il parametro p, la proporzione di Adulti statunitensi che credono che la marijuana debba essere legalizzata.
Supponiamo che un sondaggio di 1.000 adulti statunitensi rilevi che 560 di loro credono che la marijuana dovrebbe essere legalizzata. Se volessimo stimare p, la proporzione della popolazione, utilizzando un unico numero basato sul campione, avrebbe senso intuitivo utilizzare la quantità corrispondente nel campione, la proporzione del campione p-hat = 560/1000 = 0,56. In questo caso diciamo che 0,56 è la stima puntuale di p, e in generale, noi ‘l Uso sempre p-hat come stimatore puntuale per p. (Nota, ancora, che quando parliamo del valore specifico (0,56), usiamo il termine stima e quando parliamo in generale della statistica p-hat, usiamo il termine stimatore. Ecco un riepilogo visivo di questo esempio :
Proprietà desiderate degli stimatori del punto
Potresti pensare che, poiché è così intuitivo, potresti aver capito da solo la stima del punto, anche senza beneficiare di un intero corso di statistica.Certamente, la nostra intuizione ci dice che il miglior stimatore per la media della popolazione (mu, µ) dovrebbe essere x-bar, e il miglior stimatore per la proporzione della popolazione p dovrebbe essere p-hat.
La teoria della probabilità fa più di questo; in realtà fornisce una spiegazione (oltre l’intuizione) perché x-bar e p-hat sono le buone scelte come stimatori puntuali per µ (mu) ep, rispettivamente. Nella sezione Distribuzioni campionarie dell’unità Probabilità, abbiamo appreso la distribuzione campionaria di x-bar e abbiamo scoperto che fintanto che un campione è preso a caso, la distribuzione delle medie campionarie è esattamente centrata sul valore della media della popolazione.
La nostra statistica, x-bar, è quindi considerata uno stimatore imparziale per µ (mu). Qualsiasi media campionaria particolare potrebbe rivelarsi inferiore alla media della popolazione effettiva, oppure potrebbe essere maggiore. Ma a lungo termine, tali mezzi campionari sono “mirati” in quanto non sottostimano più o meno spesso di quanto sovrastimano.
Allo stesso modo, abbiamo appreso che la distribuzione campionaria della proporzione campionaria, p -che, è centrato sulla proporzione della popolazione p (purché il campione sia preso a caso), rendendo così p-hat uno stimatore imparziale per p.
Come affermato nell’introduzione, la teoria della probabilità gioca un ruolo essenziale quando stabiliamo i risultati per l’inferenza statistica. La nostra affermazione sopra quella media campionaria e campione proporzione sono stimatori imparziali è il primo esempio di questo tipo.
Importanza del campionamento e del design
Notare quanto siano importanti i principi del campionamento e del design per i nostri risultati sopra: se il campione di adulti statunitensi in (esempio 2 nella pagina precedente) non era casuale, ma includeva invece prevalentemente studenti universitari, quindi 0,56 sarebbe una stima distorta per p, il proporti tra tutti gli adulti statunitensi che credono che la marijuana dovrebbe essere legalizzata.
Se il progetto del sondaggio fosse difettoso, ad esempio caricare la domanda con un promemoria sui pericoli della marijuana che porta a droghe pesanti o un promemoria sui benefici di marijuana per i malati di cancro, quindi 0,56 sarebbero distorti rispettivamente sul lato basso o alto.
Errore standard e dimensione del campione
Non solo la media del campione e la proporzione del campione sono sul target fintanto che i campioni sono casuali, ma la loro precisione migliora con l’aumentare della dimensione del campione.
Di nuovo, ci sono due “livelli” qui per spiegare questo.
Ricordiamo che la distribuzione campionaria della barra x della media campionaria è, come accennato in precedenza, centrata sulla media della popolazione µ (mu) e ha un errore standard (deviazione standard della statistic, x-bar) di
Di conseguenza, come dimensione del campione n aumenta, la distribuzione campionaria di x-bar si distribuisce meno. Ciò significa che i valori di x-bar basati su un campione più ampio hanno maggiori probabilità di essere più vicini a µ (mu) (come illustrato nella figura seguente):
Allo stesso modo, poiché la distribuzione campionaria di p-hat è centrata su p e ha un
che diminuisce all’aumentare della dimensione del campione, è più probabile che i valori di p-hat siano più vicini a p quando la dimensione del campione è maggiore.
Un altro stimatore puntuale
Un altro esempio di stima puntuale è l’utilizzo della deviazione standard campione,
per stimare la deviazione standard della popolazione, σ (sigma).
In questo corso, non ci occuperemo di stimare lo standard della popolazione deviazione fine a se stessa, ma poiché spesso sostituiremo la deviazione standard campionaria con σ (sigma) quando standardizzeremo la media campionaria, vale la pena sottolineare che s è un unbia Stimatore sed per σ (sigma).
Se avessimo diviso per n invece di n – 1 nel nostro stimatore per la deviazione standard della popolazione, a lungo termine la nostra varianza campionaria sarebbe colpevole di una leggera sottostima.La divisione per n – 1 raggiunge l’obiettivo di rendere questo stimatore puntuale imparziale.
Il motivo per cui la nostra formula per s, introdotta nell’unità di analisi dei dati esplorativi, implica la divisione per n – 1 invece che per n è la fatto che desideriamo utilizzare stimatori imparziali nella pratica.
Riassumiamo
- Usiamo p-hat (proporzione del campione) come stimatore puntuale per p (proporzione della popolazione). È uno stimatore imparziale: la sua distribuzione di lungo periodo è centrata in p fintanto che il campione è casuale.
- Usiamo x-bar (media campionaria) come stimatore puntuale per µ (mu, media della popolazione). È uno stimatore imparziale: la sua distribuzione di lungo periodo è centrata su µ (mu) fintanto che il campione è casuale.
- In entrambi i casi, maggiore è la dimensione del campione, più preciso è lo stimatore puntuale. In altre parole, maggiore è la dimensione del campione, più è probabile che la media del campione (proporzione) sia vicina alla media della popolazione sconosciuta (proporzione).
Stima dell’intervallo
La stima dei punti è semplice e intuitiva, ma anche un po ‘problematica. Ecco perché:
Quando stimiamo μ (mu) dalla media del campione x-bar, siamo quasi sicuri di fare qualche tipo di errore. Anche se sappiamo che i valori di x-bar cadono intorno a μ (mu), è molto improbabile che il valore di x-bar cada esattamente a μ (mu).
Dato che tali errori sono un dato di fatto per le stime puntuali (per il semplice fatto che stiamo basando la nostra stima su un campione che è una piccola frazione della popolazione), queste stime sono di per sé di utilità limitata, a meno che non siamo in grado di quantificare l’entità del errore di stima. La stima dell’intervallo risolve questo problema. L’idea alla base della stima dell’intervallo è, quindi, quella di migliorare le semplici stime puntuali fornendo informazioni sulla dimensione dell’errore allegato.
In questa introduzione, forniremo esempi che ti daranno una solida intuizione l’idea di base alla base della stima dell’intervallo.
ESEMPIO:
Considera l’esempio che abbiamo discusso nella sezione sulla stima puntuale:
Supponiamo di essere interessati a studiare i livelli di QI degli studenti che frequentano la Smart University (SU). In particolare (poiché il livello di QI è una variabile quantitativa), ci interessa stimare μ (mu), il livello di QI medio di tutti gli studenti in SU. È stato scelto un campione casuale di 100 studenti SU e il loro livello medio di QI (campione) è risultato essere 115 (x-bar).
Nella stima puntuale abbiamo usato x-bar = 115 come stima puntuale per μ (mu). Tuttavia, non avevamo idea di quale potesse essere l’errore di stima coinvolto in tale stima. La stima dell’intervallo porta la stima puntuale un passo avanti e dice qualcosa del tipo:
“Sono sicuro al 95% che utilizzando la stima puntuale x-bar = 115 per stimare μ (mu), non sono più fuori di testa di 3 punti QI. In altre parole, sono sicuro al 95% che μ (mu) è compreso tra 3 su 115 o tra 112 (115 – 3) e 118 (115 + 3). “
Eppure un altro modo per dire la stessa cosa è: sono sicuro al 95% che μ (mu) sia da qualche parte nell’intervallo (o coperto da) (112,118). (Commento: a questo punto non dovresti preoccuparti, o cercare di capire , come abbiamo ottenuto questi numeri. Lo faremo più tardi. Tutto ciò che vogliamo fare qui è assicurarci di aver compreso l’idea.)
Nota che sebbene la stima puntuale fornisca un solo numero come stima per μ (mu) di 115, la stima dell’intervallo fornisce un intero intervallo di “valori plausibili” per μ (mu) (tra 112 e 118) e attribuisce anche il livello di confidenza che questo intervallo include effettivamente il valore di μ (mu) a la nostra stima (nel nostro esempio, 95% di confidenza). L’intervallo (112,118) è quindi chiamato “un intervallo di confidenza del 95% per μ (mu)”.
Diamo un’occhiata a un altro esempio:
ESEMPIO:
Consideriamo il secondo esempio dalla sezione della stima puntuale.
Supponiamo di essere interessati alle opinioni degli adulti statunitensi riguardo alla legalizzazione dell’uso di marijuana. In particolare, siamo interessati al parametro p, la proporzione di adulti statunitensi che credono che la marijuana debba essere legalizzata.
Supponiamo che un sondaggio di 1.000 adulti statunitensi rilevi che 560 di loro credono che la marijuana debba essere legalizzata.
Se volessimo stimare p, la proporzione della popolazione, con un singolo numero in base al campione, sarebbe intuitivo utilizzare la quantità corrispondente nel campione, la proporzione del campione p-hat = 560/1000 = 0,56.
La stima dell’intervallo farebbe un ulteriore passo avanti e direbbe qualcosa come:
“Sono sicuro al 90% che utilizzando 0,56 per stimare la proporzione reale della popolazione, p, sono fuori (o ho un errore di) non più di 0,03 (o 3 punti percentuali). In altre parole, sono sicuro al 90% che il valore effettivo di p sia da qualche parte tra 0.53 (0,56 – 0,03) e 0,59 (0,56 + 0,03). “
Un altro modo per dirlo è:” Sono sicuro al 90% che p è coperto dall’intervallo (0,53, 0,59) “.
In questo esempio, (0,53, 0,59) è un intervallo di confidenza del 90% per p.
Riassumiamo
I due esempi ci hanno mostrato che l’idea alla base della stima dell’intervallo è, invece di fornire un solo numero per stimare un parametro di interesse sconosciuto, fornire un intervallo di valori plausibili del parametro più un livello di fiducia che il valore del parametro è coperto da questo intervallo.
Andremo ora più in dettaglio e impareremo come questi intervalli di confidenza vengono creati e interpretati nel contesto. Come vedrai, le idee che sono state sviluppate nella sezione “Distribuzioni campionarie” dell’unità Probabilità sarà, ancora una volta, molto importante. Ricorda che per la stima puntuale, la nostra comprensione delle distribuzioni campionarie porta a verificare che le nostre statistiche siano imparziali e ci fornisce formule precise per l’errore standard delle nostre statistiche.
Inizieremo discutendo gli intervalli di confidenza per media della popolazione μ (mu) e successivamente discutere gli intervalli di confidenza per la proporzione della popolazione p.
Etichettato come: CO-4, Stima, Stimatore, Stima dell’intervallo, LO 4.29, Parametro, Stima puntuale, Strumento per la stima del punto, dimensione del campione, campionamento, distribuzione del campionamento, errore standard di una statistica, statistica, disegno dello studio, imparziale