- Introducere
- Estimare punctuală
- Proprietăți dorite ale punctului Estimatori
- Importanța eșantionării și proiectării
- Eroare standard și dimensiunea eșantionului
- Un alt estimator de punct (deviația standard a eșantionului)
- Rezumatul punctului Estimare
- Introducere în estimarea intervalelor
- Să rezumăm
Introducere
În Introducerea noastră la inferență, estimări punct definite și inte estimări rval.
- În estimarea punctelor, estimăm un parametru necunoscut folosind un singur număr care este calculat din datele eșantionului.
- În interval estimare, estimăm un parametru necunoscut folosind un interval de valori care este probabil să conțină valoarea adevărată a acelui parametru (și afirmăm cât de încrezători suntem că acest interval captează într-adevăr valoarea adevărată a parametrului).
În această secțiune, vom introduce conceptul unui interval de încredere și vom învăța să calculăm intervalele de încredere pentru media populației și proporțiile populației (când sunt îndeplinite anumite condiții).
În Unitatea 4B, vom vezi că intervalele de încredere sunt utile ori de câte ori dorim să folosim date pentru a estima un parametru de populație necunoscut, chiar și atunci când acest parametru este estimat utilizând mai multe variabile (cum ar fi cazurile noastre: CC, CQ, QQ).
De exemplu , putem construi intervale de încredere pentru panta unei ecuații de regresie sau a coeficientului de corelație. Procedând astfel, folosim întotdeauna datele noastre pentru a furniza o estimare a intervalului pentru un parametru de populație necunoscut (panta TRUE sau coeficientul de corelație TRUE).
Estimarea punctelor
Estimarea punctelor este forma inferenței statistice în care, pe baza datelor eșantionului, estimăm parametrul necunoscut de interes folosind o singură valoare (de unde și estimarea punctului de nume). După cum ilustrează următoarele două exemple, această formă de inferență este destul de intuitivă.
EXEMPLU:
Să presupunem că suntem interesați să studiem nivelurile IQ ale studenților de la Smart University (SU). În special (deoarece nivelul IQ este o variabilă cantitativă), suntem interesați să estimăm µ (mu), nivelul mediu de IQ al tuturor studenților din SU.
A fost ales un eșantion aleatoriu de 100 de studenți SU, iar nivelul lor (eșantion) al IQ-ului s-a constatat a fi 115 (x-bar).
Dacă am dori să estimăm µ (mu), populația ar fi nivelul IQ mediu, cu un singur număr bazat pe eșantion , ar avea sens intuitiv să folosim cantitatea corespunzătoare din eșantion, media eșantionului care este 115. Spunem că 115 este valoarea estimată pentru µ (mu) și, în general, vom folosi întotdeauna media eșantionului (x -bar) ca estimator punctual pentru µ (mu). (Rețineți că, atunci când vorbim despre valoarea specifică (115), folosim termenul estimare, iar când vorbim în general despre statistica x-bar, folosim termenul estimator. Următoarea figură rezumă acest exemplu:
Iată un alt exemplu.
EXEMPLU:
Să presupunem că suntem interesați de opiniile adulților americani cu privire la legalizarea utilizării marijuanei. În special, ne interesează parametrul p, proporția de Adulții din SUA care consideră că marijuana ar trebui legalizată.
Să presupunem că un sondaj de 1.000 de adulți din SUA constată că 560 dintre ei consideră că marijuana ar trebui legalizată. Dacă am dori să estimăm p, proporția populației, utilizând un singur număr bazat pe pe eșantion, ar avea sens intuitiv să se utilizeze cantitatea corespunzătoare din eșantion, proporția eșantionului p-hat = 560/1000 = 0,56. Spunem în acest caz că 0,56 este valoarea estimată pentru p și, în general, noi ‘eu Folosesc întotdeauna p-hat ca estimator de punct pentru p. (Rețineți, din nou, că atunci când vorbim despre valoarea specifică (0,56), folosim termenul estimare și, când vorbim în general despre statisticul p-hat, folosim termenul estimator. Iată un rezumat vizual al acestui exemplu :
Proprietățile dorite ale Estimatorilor de puncte
S-ar putea să simțiți că, din moment ce este atât de intuitiv, ați fi putut descoperi estimarea punctuală pe cont propriu, chiar și fără beneficiază de un curs întreg de statistici.Cu siguranță, intuiția noastră ne spune că cel mai bun estimator pentru media populației (mu, µ) ar trebui să fie x-bar, iar cel mai bun estimator pentru proporția populației p ar trebui să fie p-hat.
Teoria probabilității face mai mult decât aceasta; oferă de fapt o explicație (dincolo de intuiție) de ce x-bar și p-hat sunt alegerile bune ca estimatori de puncte pentru µ (mu) și, respectiv, p. În secțiunea Distribuții de eșantionare a unității de probabilitate, am aflat despre distribuția eșantionării x-bar și am constatat că, atâta timp cât eșantionul este prelevat la întâmplare, distribuția eșantionului este exact centrată la valoarea mediei populației.
Prin urmare, statistica noastră, x-bar, este un estimator imparțial pentru µ (mu). Orice medie a eșantionului particular se poate dovedi a fi mai mică decât media reală a populației sau s-ar putea dovedi a fi mai mare. Dar, pe termen lung, astfel de mijloace de eșantionare sunt „la țintă” prin faptul că nu vor subestima mai mult sau mai puțin des decât supraestimează.
De asemenea, am aflat că distribuția eșantionării proporției eșantionului, p -hat, este centrat la proporția populației p (atâta timp cât eșantionul este luat la întâmplare), făcând astfel p-hat un estimator imparțial pentru p.
După cum sa menționat în introducere, teoria probabilității joacă un rol esențial pe măsură ce stabilim rezultate pentru inferența statistică. Afirmația noastră deasupra eșantionului mediu și eșantion proporția sunt estimatori imparțiali este prima astfel de situație.
Importanța eșantionării și proiectării
Observați cât de importante sunt principiile eșantionării și proiectării pentru rezultatele noastre de mai sus: dacă eșantionul adulților din SUA în (exemplul 2 de pe pagina anterioară) nu a fost aleatoriu, ci a inclus în principal studenți, atunci 0,56 ar fi o estimare părtinitoare pentru p, proporția dintre toți adulții americani care cred că marijuana ar trebui legalizată.
Dacă proiectul sondajului ar fi defect, cum ar fi încărcarea întrebării cu un memento despre pericolele marijuanei care duc la droguri dure sau un memento despre beneficiile de marijuana pentru bolnavii de cancer, atunci 0,56 ar fi influențate pe partea inferioară sau respectiv pe cea înaltă.
Eroare standard și dimensiunea eșantionului
Nu numai că media eșantionului și proporția eșantionului sunt vizate atâta timp cât eșantioanele sunt aleatorii, dar precizia lor se îmbunătățește odată cu creșterea dimensiunii eșantionului.
Din nou, există două „straturi” aici pentru a explica acest lucru.
Reamintim că distribuția eșantionării eșantionului mediu x-bar este, așa cum am menționat anterior, centrată la media populației µ (mu) și are o eroare standard (deviația standard a statistic, x-bar) of
Ca rezultat, ca dimensiune a eșantionului n crește, distribuția de eșantionare a barei x devine mai puțin răspândită. Aceasta înseamnă că valorile x-bar care se bazează pe un eșantion mai mare sunt mai susceptibile de a fi mai apropiate de µ (mu) (așa cum ilustrează figura de mai jos):
În mod similar, deoarece distribuția de eșantionare a p-hat este centrată la p și are un
care scade pe măsură ce dimensiunea eșantionului crește, valorile p-hat sunt mai susceptibile de a fi mai apropiate de p atunci când dimensiunea eșantionului este mai mare.
Un alt estimator de puncte
Un alt exemplu de estimator de puncte este utilizarea deviației standard a eșantionului,
pentru a estima deviația standard a populației, σ (sigma).
În acest curs, nu ne vom preocupa de estimarea standardului populației abaterea de la sine, dar din moment ce vom înlocui deseori deviația standard (e) eșantionului cu σ (sigma) atunci când standardizăm media eșantionului, merită să subliniem că s este o unbia sed estimator pentru σ (sigma).
Dacă am fi împărțit la n în loc de n – 1 în estimatorul nostru pentru deviația standard a populației, atunci pe termen lung varianța eșantionului nostru ar fi vinovată de o ușoară subestimare.Împărțirea cu n – 1 atinge obiectivul de a face acest estimator de punct imparțial.
Motivul pentru care formula noastră pentru s, introdusă în unitatea Exploratory Data Analysis, implică împărțirea cu n – 1 în loc de cu n este faptul că dorim să folosim estimatori imparțiali în practică.
Să rezumăm
- Folosim p-hat (proporția eșantionului) ca estimator punctual pentru p (proporția populației). Este un estimator imparțial: distribuția sa pe termen lung este centrată la p atâta timp cât eșantionul este aleatoriu.
- Folosim x-bar (media eșantionului) ca estimator punctual pentru µ (mu, media populației). Este un estimator imparțial: distribuția sa pe termen lung este centrată la µ (mu) atâta timp cât eșantionul este aleatoriu.
- În ambele cazuri, cu cât este mai mare dimensiunea eșantionului, cu cât este mai precis estimatorul punctului. Cu alte cuvinte, cu cât eșantionul este mai mare, cu atât este mai probabil ca media eșantionului (proporția) să fie apropiată de media (proporția) populației necunoscute.
Estimarea intervalelor
Estimarea punctelor este simplă și intuitivă, dar și puțin problematică. Iată de ce:
Când estimăm μ (mu) prin eșantionul mediu x-bar, suntem aproape garanta că vom face un fel de eroare. Chiar dacă știm că valorile x-bar se încadrează în jurul valorii de μ (mu), este foarte puțin probabil ca valoarea x-bar să scadă exact la μ (mu).
Având în vedere că astfel de erori sunt un fapt de viață pentru estimările punctuale (prin simplul fapt că ne bazăm estimarea pe un eșantion care reprezintă o mică parte din populație), aceste estimări sunt în sine de utilitate limitată, cu excepția cazului în care suntem capabili să cuantificăm întinderea eroare de estimare. Estimarea intervalului abordează această problemă. Ideea din spatele estimării intervalului este, prin urmare, de a îmbunătăți estimările punctuale simple prin furnizarea de informații despre dimensiunea erorii atașate.
În această introducere, vom oferi exemple care vă vor oferi o intuiție solidă despre ideea de bază din spatele estimării intervalului.
EXEMPLU:
Luați în considerare exemplul pe care l-am discutat în secțiunea de estimare a punctelor:
Să presupunem că suntem interesați să studiem nivelurile de IQ ale studenților care participă la Smart University (SU). În special (deoarece nivelul IQ este o variabilă cantitativă), suntem interesați să estimăm μ (mu), nivelul mediu de IQ al tuturor studenților din SU. A fost ales un eșantion aleatoriu de 100 de studenți SU, iar nivelul lor (eșantion) de IQ a fost de 115 (x-bar).
În estimarea punctului am folosit x-bar = 115 ca estimare punctuală pentru μ (mu). Cu toate acestea, nu aveam nicio idee despre care ar putea fi eroarea de estimare implicată într-o astfel de estimare. Estimarea intervalului face estimarea punctului cu un pas mai departe și spune ceva de genul:
„Sunt încrezător în 95% că, folosind estimarea punctuală x-bar = 115 pentru a estima μ (mu), nu mai sunt Cu alte cuvinte, am încredere de 95% că μ (mu) este în limita a 3 din 115 sau între 112 (115 – 3) și 118 (115 + 3). „
Totuși un alt mod de a spune același lucru este: sunt 95% încrezător că μ (mu) este undeva în (sau acoperit de) intervalul (112.118). (Comentariu: În acest moment nu ar trebui să vă faceți griji sau să încercați să vă dați seama , cum am obținut aceste numere. Vom face asta mai târziu. Tot ce vrem să facem aici este să ne asigurăm că înțelegeți ideea.)
Rețineți că în timp ce estimarea punctelor a furnizat doar un număr ca estimare pentru μ (mu) de 115, estimarea intervalului furnizează un interval întreg de „valori plauzibile” pentru μ (mu) (între 112 și 118) și, de asemenea, atașează nivelul de încredere că acest interval include într-adevăr valoarea μ (mu) la estimarea noastră (în exemplul nostru, încredere de 95%). Intervalul (112.118) este, prin urmare, numit „un interval de încredere de 95% pentru μ (mu)”.
Să vedem un alt exemplu:
EXEMPLU:
Să luăm în considerare al doilea exemplu din secțiunea de estimare punctuală.
Să presupunem că suntem interesați de opiniile adulților americani cu privire la legalizarea utilizării marijuana. În special, suntem interesați de parametrul p, proporția adulților americani care consideră că marijuana ar trebui legalizată.
Să presupunem că un sondaj de 1.000 de adulți americani constată că 560 dintre ei consideră că marijuana ar trebui legalizată.
Dacă am dori să estimăm p, proporția populației, cu un singur număr pe baza eșantionului, ar avea sens intuitiv să se utilizeze cantitatea corespunzătoare din eșantion, proporția eșantionului p-hat = 560/1000 = 0,56.
Estimarea intervalului ar face acest lucru un pas mai departe și ar spune ceva cum ar fi:
„Sunt încrezător 90% că folosind 0,56 pentru a estima proporția reală a populației, p, sunt oprit cu (sau, am o eroare de) nu mai mult de 0,03 (sau 3 puncte procentuale). Cu alte cuvinte, am încredere de 90% că valoarea reală a lui p este undeva între 0.53 (0,56 – 0,03) și 0,59 (0,56 + 0,03). ”
Un alt mod de a spune acest lucru este:„ Sunt încrezător în 90% că p este acoperit de interval (0,53, 0,59). ”
În acest exemplu, (0.53, 0.59) este un interval de încredere de 90% pentru p.
Să rezumăm
Cele două exemple ne-au arătat că ideea din spatele estimării intervalului este, în loc de a furniza doar un număr pentru estimarea unui parametru necunoscut de interes, să furnizeze un interval de valori plauzibile ale parametrului plus un nivel de încredere că valoarea parametrului este acoperită de acest interval.
Acum vom merge mai în detaliu și vom afla cum aceste intervale de încredere sunt create și interpretate în context. După cum veți vedea, ideile care au fost dezvoltate în secțiunea „Distribuții de eșantionare” din unitatea Probabilitate va fi, din nou, foarte important. Reamintim că, pentru estimarea punctelor, înțelegerea distribuțiilor de eșantionare duce la verificarea faptului că statisticile noastre sunt imparțiale și ne oferă o formulă precisă pentru eroarea standard a statisticilor noastre.
Începem prin a discuta intervalele de încredere pentru media populației μ (mu) și apoi discutați intervalele de încredere pentru proporția populației p.
Etichetat ca: CO-4, Estimare, Estimator, Interval Estimare, LO 4.29, Parametru, Estimare punctuală, Estimator punct, mărimea eșantionului, eșantionarea, distribuția eșantionării, eroare standard a unei statistici, statistică, proiectarea studiului, fără prejudecăți