- Introdução
- Estimativa de ponto
- Propriedades desejadas de ponto Estimadores
- Importância da amostragem e do projeto
- Erro padrão e tamanho da amostra
- Outro estimador de ponto (desvio padrão da amostra)
- Resumo do ponto Estimativa
- Introdução à estimativa de intervalo
- Vamos resumir
Introdução
Em nossa introdução à inferência, nós estimativas pontuais definidas e inte estimativas de rval.
- Na estimativa de ponto, estimamos um parâmetro desconhecido usando um único número que é calculado a partir dos dados da amostra.
- No intervalo estimativa, estimamos um parâmetro desconhecido usando um intervalo de valores que provavelmente conterá o valor verdadeiro desse parâmetro (e declaramos o quão confiantes estamos de que este intervalo realmente captura o valor verdadeiro do parâmetro).
Nesta seção, apresentaremos o conceito de intervalo de confiança e aprenderemos a calcular intervalos de confiança para médias populacionais e proporções populacionais (quando certas condições são atendidas).
Na Unidade 4B, iremos veja que os intervalos de confiança são úteis sempre que desejamos usar dados para estimar um parâmetro desconhecido da população, mesmo quando esse parâmetro é estimado usando várias variáveis (como nossos casos: CC, CQ, QQ).
Por exemplo , podemos construir intervalos de confiança para a inclinação de uma equação de regressão ou o coeficiente de correlação. Ao fazer isso, estamos sempre usando nossos dados para fornecer uma estimativa de intervalo para um parâmetro desconhecido da população (a inclinação VERDADEIRA ou o coeficiente de correlação VERDADEIRO).
Estimativa de ponto
A estimativa pontual é a forma de inferência estatística em que, com base nos dados da amostra, estimamos o parâmetro desconhecido de interesse usando um único valor (daí o nome estimativa de ponto). Como os dois exemplos a seguir ilustram, esta forma de inferência é bastante intuitiva.
EXEMPLO:
Suponha que estejamos interessados em estudar os níveis de QI dos alunos da Smart University (SU). Em particular (uma vez que o nível de QI é uma variável quantitativa), estamos interessados em estimar µ (mu), o nível médio de QI de todos os alunos da SU.
Uma amostra aleatória de 100 alunos da SU foi escolhida, e seu nível médio de QI (amostra) foi 115 (x-bar).
Se quiséssemos estimar µ (mu), o nível médio de QI da população, por um único número com base na amostra , faria sentido intuitivamente usar a quantidade correspondente na amostra, a média da amostra que é 115. Dizemos que 115 é a estimativa pontual para µ (mu) e, em geral, sempre usaremos a média da amostra (x -bar) como estimador de ponto para µ (mu). (Observe que quando falamos sobre o valor específico (115), usamos o termo estimativa, e quando falamos em geral sobre a estatística x-bar, usamos o termo estimador. A figura a seguir resume este exemplo:
Aqui está outro exemplo.
EXEMPLO:
Suponha que estejamos interessados nas opiniões dos adultos dos EUA em relação à legalização do uso de maconha. Em particular, estamos interessados no parâmetro p, a proporção de Adultos americanos que acreditam que a maconha deve ser legalizada.
Suponha que uma pesquisa com 1.000 adultos americanos descubra que 560 deles acreditam que a maconha deve ser legalizada. Se quiséssemos estimar p, a proporção da população, usando um único número na amostra, faria sentido intuitivamente usar a quantidade correspondente na amostra, a proporção da amostra p-hat = 560/1000 = 0,56. Dizemos, neste caso, que 0,56 é a estimativa pontual para p e, em geral, ‘eu Sempre uso p-hat como estimador de ponto para p. (Observe, novamente, que quando falamos sobre o valor específico (0,56), usamos o termo estimativa, e quando falamos em geral sobre a estatística p-hat, usamos o termo estimador. Aqui está um resumo visual deste exemplo :
Propriedades desejadas de estimadores de ponto
Você pode sentir que, por ser tão intuitivo, poderia ter descoberto a estimativa de ponto por conta própria, mesmo sem o benefício de um curso completo de estatística.Certamente, nossa intuição nos diz que o melhor estimador para a média da população (mu, µ) deve ser x-bar e o melhor estimador para a proporção da população p deve ser p-hat.
A teoria da probabilidade faz mais do que isso; na verdade, dá uma explicação (além da intuição) por que x-bar e p-hat são as boas escolhas como estimadores pontuais para µ (mu) e p, respectivamente. Na seção Distribuições de amostragem da unidade de probabilidade, aprendemos sobre a distribuição de amostragem de x-bar e descobrimos que, desde que uma amostra seja tirada aleatoriamente, a distribuição das médias da amostra é exatamente centrada no valor da média da população.
Nossa estatística, x-bar, é, portanto, considerada um estimador imparcial para µ (mu). Qualquer média de amostra específica pode acabar sendo menor do que a média da população real, ou pode ser maior. Mas, a longo prazo, essas médias amostrais estão “acertadas” no sentido de que não subestimarão com mais ou menos frequência do que superestimam.
Da mesma forma, aprendemos que a distribuição amostral da proporção da amostra, p -que, é centrado na proporção da população p (desde que a amostra seja tomada ao acaso), tornando p-hat um estimador imparcial para p.
Conforme afirmado na introdução, a teoria da probabilidade desempenha um papel essencial à medida que estabelecemos resultados para inferência estatística. Nossa afirmação acima dessa média e amostra proporção são estimadores imparciais é a primeira instância.
Importância da amostragem e design
Observe como os princípios de amostragem e design são importantes para os resultados acima: se a amostra de adultos dos EUA em (exemplo 2 na página anterior) não era aleatório, mas incluía predominantemente estudantes universitários, então 0,56 seria uma estimativa tendenciosa para p, a proporçãoi um de todos os adultos norte-americanos que acreditam que a maconha deve ser legalizada.
Se o desenho da pesquisa tiver falhas, como carregar a pergunta com um lembrete sobre os perigos da maconha que levam às drogas pesadas ou sobre os benefícios de maconha para pacientes com câncer, então 0,56 seria tendencioso para o lado baixo ou alto, respectivamente.
Erro padrão e tamanho da amostra
Não apenas a média da amostra e a proporção da amostra estão no alvo, desde que as amostras sejam aleatórias, mas sua precisão melhora conforme o tamanho da amostra aumenta.
Novamente, existem duas “camadas” aqui para explicar isso.
Lembre-se de que a distribuição da amostra da barra x média da amostra é, como mencionamos antes, centrada na média da população µ (mu) e tem um erro padrão (desvio padrão do estatística, barra x) de
Como resultado, como o tamanho da amostra n aumenta, a distribuição de amostragem de x-bar fica menos espalhada. Isso significa que os valores da barra x que são baseados em uma amostra maior têm mais probabilidade de estar mais próximos de µ (mu) (como a figura abaixo ilustra):
Da mesma forma, uma vez que a distribuição de amostragem de p-hat é centrada em p e tem um
que diminui à medida que o tamanho da amostra fica maior, os valores de p-hat têm mais probabilidade de estar mais próximos de p quando o tamanho da amostra é maior.
Outro estimador de ponto
Outro exemplo de um estimador de ponto é usar o desvio padrão da amostra,
para estimar o desvio padrão da população, σ (sigma).
Neste curso, não nos preocuparemos em estimar o padrão da população desvio por si só, mas uma vez que muitas vezes substituiremos o (s) desvio (s) padrão da amostra (s) por σ (sigma) ao padronizar a média da amostra, vale a pena ressaltar que s é um unbia estimador sed para σ (sigma).
Se tivéssemos dividido por n em vez de n – 1 em nosso estimador para desvio padrão da população, então, em longo prazo, nossa variância da amostra seria culpada de uma ligeira subestimação.A divisão por n – 1 cumpre o objetivo de tornar este estimador de ponto imparcial.
A razão pela qual nossa fórmula para s, introduzida na unidade de Análise Exploratória de Dados, envolve a divisão por n – 1 em vez de por n é o fato de que desejamos usar estimadores imparciais na prática.
Vamos resumir
- Usamos p-hat (proporção da amostra) como um estimador de ponto para p (proporção da população). É um estimador imparcial: sua distribuição de longo prazo é centrada em p, desde que a amostra seja aleatória.
- Usamos x-bar (média da amostra) como um estimador de ponto para µ (mu, média da população). É um estimador imparcial: sua distribuição de longo prazo é centrada em µ (mu), desde que a amostra seja aleatória.
- Em ambos os casos, quanto maior o tamanho da amostra, mais preciso é o estimador de ponto. Em outras palavras, quanto maior o tamanho da amostra, mais provável é que a média da amostra (proporção) esteja próxima da média desconhecida da população (proporção).
Estimativa de intervalo
A estimativa de ponto é simples e intuitiva, mas também um pouco problemática. Aqui está o porquê:
Quando estimamos μ (mu) pela média da amostra da barra x, é quase garantido que cometeremos algum tipo de erro. Mesmo sabendo que os valores da barra x caem em torno de μ (mu), é muito improvável que o valor da barra x caia exatamente em μ (mu).
Dado que tais erros são um fato da vida para estimativas pontuais (pelo mero fato de estarmos baseando nossa estimativa em uma amostra que é uma pequena fração da população), essas estimativas são em si mesmas de utilidade limitada, a menos que possamos quantificar a extensão do erro de estimativa. A estimativa de intervalo aborda esse problema. A ideia por trás da estimativa de intervalo é, portanto, melhorar as estimativas pontuais simples, fornecendo informações sobre o tamanho do erro anexado.
Nesta introdução, forneceremos exemplos que lhe darão uma intuição sólida sobre a ideia básica por trás da estimativa de intervalo.
EXEMPLO:
Considere o exemplo que discutimos na seção de estimativa de ponto:
Suponha que estamos interessados em estudar os níveis de QI dos alunos da Smart University (SU). Em particular (uma vez que o nível de QI é uma variável quantitativa), estamos interessados em estimar μ (mu), o nível médio de QI de todos os alunos na SU. Uma amostra aleatória de 100 alunos SU foi escolhida, e seu nível médio de QI (amostra) foi 115 (x-bar).
Na estimativa de ponto, usamos x-bar = 115 como a estimativa de ponto para μ (mu). No entanto, não tínhamos ideia de qual poderia ser o erro de estimativa envolvido em tal estimativa. A estimativa de intervalo leva a estimativa de ponto um passo adiante e diz algo como:
“Estou 95% confiante de que usando a estimativa de ponto x-bar = 115 para estimar μ (mu), não estou mais errado do que 3 pontos de QI. Em outras palavras, estou 95% confiante de que μ (mu) está dentro de 3 de 115, ou entre 112 (115 – 3) e 118 (115 + 3). ”
Ainda outra maneira de dizer a mesma coisa é: Estou 95% confiante de que μ (mu) está em algum lugar (ou coberto por) o intervalo (112,118). (Comentário: neste ponto, você não deve se preocupar, ou tentar descobrir , como obtivemos esses números. Faremos isso mais tarde. Tudo o que queremos fazer aqui é ter certeza de que você entendeu a ideia.)
Observe que, embora a estimativa de ponto fornecesse apenas um número como estimativa para μ (mu) de 115, a estimativa de intervalo fornece um intervalo inteiro de “valores plausíveis” para μ (mu) (entre 112 e 118), e também atribui o nível de nossa confiança de que esse intervalo de fato inclui o valor de μ (mu) para nossa estimativa (em nosso exemplo, 95% de confiança). O intervalo (112,118) é, portanto, denominado “um intervalo de confiança de 95% para μ (mu).”
Vejamos outro exemplo:
EXEMPLO:
Vamos considerar o segundo exemplo da seção de estimativa de pontos.
Suponha que estejamos interessados nas opiniões dos adultos norte-americanos sobre a legalização do uso de maconha. Em particular, estamos interessados no parâmetro p, a proporção de adultos nos EUA que acreditam que a maconha deve ser legalizada.
Suponha que uma pesquisa com 1.000 adultos nos EUA descubra que 560 deles acreditam que a maconha deve ser legalizada.
Se quiséssemos estimar p, a proporção da população, por um único número com base na amostra, faria sentido intuitivamente usar a quantidade correspondente na amostra, a proporção da amostra p-hat = 560/1000 = 0,56.
A estimativa de intervalo levaria isso um passo adiante e diria algo como:
“Estou 90% confiante de que, usando 0,56 para estimar a proporção real da população, p, estou errado em (ou tenho um erro de) não mais do que 0,03 (ou 3 pontos percentuais). Em outras palavras, estou 90% confiante de que o valor real de p está em algum lugar entre 0.53 (0,56 – 0,03) e 0,59 (0,56 + 0,03). ”
Outra maneira de dizer isso é:” Estou 90% confiante de que p é coberto pelo intervalo (0,53, 0,59). ”
Neste exemplo, (0,53, 0,59) é um intervalo de confiança de 90% para p.
Vamos resumir
Os dois exemplos nos mostraram que a ideia por trás da estimativa de intervalo é, em vez de fornecer apenas um número para estimar um parâmetro de interesse desconhecido, fornecer um intervalo de valores plausíveis do parâmetro mais um nível de confiança de que o valor do parâmetro é coberto por esse intervalo.
Agora vamos entrar em mais detalhes e aprender como esses intervalos de confiança são criados e interpretados no contexto. Como você verá, as ideias que foram desenvolvidas na seção “Distribuições de amostragem” da unidade de probabilidade será, novamente, muito importante. Lembre-se de que, para estimativa de pontos, nosso entendimento das distribuições de amostragem leva à verificação de que nossas estatísticas são imparciais e nos dá uma fórmula precisa para o erro padrão de nossas estatísticas.
Começaremos discutindo os intervalos de confiança para o média da população μ (mu) e, posteriormente, discutir os intervalos de confiança para a proporção da população p.
Marcado como: CO-4, Estimativa, Estimador, Estimativa de intervalo, LO 4,29, Parâmetro, Estimativa de ponto, Estimador de pontos, tamanho da amostra, amostragem, distribuição da amostra, erro padrão de uma estatística, estatística, desenho do estudo, imparcial