- Introducción
- Estimación puntual
- Propiedades deseadas de un punto Estimadores
- Importancia del muestreo y el diseño
- Error estándar y tamaño de la muestra
- Otro estimador puntual (desviación estándar muestral)
- Resumen del punto Estimación
- Introducción a la estimación de intervalos
- Resumamos
Introducción
En nuestra Introducción a la inferencia estimaciones puntuales definidas e inte estimaciones de rval.
- En la estimación puntual, estimamos un parámetro desconocido utilizando un solo número que se calcula a partir de los datos de muestra.
- En el intervalo estimación, estimamos un parámetro desconocido usando un intervalo de valores que probablemente contenga el valor verdadero de ese parámetro (y establecemos cuán seguros estamos de que este intervalo realmente captura el valor verdadero del parámetro).
En esta sección, presentaremos el concepto de intervalo de confianza y aprenderemos a calcular los intervalos de confianza para las medias y proporciones de población (cuando se cumplen ciertas condiciones).
En la Unidad 4B, ver que los intervalos de confianza son útiles siempre que deseamos usar datos para estimar un parámetro de población desconocido, incluso cuando este parámetro se estima usando múltiples variables (como nuestros casos: CC, CQ, QQ).
Por ejemplo , podemos construir intervalos de confianza para la pendiente de una ecuación de regresión o el coeficiente de correlación. Al hacerlo, siempre usamos nuestros datos para proporcionar una estimación de intervalo para un parámetro de población desconocido (la pendiente VERDADERA o el coeficiente de correlación VERDADERO).
Estimación puntual
La estimación puntual es la forma de inferencia estadística en la que, en función de los datos de la muestra, estimamos el parámetro desconocido de interés utilizando un solo valor (de ahí el nombre de estimación puntual). Como ilustran los dos ejemplos siguientes, esta forma de inferencia es bastante intuitiva.
EJEMPLO:
Supongamos que estamos interesados en estudiar los niveles de CI de los estudiantes de Smart University (SU). En particular (dado que el nivel de CI es una variable cuantitativa), estamos interesados en estimar µ (mu), el nivel de CI medio de todos los estudiantes de SU.
Se eligió una muestra aleatoria de 100 estudiantes de SU, y se encontró que su nivel de CI medio (muestra) era 115 (barra x).
Si quisiéramos estimar µ (mu), el nivel de CI medio de la población, mediante un solo número basado en la muestra , tendría sentido intuitivo usar la cantidad correspondiente en la muestra, la media muestral que es 115. Decimos que 115 es la estimación puntual de µ (mu) y, en general, siempre usaremos la media muestral (x -bar) como estimador puntual de µ (mu). (Tenga en cuenta que cuando hablamos del valor específico (115), usamos el término estimación, y cuando hablamos en general de la barra x estadística, usamos el término estimador. La siguiente figura resume este ejemplo:
Aquí hay otro ejemplo.
EJEMPLO:
Supongamos que estamos interesados en las opiniones de los adultos estadounidenses sobre la legalización del uso de la marihuana. En particular, estamos interesados en el parámetro p, la proporción de Adultos estadounidenses que creen que la marihuana debería ser legalizada.
Suponga que una encuesta de 1,000 adultos estadounidenses encuentra que 560 de ellos creen que la marihuana debería legalizarse. Si quisiéramos estimar p, la proporción de la población, usando un solo en la muestra, tendría sentido intuitivo usar la cantidad correspondiente en la muestra, la proporción muestral p-hat = 560/1000 = 0.56. Decimos en este caso que 0.56 es la estimación puntual para p, y en general, yo Siempre uso p-hat como estimador puntual para p. (Note, nuevamente, que cuando hablamos del valor específico (0.56), usamos el término estimación, y cuando hablamos en general del estadístico p-hat, usamos el término estimador. Aquí hay un resumen visual de este ejemplo :
Propiedades deseadas de los estimadores de puntos
Es posible que sienta que, dado que es tan intuitivo, podría haber descubierto la estimación de puntos por su cuenta, incluso sin el beneficio de un curso completo de estadística.Ciertamente, nuestra intuición nos dice que el mejor estimador para la media poblacional (mu, µ) debería ser x-bar, y el mejor estimador para la proporción poblacional p debería ser p-hat.
La teoría de la probabilidad hace más que esto; en realidad, da una explicación (más allá de la intuición) por qué x-bar y p-hat son las buenas opciones como estimadores puntuales para µ (mu) yp, respectivamente. En la sección Distribuciones muestrales de la unidad de probabilidad, aprendimos sobre la distribución muestral de la barra x y descubrimos que siempre que se tome una muestra al azar, la distribución de las medias muestrales se centra exactamente en el valor de la media poblacional.
Por lo tanto, se dice que nuestra estadística, x-bar, es un estimador insesgado de µ (mu). Cualquier media muestral en particular puede resultar menor que la media real de la población, o puede resultar ser mayor. Pero a largo plazo, tales medias muestrales están «en el objetivo» en el sentido de que no subestimarán más o menos a menudo de lo que sobrestiman.
Asimismo, aprendimos que la distribución muestral de la proporción muestral, p -es decir, se centra en la proporción de población p (siempre que la muestra se tome al azar), por lo que p-hat es un estimador insesgado para p.
Como se indicó en la introducción, la teoría de la probabilidad juega un papel esencial cuando establecemos resultados para la inferencia estadística. Nuestra afirmación anterior a esa media muestral y muestra proporción son estimadores insesgados es el primer ejemplo de este tipo.
Importancia del muestreo y el diseño
Observe la importancia de los principios de muestreo y diseño para nuestros resultados anteriores: si la muestra de adultos de EE. UU. en (ejemplo 2 en la página anterior) no fue aleatorio, sino que incluyó predominantemente a estudiantes universitarios, entonces 0.56 sería una estimación sesgada para p, la proporción de todos los adultos estadounidenses que creen que la marihuana debería ser legalizada.
Si el diseño de la encuesta fuera defectuoso, como cargar la pregunta con un recordatorio sobre los peligros de la marihuana que conduce a drogas duras, o un recordatorio sobre los beneficios de marihuana para pacientes con cáncer, entonces 0.56 estaría sesgado en el lado bajo o alto, respectivamente.
Error estándar y tamaño de la muestra
No solo la media y la proporción de la muestra están en el objetivo siempre que las muestras sean aleatorias, sino que su precisión mejora a medida que aumenta el tamaño de la muestra.
De nuevo, aquí hay dos «capas» para explicar esto.
Recuerde que la distribución muestral de la barra x de la media muestral está, como mencionamos antes, centrada en la media poblacional µ (mu) y tiene un error estándar (desviación estándar de la estadística, barra x) de
Como resultado, como el tamaño de la muestra n aumenta, la distribución muestral de x-bar se dispersa menos. Esto significa que los valores de x-bar que se basan en una muestra más grande tienen más probabilidades de estar más cerca de µ (mu) (como ilustra la figura siguiente):
De manera similar, dado que la distribución muestral de p-hat está centrada en p y tiene un
que disminuye a medida que aumenta el tamaño de la muestra, es más probable que los valores de p-hat estén más cerca de p cuando el tamaño de la muestra es mayor.
Otro estimador de puntos
Otro ejemplo de un estimador de puntos es usar la desviación estándar de la muestra,
para estimar la desviación estándar de la población, σ (sigma).
En este curso, no nos ocuparemos de estimar el estándar de la población desviación por sí misma, pero dado que a menudo sustituiremos la desviación estándar muestral por σ (sigma) al estandarizar la media muestral, vale la pena señalar que s es una desviación estándar de la muestra sed estimador para σ (sigma).
Si hubiéramos dividido por n en lugar de n – 1 en nuestro estimador de desviación estándar de población, entonces, a largo plazo, nuestra varianza muestral sería culpable de una ligera subestimación.La división por n – 1 logra el objetivo de hacer que este estimador puntual sea insesgado.
La razón por la que nuestra fórmula para s, introducida en la unidad de Análisis de datos exploratorios, implica la división por n – 1 en lugar de por n es la hecho que deseamos usar estimadores insesgados en la práctica.
Resumamos
- Usamos p-hat (proporción de la muestra) como un estimador puntual para p (proporción de población). Es un estimador insesgado: su distribución a largo plazo se centra en p siempre que la muestra sea aleatoria.
- Usamos x-bar (media de la muestra) como estimador puntual para µ (mu, media poblacional). Es un estimador insesgado: su distribución a largo plazo se centra en µ (mu) siempre que la muestra sea aleatoria.
- En ambos casos, cuanto mayor sea el tamaño de la muestra, cuanto más preciso sea el estimador puntual. En otras palabras, cuanto mayor sea el tamaño de la muestra, más probable es que la media de la muestra (proporción) esté cerca de la media (proporción) de la población desconocida.
Estimación de intervalo
La estimación de puntos es simple e intuitiva, pero también un poco problemática. He aquí el motivo:
Cuando estimamos μ (mu) por la barra x media de la muestra, es casi seguro que cometemos algún tipo de error. Aunque sabemos que los valores de x-bar caen alrededor de μ (mu), es muy poco probable que el valor de x-bar caiga exactamente en μ (mu).
Dado que tales errores son Una realidad para las estimaciones puntuales (por el mero hecho de que basamos nuestra estimación en una muestra que es una pequeña fracción de la población), estas estimaciones son en sí mismas de utilidad limitada, a menos que podamos cuantificar el alcance de la error de estimación. La estimación de intervalo aborda este problema. La idea detrás de la estimación de intervalo es, por lo tanto, mejorar las estimaciones puntuales simples proporcionando información sobre el tamaño del error adjunto.
En esta introducción, proporcionaremos ejemplos que le darán una sólida intuición acerca de la idea básica detrás de la estimación de intervalo.
EJEMPLO:
Considere el ejemplo que discutimos en la sección de estimación de puntos:
Supongamos que estamos interesados en estudiar los niveles de CI de los estudiantes que asisten a Smart University (SU). En particular (dado que el nivel de CI es una variable cuantitativa), nos interesa estimar μ (mu), el nivel de CI medio de todos los estudiantes de SU. Se eligió una muestra aleatoria de 100 estudiantes de SU y se encontró que su nivel de CI medio (muestra) era de 115 (barra x).
En la estimación puntual usamos x-bar = 115 como estimación puntual para μ (mu). Sin embargo, no teníamos idea de cuál podría ser el error de estimación involucrado en tal estimación. La estimación de intervalos lleva la estimación puntual un paso más allá y dice algo como:
«Tengo un 95% de confianza en que al usar la estimación puntual x-bar = 115 para estimar μ (mu), no me equivoco más menos de 3 puntos de CI. En otras palabras, estoy 95% seguro de que μ (mu) está dentro de 3 de 115, o entre 112 (115 – 3) y 118 (115 + 3) «.
Aún otra forma de decir lo mismo es: estoy 95% seguro de que μ (mu) está en algún lugar (o cubierto por) el intervalo (112,118). (Comentario: en este punto, no debe preocuparse por, o tratar de averiguar , cómo obtuvimos estos números. Lo haremos más tarde. Todo lo que queremos hacer aquí es asegurarnos de que comprenda la idea).
Tenga en cuenta que, si bien la estimación puntual proporcionó solo un número como una estimación de μ (mu) de 115, la estimación de intervalo proporciona un intervalo completo de «valores plausibles» para μ (mu) (entre 112 y 118), y también adjunta el nivel de nuestra confianza de que este intervalo de hecho incluye el valor de μ (mu) a nuestra estimación (en nuestro ejemplo, 95% de confianza). Por lo tanto, el intervalo (112,118) se denomina «un intervalo de confianza del 95% para μ (mu)».
Veamos otro ejemplo:
EJEMPLO:
Consideremos el segundo ejemplo de la sección de estimación de puntos.
Supongamos que estamos interesados en las opiniones de los adultos estadounidenses sobre la legalización del uso de Marihuana. En particular, estamos interesados en el parámetro p, la proporción de adultos estadounidenses que creen que la marihuana debería ser legalizada.
Supongamos que una encuesta de 1,000 adultos estadounidenses encuentra que 560 de ellos creen que la marihuana debería ser legalizada.
Si quisiéramos estimar p, la proporción de la población, por un solo número basado en la muestra, tendría sentido intuitivo usar la cantidad correspondiente en la muestra, la proporción de muestra p-hat = 560/1000 = 0.56.
La estimación de intervalo llevaría esto un paso más allá y diría algo como:
«Estoy 90% seguro de que al usar 0.56 para estimar la proporción de población real, p, estoy fuera de (o tengo un error de) no más de 0.03 (o 3 puntos porcentuales). En otras palabras, tengo un 90% de confianza en que el valor real de p está entre 0.53 (0,56 – 0,03) y 0,59 (0,56 + 0,03) ”.
Otra forma de decir esto es:» Tengo un 90% de confianza en que p está cubierto por el intervalo (0,53, 0,59) «.
En este ejemplo, (0.53, 0.59) es un intervalo de confianza del 90% para p.
Resumamos
Los dos ejemplos nos mostraron que la idea detrás de la estimación de intervalo es, en lugar de proporcionar solo un número para estimar un parámetro desconocido de interés, proporcionar un intervalo de valores plausibles del parámetro más un nivel de confianza de que el valor del parámetro está cubierto por este intervalo.
Ahora vamos a entrar en más detalles y aprender cómo estos intervalos de confianza se crean e interpretan en contexto. Como verá, las ideas que se desarrollaron en la sección «Distribuciones de muestreo» de la unidad de probabilidad será, de nuevo, muy importante. Recuerde que para la estimación puntual, nuestra comprensión de las distribuciones muestrales conduce a la verificación de que nuestras estadísticas son insesgadas y nos brinda fórmulas precisas para el error estándar de nuestras estadísticas.
Comenzaremos discutiendo los intervalos de confianza para media poblacional μ (mu), y luego discutir los intervalos de confianza para la proporción poblacional p.
Etiquetado como: CO-4, Estimación, Estimador, Estimación de intervalo, LO 4.29, Parámetro, Estimación puntual, Estimador de puntos, tamaño de muestra, muestreo, distribución de muestreo, error estándar de una estadística, estadística, diseño de estudio, imparcial