- Introduction
- Estimation ponctuelle
- Propriétés souhaitées du point Estimateurs
- Importance de l’échantillonnage et de la conception
- Erreur standard et taille de l’échantillon
- Un autre estimateur ponctuel (écart type d’échantillon)
- Résumé du point Estimation
- Introduction à l’estimation d’intervalle
- Résumons
Introduction
Dans notre introduction à l’inférence, nous estimations ponctuelles définies et inte estimations rval.
- Dans l’estimation ponctuelle, nous estimons un paramètre inconnu à l’aide d’un seul nombre calculé à partir des données d’échantillon.
- Dans l’intervalle estimation, nous estimons un paramètre inconnu en utilisant un intervalle de valeurs qui est susceptible de contenir la vraie valeur de ce paramètre (et déclarons dans quelle mesure nous sommes convaincus que cet intervalle capture effectivement la vraie valeur du paramètre).
Dans cette section, nous allons introduire le concept d’intervalle de confiance et apprendre à calculer les intervalles de confiance pour les moyennes et les proportions de population (lorsque certaines conditions sont remplies).
Dans l’Unité 4B, nous allons voir que les intervalles de confiance sont utiles chaque fois que nous souhaitons utiliser des données pour estimer un paramètre de population inconnu, même lorsque ce paramètre est estimé à l’aide de plusieurs variables (comme nos cas: CC, CQ, QQ).
Par exemple , nous pouvons construire des intervalles de confiance pour la pente d’une équation de régression ou le coefficient de corrélation. Ce faisant, nous utilisons toujours nos données pour fournir une estimation d’intervalle pour un paramètre de population inconnu (la pente VRAI ou le coefficient de corrélation VRAI).
Estimation ponctuelle
L’estimation ponctuelle est la forme d’inférence statistique dans laquelle, sur la base des données de l’échantillon, nous estimons le paramètre inconnu d’intérêt en utilisant une valeur unique (d’où l’estimation du point de nom). Comme l’illustrent les deux exemples suivants, cette forme d’inférence est assez intuitive.
EXEMPLE:
Supposons que nous soyons intéressés par l’étude les niveaux de QI des étudiants de Smart University (SU). En particulier (puisque le niveau de QI est une variable quantitative), nous nous intéressons à l’estimation de µ (mu), le niveau de QI moyen de tous les étudiants de SU.
Un échantillon aléatoire de 100 étudiants de SU a été choisi, et leur niveau de QI moyen (échantillon) s’est avéré être de 115 (barre x).
Si nous voulions estimer µ (mu), le niveau de QI moyen de la population, par un seul nombre basé sur l’échantillon , il serait intuitif d’utiliser la quantité correspondante dans l’échantillon, la moyenne de l’échantillon qui est 115. Nous disons que 115 est l’estimation ponctuelle pour µ (mu), et en général, nous utiliserons toujours la moyenne de l’échantillon (x -bar) comme estimateur ponctuel pour µ (mu). (Notez que lorsque nous parlons de la valeur spécifique (115), nous utilisons le terme estimation, et lorsque nous parlons en général de la statistique x-bar, nous utilisons le terme estimateur. La figure suivante résume cet exemple:
Voici un autre exemple.
EXEMPLE:
Supposons que nous nous intéressions aux opinions des adultes américains concernant la légalisation de l’usage de la marijuana. En particulier, nous nous intéressons au paramètre p, la proportion de Adultes américains qui pensent que la marijuana devrait être légalisée.
Supposons qu’un sondage auprès de 1 000 adultes américains révèle que 560 d’entre eux pensent que la marijuana devrait être légalisée. Si nous voulions estimer p, la proportion de la population, en utilisant un seul sur l’échantillon, il serait intuitif d’utiliser la quantité correspondante dans l’échantillon, la proportion de l’échantillon p-hat = 560/1000 = 0,56. Nous disons dans ce cas que 0,56 est l’estimation ponctuelle de p, et en général, nous ‘l l utilise toujours p-hat comme estimateur ponctuel pour p. (Notez, encore une fois, que lorsque nous parlons de la valeur spécifique (0,56), nous utilisons le terme estimation, et lorsque nous parlons en général de la statistique p-hat, nous utilisons le terme estimateur. Voici un résumé visuel de cet exemple :
Propriétés souhaitées des estimateurs de points
Vous pouvez avoir l’impression que, comme il est si intuitif, vous auriez pu déterminer vous-même l’estimation de points, même sans bénéficier d’un cours complet de statistiques.Certes, notre intuition nous dit que le meilleur estimateur de la moyenne de population (mu, µ) devrait être x-bar, et le meilleur estimateur de la proportion de population p devrait être p-hat.
La théorie des probabilités fait plus que cela; cela explique en fait (au-delà de l’intuition) pourquoi x-bar et p-hat sont les bons choix comme estimateurs ponctuels pour µ (mu) et p, respectivement. Dans la section Distributions d’échantillonnage de l’unité de probabilité, nous avons découvert la distribution d’échantillonnage de x-bar et avons constaté que tant qu’un échantillon est prélevé au hasard, la distribution des moyennes de l’échantillon est exactement centrée sur la valeur de la moyenne de la population.
Notre statistique, x-bar, est donc dite un estimateur sans biais pour µ (mu). La moyenne d’un échantillon particulier peut s’avérer inférieure à la moyenne réelle de la population, ou elle peut s’avérer supérieure. Mais à long terme, ces moyennes d’échantillon sont «sur la cible» en ce qu’elles ne sous-estimeront pas plus ou moins souvent qu’elles ne surestiment.
De même, nous avons appris que la distribution d’échantillonnage de la proportion d’échantillon, p -que, est centré sur la proportion de population p (tant que l’échantillon est pris au hasard), faisant ainsi de p-hat un estimateur sans biais pour p.
Comme indiqué dans l’introduction, la théorie des probabilités joue un rôle essentiel lorsque nous établissons des résultats pour l’inférence statistique. Notre assertion au-dessus de cette moyenne et de cet échantillon proportion sont des estimateurs sans biais est le premier exemple de ce type.
Importance de l’échantillonnage et de la conception
Notez à quel point les principes d’échantillonnage et de conception sont importants pour nos résultats ci-dessus: si l’échantillon d’adultes américains dans (exemple 2 de la page précédente) n’était pas aléatoire, mais incluait plutôt des étudiants universitaires, alors 0,56 serait une estimation biaisée pour p, la proporti sur tous les adultes américains qui croient que la marijuana devrait être légalisée.
Si la conception de l’enquête était défectueuse, par exemple en chargeant la question avec un rappel sur les dangers de la marijuana conduisant à des drogues dures, ou un rappel sur les avantages de marijuana pour les patients cancéreux, alors 0,56 serait biaisé respectivement sur le côté faible ou élevé.
Erreur standard et taille de l’échantillon
Non seulement la moyenne de l’échantillon et la proportion de l’échantillon sont sur la cible tant que les échantillons sont aléatoires, mais leur précision s’améliore à mesure que la taille de l’échantillon augmente.
Encore une fois, il y a deux « couches » ici pour expliquer cela.
Rappelons que la distribution d’échantillonnage de la barre x moyenne de l’échantillon est, comme nous l’avons mentionné précédemment, centrée sur la moyenne de la population µ (mu) et a une erreur standard (écart-type de la statistique, x-bar) de
Par conséquent, la taille de l’échantillon n augmente, la distribution d’échantillonnage de x-bar est moins étalée. Cela signifie que les valeurs de x-bar basées sur un plus grand échantillon sont plus susceptibles d’être plus proches de µ (mu) (comme l’illustre la figure ci-dessous):
De même, puisque la distribution d’échantillonnage de p-hat est centrée sur p et a un
qui diminue à mesure que la taille de l’échantillon augmente, les valeurs de p-hat sont plus susceptibles d’être plus proches de p lorsque la taille de l’échantillon est plus grande.
Un autre estimateur ponctuel
Un autre exemple d’estimateur ponctuel est l’utilisation d’un échantillon d’écart type,
pour estimer l’écart-type de population, σ (sigma).
Dans ce cours, nous ne nous intéresserons pas à l’estimation de la norme de population l’écart pour lui-même, mais comme nous substituerons souvent l’écart-type de l’échantillon à σ (sigma) lors de la normalisation de la moyenne de l’échantillon, il convient de souligner que s est un unbia estimateur sed pour σ (sigma).
Si nous avions divisé par n au lieu de n – 1 dans notre estimateur de l’écart type de la population, alors à long terme, notre variance d’échantillon serait coupable d’une légère sous-estimation.La division par n – 1 atteint l’objectif de rendre cet estimateur ponctuel sans biais.
La raison pour laquelle notre formule pour s, introduite dans l’unité d’analyse exploratoire des données, implique une division par n – 1 au lieu de par n est la fait que nous souhaitons utiliser des estimateurs sans biais dans la pratique.
Résumons
- Nous utilisons p-hat (proportion d’échantillon) comme estimateur ponctuel pour p (proportion de population). C’est un estimateur sans biais: sa distribution à long terme est centrée sur p tant que l’échantillon est aléatoire.
- Nous utilisons x-bar (moyenne de l’échantillon) comme estimateur ponctuel pour µ (mu, moyenne de la population). C’est un estimateur sans biais: sa distribution à long terme est centrée sur µ (mu) tant que l’échantillon est aléatoire.
- Dans les deux cas, plus la taille de l’échantillon est grande, plus l’estimateur ponctuel est précis. En d’autres termes, plus la taille de l’échantillon est grande, plus il est probable que la moyenne de l’échantillon (proportion) soit proche de la moyenne inconnue de la population (proportion).
Estimation d’intervalle
L’estimation de points est simple et intuitive, mais aussi un peu problématique. Voici pourquoi:
Lorsque nous estimons μ (mu) par la barre x moyenne de l’échantillon, nous sommes presque assurés de faire une sorte d’erreur. Même si nous savons que les valeurs de x-bar tombent autour de μ (mu), il est très peu probable que la valeur de x-bar tombe exactement à μ (mu).
Étant donné que de telles erreurs sont une réalité pour les estimations ponctuelles (du simple fait que nous basons notre estimation sur un échantillon qui ne représente qu’une petite fraction de la population), ces estimations sont en elles-mêmes d’une utilité limitée, à moins que nous ne soyons en mesure de quantifier l’étendue de la erreur d’estimation. L’estimation d’intervalle résout ce problème. L’idée derrière l’estimation d’intervalle est donc d’améliorer les estimations ponctuelles simples en fournissant des informations sur la taille de l’erreur attachée.
Dans cette introduction, nous allons fournir des exemples qui vous donneront une intuition solide sur l’idée de base de l’estimation d’intervalle.
EXEMPLE:
Prenons l’exemple dont nous avons discuté dans la section estimation ponctuelle:
Supposons que nous soyons intéressés par l’étude des niveaux de QI des étudiants inscrits à Smart University (SU). En particulier (puisque le niveau de QI est une variable quantitative), nous nous intéressons à l’estimation de μ (mu), le niveau de QI moyen de tous les étudiants en SU. Un échantillon aléatoire de 100 étudiants SU a été choisi, et leur niveau de QI moyen (échantillon) s’est avéré être de 115 (barre x).
Dans l’estimation ponctuelle, nous avons utilisé x-bar = 115 comme estimation ponctuelle pour μ (mu). Cependant, nous n’avions aucune idée de ce que pouvait être l’erreur d’estimation impliquée dans une telle estimation. L’estimation par intervalle va encore plus loin et dit quelque chose comme:
« Je suis sûr à 95% qu’en utilisant l’estimation ponctuelle x-bar = 115 pour estimer μ (mu), je ne suis plus plus de 3 points de QI. En d’autres termes, je suis sûr à 95% que μ (mu) est compris entre 3 sur 115 ou entre 112 (115 – 3) et 118 (115 + 3). »
Pourtant une autre façon de dire la même chose est: je suis sûr à 95% que μ (mu) est quelque part dans (ou couvert par) l’intervalle (112,118). (Commentaire: À ce stade, vous ne devriez pas vous inquiéter ou essayer de comprendre , comment nous avons obtenu ces nombres. Nous le ferons plus tard. Tout ce que nous voulons faire ici, c’est nous assurer que vous comprenez l’idée.)
Notez que tandis que l’estimation ponctuelle ne fournissait qu’un seul nombre comme estimation de μ (mu) de 115, l’estimation d’intervalle fournit un intervalle entier de «valeurs plausibles» pour μ (mu) (entre 112 et 118), et attache également le niveau de confiance que cet intervalle inclut bien la valeur de μ (mu) à notre estimation (dans notre exemple, 95% de confiance). L’intervalle (112.118) est donc appelé « un intervalle de confiance à 95% pour μ (mu) ».
Regardons un autre exemple:
EXEMPLE:
Considérons le deuxième exemple de la section d’estimation ponctuelle.
Supposons que nous nous intéressions aux opinions des adultes américains concernant la légalisation de l’utilisation de En particulier, nous nous intéressons au paramètre p, la proportion d’adultes américains qui pensent que la marijuana devrait être légalisée.
Supposons qu’un sondage auprès de 1 000 adultes américains révèle que 560 d’entre eux pensent que la marijuana devrait être légalisée.
Si nous voulions estimer p, la proportion de la population, par un seul nombre sur la base de l’échantillon, il serait intuitif d’utiliser la quantité correspondante dans l’échantillon, la proportion de l’échantillon p-hat = 560/1000 = 0,56.
L’estimation par intervalle irait plus loin et dire quelque chose comme:
« Je suis convaincu à 90% qu’en utilisant 0,56 pour estimer la vraie proportion de la population, p, je suis hors de (ou, j’ai une erreur de) pas plus de 0,03 (ou 3 points de pourcentage). En d’autres termes, je suis convaincu à 90% que la valeur réelle de p se situe quelque part entre 0.53 (0,56 – 0,03) et 0,59 (0,56 + 0,03). »
Encore une autre façon de dire cela est:« Je suis sûr à 90% que p est couvert par l’intervalle (0,53, 0,59). »
Dans cet exemple, (0,53, 0,59) est un intervalle de confiance à 90% pour p.
Résumons
Les deux exemples nous ont montré que l’idée derrière l’estimation d’intervalle est, au lieu de fournir un seul nombre pour estimer un paramètre inconnu d’intérêt, de fournir un intervalle de valeurs plausibles du paramètre plus un niveau de confiance que la valeur du paramètre est couverte par cet intervalle.
Nous allons maintenant entrer plus en détail et apprendre comment ces intervalles de confiance sont créés et interprétés en contexte. Comme vous le verrez, les idées qui ont été développées dans la section « Distributions d’échantillonnage » de l’unité Probabilité sera, encore une fois, très important. Rappelons que pour l’estimation ponctuelle, notre compréhension des distributions d’échantillonnage conduit à vérifier que nos statistiques sont impartiales et nous donne des formules précises pour l’erreur standard de nos statistiques.
Nous allons commencer par discuter des intervalles de confiance pour le moyenne de la population μ (mu), et discuter plus tard des intervalles de confiance pour la proportion de la population p.
Étiqueté comme: CO-4, Estimation, Estimateur, Estimation d’intervalle, LO 4.29, Paramètre, Estimation ponctuelle, Estimateur ponctuel, taille de l’échantillon, échantillonnage, distribution d’échantillonnage, erreur standard d’une statistique, statistique, plan d’étude, non biaisé