- はじめに
- 点推定
- 点の望ましい特性推定量
- サンプリングと設計の重要性
- 標準誤差とサンプルサイズ
- 別の点推定量(サンプル標準偏差)
- 点の要約推定
- 間隔推定の概要
- 要約しましょう
はじめに
推論の概要では、定義された点推定と統合rval推定。
- 点推定では、サンプルデータから計算された単一の数値を使用して未知のパラメーターを推定します。
- 間隔内推定では、そのパラメーターの真の値を含む可能性が高い値の間隔を使用して未知のパラメーターを推定します(そして、この間隔が実際にパラメーターの真の値をキャプチャすることの信頼度を示します)。
このセクションでは、信頼区間の概念を紹介し、母集団の平均と母集団の比率(特定の条件が満たされた場合)の信頼区間の計算方法を学習します。
ユニット4Bでは、信頼区間は、未知の母集団パラメーターを推定するためにデータを使用する場合は常に、このパラメーターが複数の変数(CC、CQ、QQなど)を使用して推定される場合でも役立つことを確認してください。
たとえば、 、回帰方程式の勾配または相関係数の信頼区間を構築できます。そうすることで、私たちは常にデータを使用して、未知の母集団パラメーター(TRUE勾配またはTRUE相関係数)の間隔推定を提供します。
点推定
点推定は、サンプルデータに基づいて、未知のパラメータを推定する統計的推論の形式です。単一の値を使用する対象(したがって、名前の点推定)。次の2つの例が示すように、この形式の推論は非常に直感的です。
例:
勉強に興味があるとします。スマート大学(SU)の学生のIQレベル。特に(IQレベルは量的変数であるため)、SUのすべての学生の平均IQレベルであるµ(mu)を推定することに関心があります。
100人のSU学生のランダムサンプルが選択されました。そして、それらの(サンプル)平均IQレベルは115(x-bar)であることがわかりました。
µ(mu)、母集団の平均IQレベルを、サンプルに基づく単一の数値で推定したい場合、サンプル内の対応する量、つまり115のサンプル平均を使用することは直感的に理解できます。115はµ(mu)の推定点であり、通常は常にサンプル平均(x -bar)µ(mu)の点推定器として。 (特定の値(115)について話すときは、推定という用語を使用し、統計xバーについて一般的に話すときは、推定という用語を使用することに注意してください。次の図は、この例を要約したものです。
別の例を示します。
例:
マリファナの使用を合法化することに関する米国の成人の意見に関心があるとします。特に、パラメータp、マリファナが合法化されるべきだと信じている米国の成人
1,000人の米国の成人の世論調査で、そのうち560人がマリファナが合法化されるべきだと信じていることがわかったとします。サンプルでは、サンプル内の対応する量、サンプル比率p-hat = 560/1000 = 0.56を使用することは直感的に理解できます。この場合、0.56がpの推定点であり、一般に、 ‘l lは常にpの点推定量としてp-hatを使用します。 (繰り返しになりますが、特定の値(0.56)について話すときは推定という用語を使用し、統計p-hatについて一般的に話すときは、推定という用語を使用します。この例の視覚的な要約を次に示します。 :
点推定器の望ましいプロパティ
非常に直感的であるため、点推定がなくても、自分で点推定を理解できたと感じるかもしれません。統計におけるコース全体の利点。確かに、私たちの直感によると、母平均(mu、µ)の最良の推定量はxバーであり、母比率pの最良の推定量はp-hatである必要があります。
確率論はこれ以上のことを行います。それは実際に(直感を超えて)x-barとp-hatがそれぞれµ(mu)とpの点推定量として良い選択である理由を説明しています。確率ユニットのサンプリング分布セクションで、xバーのサンプリング分布について学習し、サンプルがランダムに取得される限り、サンプル平均の分布は母集団平均の値に正確に集中することがわかりました。
したがって、私たちの統計であるx-barは、µの偏りのない推定値であると言われています。 (mu)。特定の標本平均は、実際の母平均よりも小さい場合もあれば、多い場合もあります。しかし、長期的には、そのようなサンプル平均は、過大評価するよりも多かれ少なかれ過小評価しないという点で「目標どおり」です。
同様に、サンプル比率のサンプリング分布p -hatは、母比率pを中心としているため(サンプルがランダムに取得されている限り)、p-hatはpの不偏推定量になります。
冒頭で述べたように、統計的推論の結果を確立する際には、確率理論が重要な役割を果たします。そのサンプルの平均とサンプルを超える主張比率は不偏推定量です。
サンプリングと設計の重要性
上記の結果にとって、サンプリングと設計の原則がいかに重要であるかに注意してください。米国の成人のサンプルの場合in(前のページの例2)はランダムではなく、主に大学生が含まれていたため、0.56はpの偏りのある推定値になります。マリファナが合法化されるべきであると信じているすべての米国の成人のうち。
調査の設計に欠陥がある場合、たとえば、マリファナがハードドラッグにつながる危険性についてのリマインダー、または利点についてのリマインダーを質問にロードする癌患者のマリファナの場合、0.56はそれぞれローサイドまたはハイサイドにバイアスされます。
標準誤差とサンプルサイズ
サンプルがランダムである限り、サンプルの平均とターゲット上のサンプル比率が向上するだけでなく、サンプルサイズが大きくなるにつれて精度が向上します。
ここでも、これを説明するための2つの「レイヤー」があります。
サンプル平均xバーのサンプリング分布は、前述のように、母平均µ(mu)を中心とし、標準誤差(の標準偏差)があることを思い出してください。統計、xバー)の
結果として、サンプルサイズとしてnが増加すると、xバーのサンプリング分布の広がりが少なくなります。これは、より大きなサンプルに基づくxバーの値がµ(mu)に近くなる可能性が高いことを意味します(下の図が示すように):
同様に、p-hatのサンプリング分布はpを中心とし、
サンプルサイズが大きくなると減少しますが、サンプルサイズが大きくなるとp-hatの値はpに近づく可能性が高くなります。
別の点推定器
点推定器の別の例は、サンプルの標準偏差を使用することです。
母標準偏差σ(シグマ)を推定します。
このコースでは、母標準偏差の推定には関与しません。偏差はそれ自体のためですが、サンプルの平均を標準化するときに、σ(シグマ)の代わりにサンプルの標準偏差(s)を使用することが多いため、sはバイアスではないことを指摘する価値があります。 σ(シグマ)のsed推定量。
母標準偏差の推定量でn– 1ではなくnで割った場合、長期的には、標本分散はわずかに過小評価されます。n – 1による除算は、この点推定量を不偏にするという目標を達成します。
探索的データ分析ユニットで導入されたsの式が、nではなくn –1による除算を含む理由は実際には不偏推定量を使用したいという事実。
要約しましょう
- p(母比率)の点推定量としてp-hat(サンプル比率)を使用します。これは不偏推定量です。サンプルがランダムである限り、その長期分布はpを中心とします。
- 点推定量としてxバー(サンプル平均)を使用します。 µ(mu、母平均)の場合。これは不偏推定量です。サンプルがランダムである限り、その長期分布はµ(mu)を中心とします。
- どちらの場合も、サンプルサイズが大きいほど、点推定量はより正確です。つまり、サンプルサイズが大きいほど、サンプル平均(比率)が未知の母平均(比率)に近い可能性が高くなります。
区間推定
点推定は単純で直感的ですが、少し問題もあります。その理由は次のとおりです。
サンプルの平均xバーでμ(mu)を推定すると、なんらかのエラーが発生することがほぼ保証されます。 x-barの値がμ(mu)付近にあることはわかっていますが、x-barの値が正確にμ(mu)に下がる可能性はほとんどありません。
このようなエラーがあるとすると、点推定の現実(母集団のごく一部である1つのサンプルに基づいて推定を行っているという事実による)、これらの推定は、その範囲を定量化できない限り、それ自体では有用性が限られています。推定誤差。区間推定はこの問題に対処します。したがって、区間推定の背後にある考え方は、添付されたエラーのサイズに関する情報を提供することにより、単純な点推定を強化することです。
この紹介では、についての確かな直感を与える例を提供します。区間推定の背後にある基本的な考え方。
例:
点推定のセクションで説明した例を検討してください:
スマートユニバーシティ(SU)に通う学生のIQレベルの調査に関心があるとします。特に(IQレベルは量的変数であるため)、SUのすべての学生の平均IQレベルであるμ(mu)を推定することに関心があります。 100人のSU学生のランダムなサンプルが選択され、彼らの(サンプル)平均IQレベルは115(x-bar)であることがわかりました。
点推定では、μ(mu)の点推定としてx-bar = 115を使用しました。しかし、そのような推定に伴う推定誤差が何であるかはわかりませんでした。区間推定は、点推定をさらに一歩進めて、次のように言います。
「点推定x-bar = 115を使用してμ(mu)を推定することにより、私はこれ以上離れていないことを95%確信しています。 3 IQポイントよりも大きい。言い換えれば、μ(mu)が115の3以内、または112(115 – 3)から118(115 + 3)の間にあると95%確信しています。」
まだ同じことを別の言い方をすると、μ(mu)が区間(112,118)のどこかにある(またはカバーされている)と95%確信しています(コメント:この時点では、心配する必要はありません。 、これらの数値を取得した方法。後で行います。ここで実行したいのは、アイデアを理解していることを確認することだけです。)
点推定では、μの推定値として1つの数値しか提供されなかったことに注意してください。 (mu)が115の場合、区間推定はμ(mu)の「妥当な値」の間隔全体(112から118の間)を提供し、この間隔に実際にμ(mu)の値が含まれるという確信のレベルを次のように付加します。私たちの推定(この例では、95%の信頼度)。したがって、間隔(112,118)は「μ(mu)の95%信頼区間」と呼ばれます。
別の例を見てみましょう:
例:
点推定セクションの2番目の例を考えてみましょう。
米国の成人の使用の合法化に関する意見に関心があるとします。マリファナ。特に、マリファナを合法化する必要があると信じている米国の成人の割合であるパラメータpに関心があります。
米国の成人1,000人を対象にした調査で、そのうち560人がマリファナを合法化する必要があると考えているとします。
p、つまり母比率を1つの数値で推定したい場合サンプルに基づいて、サンプル内の対応する量、サンプル比率p-hat = 560/1000 = 0.56を使用することは直感的に理解できます。
間隔推定はこれをさらに一歩進めて、何かを言いますのように:
「私は90%の自信を持っています真の母比率pを推定するために0.56、私は0.03(または3パーセントポイント)以下でずれています(またはエラーがあります)。言い換えれば、私はpの実際の値が0の間のどこかにあると90%確信しています。53(0.56 – 0.03)および0.59(0.56 + 0.03)。」
これを言い換えると、「pが区間(0.53、0.59)でカバーされていると90%確信しています。」
この例では、(0.53、0.59)はpの90%信頼区間です。
要約しましょう
2つの例は次のことを示しています。区間推定の背後にある考え方は、対象の未知のパラメーターを推定するための1つの数値を提供するのではなく、パラメーターのもっともらしい値の間隔に加えて、パラメーターの値がこの間隔でカバーされるという信頼水準を提供することです。
次に、これらの信頼区間がどのように作成され、コンテキストで解釈されるかについて詳しく説明します。ご覧のとおり、確率ユニットの「サンプリング分布」セクションで開発されたアイデアです。繰り返しになりますが、非常に重要になります。点推定の場合、サンプリング分布を理解することで、統計が偏っていないことを確認し、統計の標準誤差の正確な式を得ることができます。
まず、人口平均μ(mu)、および後で人口比率pの信頼区間について説明します。
タグ付け:CO-4、推定、推定、間隔推定、LO 4.29、パラメーター、点推定、点推定器、サンプルサイズ、サンプリング、サンプリング分布、統計の標準誤差、統計、研究デザイン、偏りのない