最終更新日:2019年8月8日
データの要約はわずかな統計値でデータサンプルのすべての値を説明する便利な方法。
平均と標準偏差は、ガウス分布でデータを要約するために使用されますが、意味がない場合や、意味がない場合があります。データサンプルに非ガウス分布がある場合は、誤解を招く可能性もあります。
このチュートリアルでは、特定のデータ分布を想定せずに、データサンプルの分布を説明するための5数要約を見つけます。
このチュートリアルを完了すると、次のことがわかります。
- 平均や標準偏差の計算などのデータの要約は、ガウス分布に対してのみ意味があります。
- 5数要約は、任意の分布のデータサンプルを記述するために使用できます。
- Pythonで5数要約を計算する方法。
ステップバイステップのチュートリアルとすべての例のPythonソースコードファイルを含む、私の新しい本「機械学習の統計」でプロジェクトを開始します。
始めましょう。
Pythonでデータの5つの数値の概要を計算する方法
写真:Masterbutler、一部の権利は留保されています。
チュートリアルの概要
このチュートリアルは4つのパートに分かれています。
- ノンパラメトリックデータの要約
- 5数要約
- 5数要約の計算方法
- 使用五数要約の概要
機械学習の統計についてサポートが必要ですか?
今すぐ無料の7日間の電子メールクラッシュコースを受講してください(サンプルコード付き)。
クリックしてサインアップし、コースの無料のPDF電子ブックバージョンも入手してください。
ダウンロード無料のミニコース
ノンパラメトリックデータ要約
データ要約手法は、分布を説明する方法を提供しますいくつかの重要な測定値を使用したデータの分析。
データ要約の最も一般的な例は、ガウス分布を持つデータの平均と標準偏差の計算です。これらの2つのパラメーターだけで、データの分布を理解して再作成できます。データの要約では、数十から数百万もの個々の観測値を圧縮できます。
問題は、ガウス分布を持たないデータの平均と標準偏差を簡単に計算できないことです。技術的には、これらの量を計算できますが、データ分布を要約していません。実際、それらは非常に誤解を招く可能性があります。
ガウス分布を持たないデータの場合、5数要約を使用してデータサンプルを要約できます。
5つ-数値要約
5数要約、または略して5数要約は、ノンパラメトリックデータ要約手法です。
これはTukey5数要約と呼ばれることもあります。 JohnTukeyによって推奨されたからです。あらゆる分布のデータのデータサンプルの分布を説明するために使用できます。
一般的な使用の標準的な要約として、5数要約は
— 37ページ、ロバストで探索的なデータ分析の理解、2000年。
5つの数字要約には、5つの要約統計量の計算が含まれます。つまり、次のとおりです。
- 中央値:サンプルの中間値。50パーセンタイルまたは2番目の四分位とも呼ばれます。
- 第1四分位:25パーセンタイル。
- 第3四分位数:75パーセンタイル。
- 最小:サンプル内の最小の観測値。
- 最大:サンプル内の最大の観測値。 。
四分位数は、順序付けられたデータサンプルを4つの同じサイズの部分に分割するのに役立つポイントでの観測値です。中央値、つまり第2四分位数は、順序付けられたデータサンプルを2つの部分に分割し、第1四分位数と第3四分位数は、これらの半分をそれぞれ4分の1に分割します。
パーセンタイルは、分割に役立つポイントでの観測値です。順序付けられたデータサンプルを100個の同じサイズの部分に分割します。四分位数は、多くの場合、パーセンタイルとしても表されます。
四分位数とパーセンタイル値はどちらも、任意の分布のデータサンプルで計算できるランク統計の例です。これらは、分布内のデータのどれだけが特定の観測値の後ろまたは前にあるかをすばやく要約するために使用されます。たとえば、観測値の半分は分布の中央値の後ろと前にあります。
四分位数は箱ひげ図でも計算されます。これは、データの分布をグラフィカルに要約するノンパラメトリック手法です。サンプル。
5数要約の計算方法
5数要約の計算には、各四分位数の観測値と、データサンプルからの最小および最大の観測値を見つけることが含まれます。
四分位数の順序付けられたデータサンプルに特定の値がない場合(たとえば、観測数が偶数で中央値を見つけようとしている場合)、最も近い2つの平均を計算できます。 2つの中央値などの値。
percentile()NumPy関数を使用して、Pythonで任意のパーセンタイル値を計算できます。この関数を使用して、1番目、2番目(中央値)、および3番目の四分位値を計算できます。この関数は、観測値の配列と浮動小数点値の両方を使用して、0から100の範囲で計算するパーセンタイルを指定します。複数のパーセンタイルを計算するためにパーセンタイル値のリストを取得することもできます。例:
1
|
四分位数=パーセンタイル(データ、)
|
デフォルトでは、この関数は、必要に応じて、次のような観測値間の線形補間(平均)を計算します。偶数の値を持つサンプルの中央値を計算する場合。
NumPy関数min()およびmax()を使用して、データサンプルの最小値と最大値を返すことができます。例:
1
|
data_min、data_max = data.min()、data.max()
|
これらすべてをまとめることができます。
以下の例では、0と1の間の均一な分布から抽出されたデータサンプルを生成し、5数要約を使用して要約します。
例を実行すると、データサンプルが生成され、5数要約が計算されます。サンプル分布を説明します。
観測値の広がりは予想に近く、25パーセンタイルで0.27、 50パーセンタイル、75パーセンタイルの場合は0.76で、それぞれ0.25、0.50、0.75の理想値に近い値です。
1
2
3
4
5
|
最小:0.000
Q1:0.277
中央値:0.532
Q3:0.766
最大:1.000
|
5数要約の使用
5数要約は、任意の分布のデータサンプルに対して計算できます。
これには、ガウス分布やガウスのような分布など、既知の分布を持つデータが含まれます
常に5数要約を計算し、分布を特定できる場合は、ガウスの平均や標準偏差など、分布固有の要約にのみ進むことをお勧めします。データは属します。
拡張機能
このセクションでは、調査したいチュートリアルを拡張するためのいくつかのアイデアを示します。
- 3つの例を五数要約を計算できる機械学習プロジェクト。
- ガウス分布を使用してデータサンプルを生成し、五数要約を計算します。
- 5を計算する関数を記述します。 -任意のデータサンプルの数値要約。
これらの拡張機能のいずれかを検討する場合は、ぜひお知らせください。
詳細情報
このセクションでは、さらに深く掘り下げたい場合に、このトピックに関するより多くのリソースを提供します。
書籍
- 堅牢で探索的なデータ分析について、2000年。
API
- numpy.percentile()API
- numpy.ndarray.min()API
- numpy.ndarray。max()API
記事
- Wikipediaの5数要約
- Wikipediaの五数要約
- Percentileウィキペディアで
要約
このチュートリアルでは、特定のデータ分布を想定せずにデータサンプルの分布を説明するための5数要約を発見しました。
具体的には、次のことを学びました。
- 平均や標準偏差の計算などのデータの要約は、ガウス分布に対してのみ意味があります。
- 5つの数値要約は、任意の分布のデータサンプルを記述するために使用できます。
- Pythonで5数要約を計算する方法。
質問がありますか?
以下のコメントで質問してください。できる限りお答えします。
機械学習のための統計を理解する!
統計の実用的な理解を深める
…次の行を記述してco de in python
新しいEbookでその方法を発見してください:
機械学習の統計的手法
次のようなトピックに関する自習チュートリアルを提供します:
仮説検定、相関、ノンパラメトリック統計、リサンプリングなど…
データを知識に変換する方法を発見する
学者をスキップします。結果だけ。
中身を見る