최종 업데이트 : 2019 년 8 월 8 일
데이터 요약 제공 통계적 값이 적은 데이터 샘플의 모든 값을 설명하는 편리한 방법입니다.
평균 및 표준 편차는 가우스 분포로 데이터를 요약하는 데 사용되지만 의미가 없거나 의미가 없을 수 있습니다. 데이터 샘플에 가우시안이 아닌 분포가있는 경우 오해의 소지가 있습니다.
이 자습서에서는 특정 데이터 분포를 가정하지 않고 데이터 샘플의 분포를 설명하는 5 자리 요약을 발견합니다.
이 자습서를 마치면 다음을 알 수 있습니다.
- 평균 및 표준 편차 계산과 같은 데이터 요약은 가우스 분포에서만 의미가 있습니다.
- 5 자리 요약은 모든 분포의 데이터 샘플을 설명하는 데 사용할 수 있습니다.
- Python에서 5 자리 요약을 계산하는 방법
단계별 자습서와 모든 예제에 대한 Python 소스 코드 파일이 포함 된 새로운 저서 Statistics for Machine Learning으로 프로젝트를 시작하십시오.
시작하겠습니다.
Python에서 데이터에 대한 5 자리 요약을 계산하는 방법
Photo by Masterbutler, some rights reserved.
튜토리얼 개요
이 튜토리얼은 4 개 부분으로 나뉩니다.
- 비모수 데이터 요약
- 5 자리 요약
- 5 자리 요약 계산 방법
- 사용 5 자리 요약 요약
머신 러닝 통계에 대한 도움이 필요하십니까?
지금 내 무료 7 일 이메일 충돌 과정을 수강하세요 (샘플 코드 포함).
가입하려면 클릭하고 과정의 무료 PDF Ebook 버전도 받으세요.
다운로드 무료 미니 코스
비모수 데이터 요약
데이터 요약 기술은 분포를 설명하는 방법을 제공합니다. 몇 가지 주요 측정을 사용하여 데이터를 분석합니다.
데이터 요약의 가장 일반적인 예는 가우스 분포를 갖는 데이터의 평균 및 표준 편차 계산입니다. 이 두 매개 변수만으로도 데이터 분포를 이해하고 다시 만들 수 있습니다. 데이터 요약은 수천 또는 수백만 개의 개별 관측치를 압축 할 수 있습니다.
문제는 가우스 분포가없는 데이터의 평균 및 표준 편차를 쉽게 계산할 수 없다는 것입니다. 기술적으로는 이러한 수량을 계산할 수 있지만 데이터 분포를 요약하지는 않습니다. 사실, 그것들은 매우 오해의 소지가 있습니다.
가우스 분포가없는 데이터의 경우 5 개 숫자 요약을 사용하여 데이터 샘플을 요약 할 수 있습니다.
5 -숫자 요약
5 자리 요약 또는 줄여서 5 자리 요약은 비모수 데이터 요약 기술입니다.
이는 Tukey 5- 숫자 요약이라고도합니다. John Tukey가 추천했기 때문입니다. 모든 분포가있는 데이터의 데이터 샘플 분포를 설명하는 데 사용할 수 있습니다.
일반적인 사용을위한 표준 요약으로 5 자리 요약은 다음을 제공합니다.
— 37 페이지, 강력한 탐색 데이터 분석 이해, 2000.
5 자리 숫자 요약에는 5 가지 요약 통계량 계산이 포함됩니다. 즉 :
- 중앙값 : 50 번째 백분위 수 또는 2 사 분위수라고도하는 표본의 중간 값입니다.
- 1 사 분위수 : 25 번째 백분위 수입니다.
- 3 분위수 : 75 번째 백분위 수입니다.
- 최소값 : 표본에서 가장 작은 관측 값입니다.
- 최대 값 : 표본에서 가장 큰 관측 값입니다. .
사 분위수는 정렬 된 데이터 샘플을 동일한 크기의 4 개 부분으로 분할하는 데 도움이되는 지점에서 관찰 된 값입니다. 중앙값 또는 2 사 분위수는 정렬 된 데이터 샘플을 두 부분으로 분할하고 1 사 분위수와 3 사 분위수는 각 절반을 4 분위수로 분할합니다.
백분위 수는 분할에 도움이되는 지점에서 관찰 된 값입니다. 정렬 된 데이터 샘플을 동일한 크기의 100 개 부분으로 나눕니다. 사 분위수는 종종 백분위 수로도 표현됩니다.
사 분위수와 백분위 수 값은 모두 분포가있는 데이터 샘플에서 계산할 수있는 순위 통계의 예입니다. 분포의 데이터가 주어진 관찰 값 뒤 또는 앞에 얼마나 많은지를 빠르게 요약하는 데 사용됩니다. 예를 들어, 관측치의 절반이 분포 중앙값의 뒤와 앞에 있습니다.
사 분위수는 데이터 분포를 그래픽으로 요약하는 비모수 적 방법 인 상자 및 수염 플롯에서도 계산됩니다. 견본.
5 자리 요약을 계산하는 방법
5 자리 요약을 계산하려면 각 사 분위수에 대한 관측치와 데이터 샘플에서 관측 된 최소 및 최대 값을 찾는 것이 포함됩니다.
사 분위수에 대한 정렬 된 데이터 샘플에 특정 값이없는 경우 (예 : 관측치 수가 짝수이고 중앙값을 찾으려고하는 경우) 가장 가까운 두 개의 평균을 계산할 수 있습니다. 두 개의 중간 값과 같은 값.
백분위 수 () NumPy 함수를 사용하여 Python에서 임의의 백분위 수 값을 계산할 수 있습니다. 이 함수를 사용하여 1 차, 2 차 (중앙값) 및 3 사 분위 값을 계산할 수 있습니다. 이 함수는 관측 값 배열과 부동 소수점 값을 모두 사용하여 0에서 100까지의 범위에서 계산할 백분위 수를 지정합니다. 또한 여러 백분위 수를 계산하기 위해 백분위 수 값 목록을 사용할 수도 있습니다. 예 :
1
|
사 분위수 = 백분위 수 (데이터,)
|
기본적으로이 함수는 다음과 같이 필요한 경우 관측치 간의 선형 보간 (평균)을 계산합니다. 값이 짝수 인 샘플에서 중앙값을 계산하는 경우
NumPy 함수 min () 및 max ()를 사용하여 데이터 샘플에서 가장 작은 값과 가장 큰 값을 반환 할 수 있습니다. 예 :
1
|
data_min, data_max = data.min (), data.max ()
|
이 모든 것을 통합 할 수 있습니다.
아래 예는 0과 1 사이의 균등 분포에서 추출한 데이터 샘플을 생성하고 5 자리 요약을 사용하여 요약합니다.
예제를 실행하면 데이터 샘플이 생성되고 5 자리 요약이 계산됩니다. 표본 분포를 설명 할 수 있습니다.
관측치의 산포가 기대치에 가깝다는 것을 알 수 있습니다. 50 번째 백분위 수, 75 번째 백분위 수는 0.76으로 이상적인 값인 각각 0.25, 0.50 및 0.75에 가깝습니다.
1
2
3
4
5
|
최소 : 0.000
Q1 : 0.277
중앙값 : 0.532
Q3 : 0.766
최대 : 1.000
|
5 자리 요약 사용
5 자리 요약은 모든 분포가있는 데이터 샘플에 대해 계산할 수 있습니다.
여기에는 Gaussian 또는 Gaussian 유사 분포와 같이 알려진 분포가있는 데이터가 포함됩니다.
항상 5 자리 요약을 계산하고 분포를 식별 할 수있는 경우 가우스에 대한 평균 및 표준 편차와 같은 분포 별 요약으로 이동하는 것이 좋습니다. 데이터가 속합니다.
확장 프로그램
이 섹션에서는 탐색 할 수있는 가이드를 확장하기위한 몇 가지 아이디어를 나열합니다.
- 5 자리 요약을 계산할 수있는 머신 러닝 프로젝트입니다.
- 가우스 분포로 데이터 샘플을 생성하고 5 자리 요약을 계산합니다.
- 5를 계산하는 함수를 작성합니다. -데이터 샘플에 대한 요약입니다.
이러한 확장 기능을 살펴 보신다면 알고 싶습니다.
추가 정보
이 섹션에서는 더 깊이 들어가고 싶은 경우 주제에 대한 더 많은 리소스를 제공합니다.
책
- 견고하고 탐색적인 데이터 분석 이해, 2000.
API
- numpy.percentile () API
- numpy.ndarray.min () API
- numpy.ndarray.max () API
기사
- 위키 백과의 다섯 자리 요약
- 위키 백과의 사 분위
- 백분위 수 on Wikipedia
요약
이 자습서에서는 특정 데이터 분포를 가정하지 않고 데이터 샘플 분포를 설명하는 5 자리 요약을 발견했습니다.
특히 배웠습니다.
- 평균 및 표준 편차 계산과 같은 데이터 요약은 가우스 분포에서만 의미가 있습니다.
- 5 자리 숫자 summary는 모든 분포의 데이터 샘플을 설명하는 데 사용할 수 있습니다.
- Python에서 5 자리 요약을 계산하는 방법
질문이 있습니까?
아래 댓글로 질문하시면 최선을 다해 답변 드리겠습니다.
머신 러닝을위한 통계를 처리하세요!
통계에 대한 실제적인 이해를 개발
… 공동 de in python
새로운 Ebook에서 방법 알아보기 :
머신 러닝을위한 통계적 방법
다음과 같은 주제에 대한자가 학습 가이드를 제공합니다.
가설 테스트, 상관 관계, 비모수 통계, 리샘플링 등 …
데이터를 지식으로 변환하는 방법 알아보기
학문을 건너 뜁니다. 결과 만.
내용보기