Última actualización el 8 de agosto de 2019
El resumen de datos proporciona una forma conveniente de describir todos los valores en una muestra de datos con solo unos pocos valores estadísticos.
La media y la desviación estándar se utilizan para resumir los datos con una distribución gaussiana, pero pueden no ser significativas o podrían incluso puede resultar engañoso, si su muestra de datos tiene una distribución no gaussiana.
En este tutorial, descubrirá el resumen de cinco números para describir la distribución de una muestra de datos sin asumir una distribución de datos específica.
Después de completar este tutorial, sabrá:
- El resumen de datos, como el cálculo de la desviación estándar y media, solo es significativo para la distribución gaussiana.
- El resumen de cinco números se puede usar para describir una muestra de datos con cualquier distribución.
- Cómo calcular el resumen de cinco números en Python.
Ponga en marcha su proyecto con mi nuevo libro Estadísticas para el aprendizaje automático, que incluye tutoriales paso a paso y los archivos de código fuente de Python para todos los ejemplos.
Empecemos.
Cómo calcular el resumen de 5 números para sus datos en Python
Foto de Masterbutler, algunos derechos reservados.
Descripción general del tutorial
Este tutorial se divide en 4 partes; son:
- Resumen de datos no paramétrico
- Resumen de cinco números
- Cómo calcular el resumen de cinco números
- Uso del resumen de cinco números
¿Necesita ayuda con Estadísticas para el aprendizaje automático?
Realice ahora mi curso intensivo gratuito de 7 días por correo electrónico (con código de muestra).
Haga clic para registrarse y también obtenga una versión gratuita del libro electrónico en PDF del curso.
Descargue su Minicurso GRATUITO
Resumen de datos no paramétrico
Las técnicas de resumen de datos proporcionan una forma de describir la distribución de datos utilizando algunas medidas clave.
El ejemplo más común de resumen de datos es el cálculo de la desviación estándar y media para datos que tienen una distribución gaussiana. Solo con estos dos parámetros, puede comprender y volver a crear la distribución de los datos. El resumen de datos puede comprimir desde decenas hasta millones de observaciones individuales.
El problema es que no se puede calcular fácilmente la desviación media y estándar de los datos que no tienen una distribución gaussiana. Técnicamente, puede calcular estas cantidades, pero no resumen la distribución de datos; de hecho, pueden ser muy engañosos.
En el caso de los datos que no tienen una distribución gaussiana, puede resumir la muestra de datos utilizando el resumen de cinco números.
Cinco -Resumen de números
El resumen de cinco números, o resumen de 5 números para abreviar, es una técnica de resumen de datos no paramétrica.
A veces se le llama resumen de 5 números de Tukey porque fue recomendado por John Tukey. Se puede utilizar para describir la distribución de muestras de datos para datos con cualquier distribución.
Como resumen estándar para uso general, el resumen de 5 números proporciona acerca de la cantidad correcta de detalles.
– Página 37, Comprensión del análisis de datos robustos y exploratorios, 2000.
Los cinco números El resumen implica el cálculo de 5 cantidades estadísticas de resumen: a saber:
- Mediana: el valor medio en la muestra, también llamado percentil 50 o el segundo cuartil.
- 1er cuartil : El percentil 25.
- 3er cuartil: el percentil 75.
- Mínimo: la observación más pequeña de la muestra.
- Máximo: la observación más grande de la muestra. .
Un cuartil es un valor observado en un punto que ayuda a dividir la muestra de datos ordenados en cuatro partes del mismo tamaño. La mediana, o segundo cuartil, divide la muestra de datos ordenados en dos partes, y el primer y tercer cuartiles dividen cada una de esas mitades en cuartos.
Un percentil es un valor observado en un punto que ayuda a dividir la muestra de datos ordenada en 100 porciones del mismo tamaño. Los cuartiles a menudo también se expresan como percentiles.
Tanto los valores del cuartil como del percentil son ejemplos de estadísticas de clasificación que se pueden calcular en una muestra de datos con cualquier distribución. Se utilizan para resumir rápidamente cuántos datos de la distribución están detrás o delante de un valor observado determinado. Por ejemplo, la mitad de las observaciones están delante y detrás de la mediana de una distribución.
Tenga en cuenta que los cuartiles también se calculan en el diagrama de caja y bigotes, un método no paramétrico para resumir gráficamente la distribución de datos. muestra.
Cómo calcular el resumen de cinco números
El cálculo del resumen de cinco números implica encontrar las observaciones para cada cuartil, así como los valores observados mínimo y máximo de la muestra de datos.
Si no hay un valor específico en la muestra de datos ordenados para el cuartil, como si hay un número par de observaciones y estamos tratando de encontrar la mediana, entonces podemos calcular la media de los dos más cercanos valores, como los dos valores medios.
Podemos calcular valores de percentiles arbitrarios en Python usando la función percentile () NumPy. Podemos usar esta función para calcular los valores del primer, segundo (mediana) y tercer cuartil. La función toma tanto una matriz de observaciones como un valor de punto flotante para especificar el percentil a calcular en el rango de 0 a 100. También puede tomar una lista de valores de percentiles para calcular múltiples percentiles; por ejemplo:
1
|
cuartiles = percentil (datos,)
|
Por defecto, la función calculará una interpolación lineal (promedio) entre observaciones si es necesario, como en el caso de calcular la mediana en una muestra con un número par de valores.
Las funciones NumPy min () y max () pueden usarse para devolver los valores más pequeños y más grandes en la muestra de datos; por ejemplo:
1
|
data_min, data_max = data.min (), data.max ()
|
Podemos juntar todo esto.
El siguiente ejemplo genera una muestra de datos extraída de una distribución uniforme entre 0 y 1 y la resume usando el resumen de cinco números.
Ejecutar el ejemplo genera la muestra de datos y calcula el resumen de cinco números. para describir la distribución de la muestra.
Podemos ver que la dispersión de observaciones está cerca de nuestras expectativas, mostrando 0.27 para el percentil 25 0.53 para el Percentil 50 y 0,76 para el percentil 75, cerca de los valores idealizados de 0,25, 0,50 y 0,75 respectivamente.
1
2
3
4
5
|
Mínimo: 0.000
T1: 0.277
Mediana: 0.532
Q3: 0.766
Max: 1.000
|
Uso del resumen de cinco números
El resumen de cinco números se puede calcular para una muestra de datos con cualquier distribución.
Esto incluye datos que tienen una distribución conocida, como una distribución gaussiana o similar a la gaussiana
Recomendaría calcular siempre el resumen de cinco números y pasar únicamente a los resúmenes específicos de la distribución, como la media y la desviación estándar para el gaussiano, en el caso de que pueda identificar la distribución a la que los datos pertenecen.
Extensiones
Esta sección enumera algunas ideas para extender el tutorial que tal vez desee explorar.
- Describa tres ejemplos en un Proyecto de aprendizaje automático en el que se podría calcular un resumen de cinco números.
- Genere una muestra de datos con una distribución gaussiana y calcule el resumen de cinco números.
- Escriba una función para calcular un 5 -Resumen de números para cualquier muestra de datos.
Si explora alguna de estas extensiones, me encantaría saberlo.
Lecturas adicionales
Esta sección proporciona más recursos sobre el tema si está buscando profundizar.
Libros
- Comprensión del análisis de datos robusto y exploratorio, 2000.
API
- API numpy.percentile ()
- API numpy.ndarray.min ()
- numpy.ndarray.max () API
Artículos
- Resumen de cinco números en Wikipedia
- Cuartil en Wikipedia
- Percentil en Wikipedia
Resumen
En este tutorial, descubrió el resumen de cinco números para describir la distribución de una muestra de datos sin asumir una distribución de datos específica.
Específicamente, aprendió:
- El resumen de datos, como el cálculo de la media y la desviación estándar, solo es significativo para la distribución gaussiana.
- Los cinco números El resumen se puede usar para describir una muestra de datos con cualquier distribución.
- Cómo calcular el resumen de cinco números en Python.
¿Tiene alguna pregunta?
Haga sus preguntas en los comentarios a continuación y haré todo lo posible para responder.
¡Maneje las estadísticas para el aprendizaje automático!
Desarrolle una comprensión práctica de las estadísticas
… escribiendo líneas de co de en python
Descubra cómo en mi nuevo libro electrónico:
Métodos estadísticos para el aprendizaje automático
Proporciona tutoriales de autoaprendizaje sobre temas como:
Pruebas de hipótesis, correlación, Estadísticas no paramétricas, remuestreo y mucho más …
Descubra cómo transformar datos en conocimiento
Omita lo académico. Solo resultados.
Vea lo que hay dentro