Como calcular o resumo de 5 números para seus dados em Python

Compartilhar Tweet Share

Atualizado pela última vez em 8 de agosto de 2019

O resumo dos dados fornece uma maneira conveniente de descrever todos os valores em uma amostra de dados com apenas alguns valores estatísticos.

A média e o desvio padrão são usados para resumir os dados com uma distribuição gaussiana, mas podem não ser significativos ou podem mesmo ser enganoso, se sua amostra de dados tiver uma distribuição não gaussiana.

Neste tutorial, você descobrirá o resumo de cinco números para descrever a distribuição de uma amostra de dados sem assumir uma distribuição de dados específica.

Depois de concluir este tutorial, você saberá:

  • O resumo de dados, como o cálculo da média e do desvio padrão, só é significativo para a distribuição gaussiana.
  • O resumo de cinco números pode ser usado para descrever uma amostra de dados com qualquer distribuição.
  • Como calcular o resumo de cinco números em Python.

Comece seu projeto com meu novo livro Statistics for Machine Learning, incluindo tutoriais passo a passo e os arquivos de código-fonte Python para todos os exemplos.

Vamos começar.

Como calcular o resumo de 5 números para seus dados em Python
Foto de Masterbutler, alguns direitos reservados.

Visão geral do tutorial

Este tutorial é dividido em 4 partes; eles são:

  1. Resumo de dados não paramétricos
  2. Resumo de cinco números
  3. Como calcular o resumo de cinco números
  4. Uso do resumo de cinco números

Precisa de ajuda com estatísticas para aprendizado de máquina?

Faça meu curso intensivo de e-mail gratuito de 7 dias agora (com código de exemplo).

Clique para se inscrever e também obter uma versão gratuita do e-book em PDF do curso.

Faça o download do seu Mini-curso GRATUITO

Resumo de dados não paramétricos

As técnicas de resumo de dados fornecem uma maneira de descrever a distribuição de dados usando algumas medições principais.

O exemplo mais comum de sumarização de dados é o cálculo da média e do desvio padrão para dados que têm uma distribuição gaussiana. Com esses dois parâmetros sozinhos, você pode entender e recriar a distribuição dos dados. O resumo de dados pode comprimir dezenas ou milhões de observações individuais.

O problema é que você não pode calcular facilmente a média e o desvio padrão dos dados que não têm uma distribuição gaussiana. Tecnicamente, você pode calcular essas quantidades, mas elas não resumem a distribuição de dados; na verdade, eles podem ser muito enganosos.

No caso de dados que não têm uma distribuição gaussiana, você pode resumir a amostra de dados usando o resumo de cinco números.

Cinco – Resumo de números

O resumo de cinco números, ou resumo de 5 números para abreviar, é uma técnica de resumo de dados não paramétricos.

Às vezes é chamado de resumo de 5 números de Tukey porque foi recomendado por John Tukey. Ele pode ser usado para descrever a distribuição de amostras de dados para dados com qualquer distribuição.

Como um resumo padrão para uso geral, o resumo de 5 números fornece sobre a quantidade certa de detalhes.

– Página 37, Compreendendo a análise de dados robusta e exploratória, 2000.

O número cinco o resumo envolve o cálculo de 5 quantidades estatísticas de resumo: a saber:

  • Mediana: O valor médio na amostra, também chamado de 50º percentil ou 2º quartil.
  • 1º quartil : O 25º percentil.
  • 3º quartil: O 75º percentil.
  • Mínimo: A menor observação na amostra.
  • Máximo: A maior observação na amostra .

Um quartil é um valor observado em um ponto que ajuda a dividir a amostra de dados ordenada em quatro partes de tamanhos iguais. A mediana, ou 2º quartil, divide a amostra de dados ordenada em duas partes, e o 1º e 3º quartis dividem cada uma dessas metades em quartos.

Um percentil é um valor observado em um ponto que ajuda na divisão a amostra de dados ordenada em 100 porções de tamanho igual. Os quartis são frequentemente expressos como percentis.

Os valores do quartil e do percentil são exemplos de estatísticas de classificação que podem ser calculadas em uma amostra de dados com qualquer distribuição. Eles são usados para resumir rapidamente quanto dos dados na distribuição está atrás ou à frente de um determinado valor observado. Por exemplo, metade das observações está atrás e na frente da mediana de uma distribuição.

Observe que os quartis também são calculados no gráfico de caixa e bigode, um método não paramétrico para resumir graficamente a distribuição de dados amostra.

Como calcular o resumo de cinco números

O cálculo do resumo de cinco números envolve encontrar as observações para cada quartil, bem como os valores mínimos e máximos observados da amostra de dados.

Se não houver um valor específico na amostra de dados ordenada para o quartil, como se houver um número par de observações e estivermos tentando encontrar a mediana, então podemos calcular a média das duas mais próximas valores, como os dois valores do meio.

Podemos calcular valores de percentis arbitrários em Python usando a função percentile () NumPy. Podemos usar esta função para calcular os valores do 1º, 2º (mediana) e 3º quartil. A função usa uma matriz de observações e um valor de ponto flutuante para especificar o percentil a ser calculado no intervalo de 0 a 100. Ela também pode usar uma lista de valores percentuais para calcular vários percentis; por exemplo:

1
quartis = percentil (dados)

Por padrão, a função irá calcular uma interpolação linear (média) entre as observações, se necessário, como no caso de cálculo da mediana em uma amostra com um número par de valores.

As funções NumPy min () e max () podem ser usadas para retornar os menores e maiores valores na amostra de dados; por exemplo:

1
data_min, data_max = data.min (), data.max ()

Podemos colocar tudo isso junto.

O exemplo abaixo gera uma amostra de dados extraída de uma distribuição uniforme entre 0 e 1 e a resume usando o resumo de cinco números.

Executar o exemplo gera a amostra de dados e calcula o resumo de cinco números para descrever a distribuição da amostra.

Podemos ver que a dispersão das observações está perto de nossas expectativas, mostrando 0,27 para o 25º percentil 0,53 para o 50º percentil e 0,76 para o 75º percentil, próximos aos valores idealizados de 0,25, 0,50 e 0,75, respectivamente.

1
2
3
4
5

Mín: 0,000
Q1: 0,277
Mediana: 0,532
Q3: 0,766
Máx .: 1.000

Uso do resumo de cinco números

O resumo de cinco números pode ser calculado para uma amostra de dados com qualquer distribuição.

Isso inclui dados que têm uma distribuição conhecida, como uma distribuição gaussiana ou semelhante à gaussiana ução.

Eu recomendaria sempre calcular o resumo de cinco números, e apenas passar para resumos específicos de distribuição, como média e desvio padrão para o Gaussiano, no caso em que você pode identificar a distribuição para a qual os dados pertencem.

Extensões

Esta seção lista algumas idéias para estender o tutorial que você pode querer explorar.

  • Descreva três exemplos em um projeto de aprendizado de máquina em que um resumo de cinco números pode ser calculado.
  • Gere uma amostra de dados com uma distribuição gaussiana e calcule o resumo de cinco números.
  • Escreva uma função para calcular um 5 – resumo do número para qualquer amostra de dados.

Se você explorar qualquer uma dessas extensões, adoraria saber.

Leitura adicional

Esta seção fornece mais recursos sobre o tópico se você quiser se aprofundar.

Livros

  • Understanding Robust and Exploratory Data Analysis, 2000.

API

  • API numpy.percentile ()
  • API numpy.ndarray.min ()
  • numpy.ndarray.max () API

Artigos

  • Resumo de cinco números na Wikipedia
  • Quartil na Wikipedia
  • percentil na Wikipedia

Resumo

Neste tutorial, você descobriu o resumo de cinco números para descrever a distribuição de uma amostra de dados sem assumir uma distribuição de dados específica.

Especificamente, você aprendeu:

  • O resumo de dados, como o cálculo da média e do desvio padrão, só é significativo para a distribuição gaussiana.
  • O número cinco o resumo pode ser usado para descrever uma amostra de dados com qualquer distribuição.
  • Como calcular o resumo de cinco números em Python.

Você tem alguma dúvida?
Faça suas perguntas nos comentários abaixo e farei o meu melhor para responder.

Obtenha um controle sobre estatísticas para aprendizado de máquina!

Desenvolva um entendimento prático de estatísticas

… escrevendo linhas de co de em python

Descubra como em meu novo Ebook:
Métodos estatísticos para aprendizado de máquina

Ele fornece tutoriais de autoaprendizagem sobre tópicos como:
Testes de hipótese, correlação Estatísticas não paramétricas, reamostragem e muito mais …

Descubra como transformar dados em conhecimento

Ignore os estudos. Apenas resultados.

Veja o que há por dentro

Compartilhamento de Tweet Share

Leave a Reply

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *