Dernière mise à jour le 8 août 2019
La synthèse des données fournit un moyen pratique de décrire toutes les valeurs d’un échantillon de données avec seulement quelques valeurs statistiques.
La moyenne et l’écart type sont utilisés pour résumer les données avec une distribution gaussienne, mais peuvent ne pas être significatifs, ou pourraient même être trompeur, si votre échantillon de données a une distribution non gaussienne.
Dans ce didacticiel, vous découvrirez le résumé à cinq chiffres pour décrire la distribution d’un échantillon de données sans supposer une distribution de données spécifique.
Après avoir terminé ce didacticiel, vous saurez:
- La synthèse des données, comme le calcul de la moyenne et de l’écart type, n’a de sens que pour la distribution gaussienne.
- Le résumé à cinq chiffres peut être utilisé pour décrire un échantillon de données avec n’importe quelle distribution.
- Comment calculer le résumé à cinq chiffres en Python.
Démarrez votre projet avec mon nouveau livre Statistics for Machine Learning, comprenant des didacticiels étape par étape et les fichiers de code source Python pour tous les exemples.
Commençons.
Comment calculer le résumé à 5 chiffres pour vos données en Python – Photo de Masterbutler, certains droits réservés.
Présentation du didacticiel
Ce didacticiel est divisé en 4 parties; ce sont:
- Synthèse non paramétrique des données
- Résumé à cinq chiffres
- Comment calculer le résumé à cinq chiffres
- Utilisation du résumé en cinq chiffres
Besoin d’aide avec Statistics for Machine Learning?
Suivez maintenant mon cours intensif gratuit de 7 jours par e-mail (avec un exemple de code).
Cliquez pour vous inscrire et obtenez également une version PDF gratuite du cours.
Téléchargez votre Mini-cours GRATUIT
Synthèse non paramétrique des données
Les techniques de synthèse des données permettent de décrire la distribution de données en utilisant quelques mesures clés.
L’exemple le plus courant de récapitulation des données est le calcul de la moyenne et de l’écart type pour les données qui ont une distribution gaussienne. Avec ces deux paramètres seuls, vous pouvez comprendre et recréer la distribution des données. Le résumé des données peut compresser aussi peu que des dizaines ou jusqu’à des millions d’observations individuelles.
Le problème est que vous ne pouvez pas facilement calculer la moyenne et l’écart type de données qui n’ont pas de distribution gaussienne. Techniquement, vous pouvez calculer ces quantités, mais elles ne résument pas la distribution des données; en fait, ils peuvent être très trompeurs.
Dans le cas de données qui n’ont pas de distribution gaussienne, vous pouvez résumer l’échantillon de données en utilisant le résumé à cinq chiffres.
Cinq -Number Summary
Le résumé à cinq chiffres, ou résumé à 5 chiffres, est une technique de synthèse de données non paramétrique.
On l’appelle parfois le résumé à 5 chiffres de Tukey car il a été recommandé par John Tukey. Il peut être utilisé pour décrire la distribution d’échantillons de données pour des données avec n’importe quelle distribution.
En tant que résumé standard à usage général, le résumé à 5 chiffres fournit sur la bonne quantité de détails.
– Page 37, Understanding Robust and Exploratory Data Analysis, 2000.
Les cinq nombres summary implique le calcul de 5 grandeurs statistiques récapitulatives: à savoir:
- Médiane: la valeur médiane de l’échantillon, également appelée le 50e centile ou le 2e quartile.
- 1er quartile : 25e centile.
- 3e quartile: 75e centile.
- Minimum: la plus petite observation de l’échantillon.
- Maximum: la plus grande observation de l’échantillon .
Un quartile est une valeur observée à un point qui aide à diviser l’échantillon de données ordonné en quatre parties de taille égale. La médiane, ou 2e quartile, divise l’échantillon de données ordonné en deux parties, et les 1er et 3e quartiles divisent chacune de ces moitiés en quarts.
Un centile est une valeur observée à un point qui facilite la division l’échantillon de données ordonné en 100 portions de taille égale. Les quartiles sont souvent également exprimés sous forme de centiles.
Les valeurs de quartile et de centile sont des exemples de statistiques de rang qui peuvent être calculées sur un échantillon de données avec n’importe quelle distribution. Ils sont utilisés pour résumer rapidement la part des données de la distribution derrière ou devant une valeur observée donnée. Par exemple, la moitié des observations sont en arrière et en face de la médiane d’une distribution.
Notez que les quartiles sont également calculés dans le box et le whisker plot, une méthode non paramétrique pour résumer graphiquement la distribution d’une donnée échantillon.
Comment calculer le résumé à cinq nombres
Le calcul du résumé à cinq nombres implique de trouver les observations pour chaque quartile ainsi que les valeurs minimales et maximales observées à partir de l’échantillon de données.
S’il n’y a pas de valeur spécifique dans l’échantillon de données ordonnées pour le quartile, comme s’il y a un nombre pair d’observations et que nous essayons de trouver la médiane, alors nous pouvons calculer la moyenne des deux plus proches valeurs, telles que les deux valeurs moyennes.
Nous pouvons calculer des valeurs de centile arbitraires en Python en utilisant la fonction percentile () NumPy. Nous pouvons utiliser cette fonction pour calculer les valeurs du 1er, 2e (médian) et 3e quartile. La fonction prend à la fois un tableau d’observations et une valeur à virgule flottante pour spécifier le centile à calculer dans la plage de 0 à 100. Elle peut également prendre une liste de valeurs de centile pour calculer plusieurs centiles; par exemple:
1
|
quartiles = percentile (données,)
|
Par défaut, la fonction calculera une interpolation linéaire (moyenne) entre les observations si nécessaire, comme dans le cas du calcul de la médiane sur un échantillon avec un nombre pair de valeurs.
Les fonctions NumPy min () et max () peuvent être utilisées pour renvoyer les valeurs les plus petites et les plus grandes de l’échantillon de données; par exemple:
1
|
data_min, data_max = data.min (), data.max ()
|
Nous pouvons rassembler tout cela.
L’exemple ci-dessous génère un échantillon de données tiré d’une distribution uniforme entre 0 et 1 et le résume à l’aide du résumé à cinq chiffres.
L’exécution de l’exemple génère l’échantillon de données et calcule le résumé à cinq chiffres pour décrire la distribution de l’échantillon.
Nous pouvons voir que la répartition des observations est proche de nos attentes, soit 0,27 pour le 25e centile 0,53 pour le 50e centile et 0,76 pour le 75e centile, proches des valeurs idéalisées de 0,25, 0,50 et 0,75 respectivement.
1
2
3
4
5
|
Min: 0,000
Q1: 0,277
Médiane: 0,532
Q3: 0,766
Max: 1 000
|
Utilisation du résumé à cinq chiffres
Le résumé à cinq chiffres peut être calculé pour un échantillon de données avec n’importe quelle distribution.
Cela inclut les données qui ont une distribution connue, comme une distribution gaussienne ou de type gaussien
Je recommanderais de toujours calculer le résumé à cinq chiffres, et de passer uniquement aux résumés spécifiques à la distribution, tels que la moyenne et l’écart type pour la gaussienne, dans le cas où vous pouvez identifier la distribution à laquelle les données appartiennent.
Extensions
Cette section répertorie quelques idées pour étendre le didacticiel que vous voudrez peut-être explorer.
- Décrivez trois exemples dans un projet d’apprentissage automatique où un résumé à cinq nombres pourrait être calculé.
- Générez un échantillon de données avec une distribution gaussienne et calculez le résumé à cinq nombres.
- Ecrivez une fonction pour calculer un 5 -nombre de récapitulatif pour tout échantillon de données.
Si vous explorez l’une de ces extensions, j’aimerais bien le savoir.
Lectures complémentaires
Cette section fournit plus de ressources sur le sujet si vous souhaitez approfondir.
Livres
- Understanding Robust and Exploratory Data Analysis, 2000.
API
- API numpy.percentile ()
- API numpy.ndarray.min ()
- numpy.ndarray.max () API
Articles
- Résumé en cinq chiffres sur Wikipédia
- Quartile sur Wikipédia
- Percentile sur Wikipédia
Résumé
Dans ce tutoriel, vous avez découvert le résumé à cinq chiffres pour décrire la distribution d’un échantillon de données sans supposer une distribution de données spécifique.
Plus précisément, vous avez appris:
- La synthèse des données, comme le calcul de la moyenne et de l’écart type, n’a de sens que pour la distribution gaussienne.
- Les cinq nombres summary peut être utilisé pour décrire un échantillon de données avec n’importe quelle distribution.
- Comment calculer le résumé à cinq chiffres en Python.
Avez-vous des questions?
Posez vos questions dans les commentaires ci-dessous et je ferai de mon mieux pour y répondre.
Obtenez un aperçu des statistiques pour l’apprentissage automatique!
Développez une compréhension pratique des statistiques
… en écrivant des lignes de co de en python
Découvrez comment dans mon nouvel ebook:
Méthodes statistiques pour l’apprentissage automatique
Il propose des tutoriels d’auto-apprentissage sur des sujets tels que:
Tests d’hypothèses, corrélation, Statistiques non paramétriques, rééchantillonnage et bien plus encore …
Découvrez comment transformer des données en connaissances
Passer les universitaires. Juste des résultats.
Voir ce qu’il y a à l’intérieur