La disponibilité des données dans le monde d'aujourd'hui est une aubaine. Cependant, les analyser en fonction de nos besoins est le plus grand défi. Pour être en mesure d'analyser les vastes ressources de données, il est crucial de comprendre et de décrire les données.
Il existe différentes méthodes par lesquelles nous pouvons décrire les données. Les statistiques, une branche des mathématiques, nous aident à collecter, organiser, visualiser et interpréter les données .
Dans ce blog, nous chercherons à comprendre la description de toute donnée à l'aide de concepts statistiques. Cela implique les questions suivantes :
- Qu'est-ce que la statistique descriptive ?
- Types de statistiques descriptives
- Asymétrie
- Aplatissement
- Association entre deux variables
Qu'est-ce que la statistique descriptive ?
La statistique descriptive, comme son nom l'indique, décrit les données. Il s'agit d'une méthode permettant de collecter, d'organiser, de résumer, d'afficher et d'analyser des données d'échantillon prélevées sur une population. La statistique descriptive, contrairement à la statistique inférentielle, n'est pas basée sur la théorie des probabilités. Cela ouvre la voie à une meilleure compréhension et visualisation des données. Si vous souhaitez apprendre les concepts de base, vous pouvez suivre un cours gratuit de statistiques descriptives de la Great Learning Academy.
Types de statistiques descriptives
Les statistiques descriptives sont classées en mesures de tendance centrale et en mesure de dispersion.
A. Mesures de tendance centrale
1. Moyenne/moyenne
Cette mesure de tendance centrale résume les données, en considérant une valeur qui est une estimation de l'ensemble de données total. Cela nous aide à déterminer l'écart des variables entre les valeurs minimales et maximales.
Moyenne de l'échantillon
Population signifie
Données d'échantillon : 12,18,25,69,45
Moyenne d'échantillon : [(12+18+25+69+45)/5] = 33,80
Données de population : 55,46,78,12,18,33,28,45 ,25,69,66
Population Moyenne : [(55+46+78+12+18+33+28+45+25+69+66)/11)] = 43,18
2. Médiane
- La médiane est l'élément du milieu dans un ensemble de données classé par ordre croissant/décroissant.
- S'il y a n observations, alors la Médiane = (n+1)/2 ème observation.
- Règle de calcul.
- Si n est impair, alors (n+1)/2 est un entier.
- Si n est pair, alors utilisez une moyenne de n/2 et (n/2) + 1e observation.
3. Mode
- Le mode est l'observation la plus élevée.
- La plus grande fréquence peut se produire à deux ou plusieurs valeurs différentes.
- Si les données n'ont que deux modes, les données sont bimodales.
- Si les données ont plus de deux modes, les données sont multimodales.
4. Centiles et quartiles
- Le P ième centile dans l'ensemble ordonné est la valeur en dessous de laquelle se trouve P% (P pour cent) des observations de l'ensemble.
- La position du P ème centile est donnée par (n + 1) P/100, où n est le nombre d'observations dans l'ensemble.
- Les quartiles sont des noms spéciaux pour les centiles.
Q1 = 25e centile
Q2 = 50e centile = médiane
Q3 = 75e centile
Comparaison de la moyenne, de la médiane et du mode
Moyenne | Médian | Mode |
Défini comme la moyenne arithmétique de toutes les observations dans l'ensemble de données. | Défini comme la valeur médiane dans l'ensemble de données classé par ordre croissant ou décroissant. | Définie comme la valeur la plus fréquente dans la distribution ; il a la plus grande fréquence. |
Nécessite des mesures sur toutes les observations. | Il ne nécessite pas de mesure sur toutes les observations. | Il ne nécessite pas de mesure sur toutes les observations. |
Défini de manière unique et complète. | Ne peut pas être déterminé dans toutes les conditions. | Non défini uniquement pour les situations multimodales. |
Affecté par des valeurs extrêmes. | Non affecté par les valeurs extrêmes. | Non affecté par les valeurs extrêmes. |
Peut être traité algébriquement. En d'autres termes, les moyens de plusieurs groupes peuvent être combinés. | Ne peut pas être traité algébriquement, ce qui signifie que les médianes de plusieurs groupes ne peuvent pas être combinées. | Ne peut pas être traité algébriquement, car les modes de plusieurs groupes ne peuvent pas être combinés. |
B. Mesures de dispersion
1. Portée
- La plage d'un ensemble de données est la différence entre les valeurs de données les plus grandes et les plus petites.
- C'est la mesure la plus simple de la variabilité.
- Il est très sensible aux valeurs de données les plus petites et les plus grandes.
- Plage = X max – X min
2. Intervalle interquartile (IQR)
- L'intervalle interquartile d'un ensemble de données est la différence entre le troisième quartile et le premier quartile.
- Il s'agit de la plage pour les 50 % du milieu des données.
- Il surmonte la sensibilité aux valeurs de données extrêmes.
3. Écart
- La variance est une mesure de la variabilité qui utilise toutes les données.
- Il est basé sur la différence entre la valeur de chaque observation ( x i ) et la moyenne ( x pour un échantillon, m pour une population).
- L'écart type d'un ensemble de données est la racine carrée positive de la variance.
- Elle est mesurée dans les mêmes unités que les données, ce qui la rend plus facilement comparable, que la variance, à la moyenne.
- Si l'ensemble de données est un échantillon, l'écart type est noté s .
- Si l'ensemble de données est une population, l'écart type est noté s (sigma).
5. Coefficient de variation
- Le coefficient de variation indique l'importance de l'écart type par rapport à la moyenne.
- Si l'ensemble de données est un échantillon, le coefficient de variation est calculé comme suit :
- Si l'ensemble de données est une population, le coefficient de variation est calculé comme suit :
Lire aussi : Qu'est-ce que la Data Science ?
Asymétrie
L'asymétrie caractérise le degré d'asymétrie d'une distribution autour de sa moyenne.
Le concept d'asymétrie est principalement utilisé pour comprendre la distribution des données et les mesures prises pour normaliser les données en vue de la construction ultérieure de modèles d'apprentissage automatique.
En cas de données asymétriques négatives, Mean<Median<Mode. Cela indique que plus de points de données se trouvent à droite de la courbe où les données ont des valeurs très élevées en grand nombre.
En cas de données asymétriques positives, Mode<Median<Mean. Cela signifie que plus de points de données se trouvent à gauche de la courbe où les données ont des valeurs très faibles en grand nombre.
Mesure de l'asymétrie
Aplatissement
L'aplatissement caractérise la distribution symétrique à travers les pics relatifs ou la planéité de la courbe.
La principale différence entre l'asymétrie et l'aplatissement est la suivante :
L'asymétrie mesure le degré de la pente dans la distribution de fréquence.
L'aplatissement mesure le degré d'épaisseur dans les queues de la courbe de distribution.
Il existe 3 types d'aplatissement :
- Platykurtic (relativement plat)
- Mésokurtique (normal)
- Leptokurtic (relativement atteint un pic)
Mesure de l'aplatissement
Où,
est le quatrième moment normalisé ou le quatrième degré.
Association entre les deux variables
- Nuage de points
- Les nuages de points sont utilisés pour identifier les relations sous-jacentes entre les paires d'ensembles de données.
- Le tracé se compose de nombreux points dispersés, chaque point représentant une observation.
Sur la base de la distribution dans l'ensemble de données et des points du nuage de points, nous pouvons déduire les valeurs aberrantes dans l'ensemble de données et la relation entre 2 variables.
2. Covariance
- La covariance est une mesure de l'association linéaire entre deux variables.
- Les valeurs positives indiquent une relation positive.
- Les valeurs négatives indiquent une relation négative
Si les ensembles de données sont des échantillons, la covariance est notée :
Si les ensembles de données sont des populations, la covariance est désignée par :
La corrélation mesure la force et la direction de la relation linéaire entre les variables.
- Le coefficient peut prendre des valeurs comprises entre -1 et +1.
- Les valeurs proches de -1 indiquent une forte relation linéaire négative.
- Les valeurs proches de +1 indiquent une forte relation linéaire positive.
Si les ensembles de données sont des échantillons, le coefficient est-
Si les ensembles de données sont des populations, le coefficient est-