Dans une distribution normale, les données sont distribuées symétriquement sans biais . Lorsqu'elles sont tracées sur un graphique, les données suivent une forme de cloche, la plupart des valeurs se regroupant autour d'une région centrale et diminuant à mesure qu'elles s'éloignent du centre.
Les distributions normales sont également appelées distributions gaussiennes ou courbes en cloche en raison de leur forme.
Pourquoi les distributions normales sont-elles importantes ?
Toutes sortes de variables en sciences naturelles et sociales sont normalement ou approximativement normalement distribuées. La taille, le poids à la naissance, la capacité de lecture, la satisfaction au travail ou les scores SAT ne sont que quelques exemples de ces variables.
Étant donné que les variables normalement distribuées sont si courantes, de nombreux tests statistiques sont conçus pour des populations normalement distribuées.
Comprendre les propriétés des distributions normales signifie que vous pouvez utiliser des statistiques inférentielles pour comparer différents groupes et faire des estimations sur les populations à l'aide d'échantillons.
Quelles sont les propriétés des distributions normales ?
Les distributions normales ont des caractéristiques clés faciles à repérer dans les graphiques :
- La moyenne , la médiane et le mode sont exactement les mêmes.
- La distribution est symétrique par rapport à la moyenne : la moitié des valeurs se situent en dessous de la moyenne et l'autre moitié au-dessus de la moyenne.
- La distribution peut être décrite par deux valeurs : la moyenne et l' écart-type .
La moyenne est le paramètre de localisation tandis que l'écart type est le paramètre d'échelle.
La moyenne détermine où le pic de la courbe est centré. Augmenter la moyenne déplace la courbe vers la droite, tandis que la diminuer déplace la courbe vers la gauche.
L'écart type étire ou comprime la courbe. Un petit écart type donne une courbe étroite, tandis qu'un grand écart type donne une courbe large.
Règle empirique
La règle empirique , ou la règle 68-95-99,7, vous indique où se situent la plupart de vos valeurs dans une distribution normale :
- Environ 68 % des valeurs se situent à moins d'un écart type de la moyenne.
- Environ 95 % des valeurs se situent à moins de 2 écarts-types de la moyenne.
- Environ 99,7 % des valeurs se situent à moins de 3 écarts-types de la moyenne.
La règle empirique est un moyen rapide d'obtenir un aperçu de vos données et de vérifier les valeurs aberrantes ou extrêmes qui ne suivent pas ce modèle.
Si les données de petits échantillons ne suivent pas de près ce modèle, d'autres distributions comme la distribution t peuvent être plus appropriées. Une fois que vous avez identifié la distribution de votre variable, vous pouvez appliquer les tests statistiques appropriés.
Théorème central limite
Le théorème central limite est à la base du fonctionnement des distributions normales dans les statistiques.
En recherche, pour avoir une bonne idée de la moyenne d'une population , idéalement, vous devez collecter des données à partir de plusieurs échantillons aléatoires au sein de la population. Une distribution d'échantillonnage de la moyenne est la distribution des moyennes de ces différents échantillons.
Le théorème central limite montre ce qui suit :
- Loi des grands nombres : lorsque vous augmentez la taille de l'échantillon (ou le nombre d'échantillons), la moyenne de l'échantillon se rapproche de la moyenne de la population.
- Avec plusieurs grands échantillons, la distribution d'échantillonnage de la moyenne est distribuée normalement, même si votre variable d'origine n'est pas distribuée normalement.
Les tests statistiques paramétriques supposent généralement que les échantillons proviennent de populations normalement distribuées, mais le théorème central limite signifie que cette hypothèse n'est pas nécessaire pour répondre lorsque vous avez un échantillon suffisamment grand.
Vous pouvez utiliser des tests paramétriques pour de grands échantillons de populations avec n'importe quel type de distribution tant que d'autres hypothèses importantes sont remplies. Une taille d'échantillon de 30 ou plus est généralement considérée comme grande.
Pour les petits échantillons, l'hypothèse de normalité est importante car la distribution d'échantillonnage de la moyenne n'est pas connue. Pour des résultats précis, vous devez vous assurer que la population est normalement distribuée avant de pouvoir utiliser des tests paramétriques avec de petits échantillons.
Formule de la courbe normale
Une fois que vous avez la moyenne et l'écart type d'une distribution normale, vous pouvez ajuster une courbe normale à vos données à l'aide d'un fonction de densité de probabilité .
Dans une fonction de densité de probabilité, l'aire sous la courbe vous indique la probabilité. La distribution normale est une distribution de probabilité , donc l'aire totale sous la courbe est toujours de 1 ou 100 %.
La formule de la fonction de densité de probabilité normale semble assez compliquée. Mais pour l'utiliser, il vous suffit de connaître la moyenne et l'écart type de la population.
Pour toute valeur de x , vous pouvez insérer la moyenne et l'écart type dans la formule pour trouver la densité de probabilité de la variable prenant cette valeur de x .
Formule de densité de probabilité normale | Explication |
---|---|
|
Quelle est la distribution normale standard ?
La distribution normale standard , également appelée distribution z , est une distribution normale spéciale où la moyenne est 0 et l'écart type est 1.
Chaque distribution normale est une version de la distribution normale standard qui a été étirée ou comprimée et déplacée horizontalement vers la droite ou vers la gauche.
Alors que les observations individuelles des distributions normales sont appelées x , elles sont appelées z dans la distribution z . Chaque distribution normale peut être convertie en distribution normale standard en transformant les valeurs individuelles en scores z .
Les scores Z vous indiquent à combien d'écarts types de la moyenne se situe chaque valeur.
Il vous suffit de connaître la moyenne et l'écart type de votre distribution pour trouver le score z d'une valeur.
Formule Z -score | Explication |
---|---|
|
Nous convertissons les distributions normales en distribution normale standard pour plusieurs raisons :
- Pour trouver la probabilité d'observations dans une distribution tombant au-dessus ou en dessous d'une valeur donnée.
- Pour trouver la probabilité qu'une moyenne d'échantillon diffère significativement d'une moyenne de population connue.
- Pour comparer les scores de différentes distributions avec différentes moyennes et écarts-types.
Trouver la probabilité en utilisant la distribution z
Chaque score z est associé à une probabilité, ou valeur p , qui vous indique la probabilité que des valeurs inférieures à ce score z se produisent. Si vous convertissez une valeur individuelle en un score z , vous pouvez alors trouver la probabilité que toutes les valeurs jusqu'à cette valeur se produisent dans une distribution normale.
La moyenne de notre distribution est de 1150 et l'écart type est de 150. Le score z vous indique de combien d'écarts types il y a 1380 par rapport à la moyenne.
Formule | Calcul |
---|---|
Pour un score z de 1,53, la valeur p est de 0,937. Il s'agit de la probabilité que les scores SAT soient de 1380 ou moins (93,7 %), et c'est la zone sous la courbe à gauche de la zone ombrée.
Pour trouver la zone ombrée, vous soustrayez 0,937 à 1, qui est la surface totale sous la courbe.
Probabilité de x > 1380 = 1 – 0,937 = 0,063
Cela signifie qu'il est probable que seulement 6,3 % des scores SAT de votre échantillon dépassent 1380.