Les données peuvent être "distribuées" (étalées) de différentes manières.
Il peut être étalé plus à gauche | Ou plus à droite | |
Ou tout peut être mélangé |
Mais il existe de nombreux cas où les données ont tendance à se situer autour d'une valeur centrale sans biais à gauche ou à droite, et elles se rapprochent d'une « distribution normale » comme celle-ci :
Une distribution normale
La "courbe en cloche" est une distribution normale.
Et le jaunehistogrammemontre quelques données qui le
suivent de près, mais pas parfaitement (ce qui est habituel).
On l'appelle souvent une "courbe en cloche" parce qu'elle ressemble à une cloche. |
Beaucoup de choses suivent de près une distribution normale :
- hauteurs de personnes
- taille des choses produites par des machines
- erreurs dans les mesures
- pression artérielle
- notes sur un test
Nous disons que les données sont "normalement distribuées":
La distribution normale a :
Quincunx
Vous pouvez voir une distribution normale créée par hasard ! Il s'appelle le Quincunx et c'est une machine incroyable. Amusez-vous avec ! |
Ecarts types
Les Écart-type est une mesure de l'étalement des nombres (lisez cette page pour plus de détails sur la façon de le calculer).
quand nous calculer l'écart typeon trouve que généralement :
68 % des valeurs sont à moins de
95% des valeurs sont dans les
99,7 % des valeurs sont à moins de |
Il est bon de connaître l'écart type, car on peut dire que toute valeur est :
- susceptible d'être inférieur à 1 écart type (68 sur 100 devraient être)
- très probablement dans les 2 écarts types (95 sur 100 devraient être)
- presque certainement dans les 3 écarts types (997 sur 1000 devraient être)
Notes standard
Le nombre d' écarts types par rapport à la moyenne est également appelé « score standard », « sigma » ou « z-score ». Habituez-vous à ces mots !
Donc, pour convertir une valeur en un score standard ("z-score") :
- soustraire d'abord la moyenne,
- puis diviser par l'écart type
Et cela s'appelle « Standardiser » :
Nous pouvons prendre n'importe quelle distribution normale et la convertir en distribution normale standard.
La formule du score z que nous avons utilisée est :
z = x − μ??
- z est le "z-score" (score standard)
- x est la valeur à normaliser
- μ ( «mu») est la moyenne
- σ ("sigma") est l'écart type
Et voici comment l'utiliser :
Pourquoi standardiser... ?
Cela peut nous aider à prendre des décisions concernant nos données.
Cela facilite aussi la vie car nous n'avons besoin que d'une seule table (la Tableau de distribution normale standard), plutôt que d'effectuer des calculs individuellement pour chaque valeur de moyenne et d'écart type.
Plus en détail
Voici la distribution normale standard avec des pourcentages pour chaque moitié d'un écart type et des pourcentages cumulés :
Un exemple pratique : votre entreprise conditionne le sucre dans des sacs de 1 kg.
Lorsque vous pesez un échantillon de sacs, vous obtenez ces résultats :
- 1007g, 1032g, 1002g, 983g, 1004g, ... (une centaine de mesures)
- Moyenne = 1010g
- Écart type = 20g
Certaines valeurs sont inférieures à 1000g... pouvez-vous corriger cela ?
La distribution normale de vos mesures ressemble à ceci :
31% des sacs font moins de 1000g,
ce qui trompe le client !
C'est une chose aléatoire, donc nous ne pouvons pas arrêter les sacs de moins de 1000g, mais nous pouvons essayer de le réduire beaucoup.
Ajustons la machine pour que 1000g soit :
- à -3 écarts types :
- à −2,5 écarts-types :
Ajustons donc la machine pour avoir 1000g à -2,5 écarts types par rapport à la moyenne.
Maintenant, nous pouvons l'ajuster à:
- augmenter la quantité de sucre dans chaque sachet (ce qui change la moyenne), ou
- le rendre plus précis (ce qui réduit l'écart type)
Essayons les deux.
Ajustez la quantité moyenne dans chaque sac
L'écart type est de 20g, et nous en avons besoin de 2,5 :
2,5 × 20g = 50g
La machine devrait donc en moyenne 1050g , comme ceci :
Ajuster la précision de la machine
Ou nous pouvons garder la même moyenne (de 1010g), mais alors nous avons besoin de 2,5 écarts types pour être égal à 10g :
10g / 2,5 = 4g
L'écart type devrait donc être de 4g , comme ceci :
(Nous espérons que la machine est aussi précise !)
Ou peut-être pourrions-nous combiner une meilleure précision et une taille moyenne légèrement plus grande, je vous laisse le soin de décider !