Dans de nombreux cas, il convient de résumer un groupe d'observations indépendantes par le nombre d'observations dans le groupe qui représentent l'un des deux résultats. Par exemple, la proportion d’individus dans un échantillon aléatoire qui soutiennent l’un des deux candidats politiques correspond à cette description. Dans ce cas, la statistique P est le nombre X d'électeurs qui soutiennent le candidat divisé par le nombre total d'individus dans le groupe n . Cela fournit une estimation du paramètre p , la proportion d'individus qui soutiennent le candidat dans l'ensemble de la population.
La distribution binomiale décrit le comportement d'une variable de comptage X si les conditions suivantes s'appliquent :
- 1 : Le nombre d’observations n est fixe.
- 2 : Chaque observation est indépendante.
- 3 : Chaque observation représente l'un des deux résultats (« succès » ou « échec »).
- 4 : La probabilité de « succès » p est la même pour chaque résultat.
Si ces conditions sont remplies, alors X a une distribution binomiale avec les paramètres n et p , abrégés B(n,p) .
Exemple
Supposons que les individus porteurs d’un certain gène aient une probabilité de 0,70 de contracter éventuellement une certaine maladie. Si 100 individus porteurs du gène participent à une étude sur toute une vie, alors la distribution de la variable aléatoire décrivant le nombre d'individus qui contracteront la maladie est distribuée B(100,0.7) .
Remarque : La distribution d'échantillonnage d'une variable de comptage n'est bien décrite que par la distribution binomiale dans les cas où la taille de la population est significativement plus grande que la taille de l'échantillon. En règle générale, la distribution binomiale ne doit pas être appliquée aux observations d'un échantillon aléatoire simple (SRS), sauf si la taille de la population est au moins 10 fois supérieure à la taille de l'échantillon.
Pour trouver des probabilités à partir d'une distribution binomiale, on peut soit les calculer directement, soit utiliser une table binomiale, soit utiliser un ordinateur. Le nombre de six lancés par un seul dé sur 20 lancers a une distribution B(20,1/6) . La probabilité d'obtenir plus de 2 six en 20 lancers, P(X>2) , est égale à 1 - P(X < 2) = 1 - (P(X=0) + P(X=1) + P( X=2)) . L'utilisation de la commande MINITAB "cdf" avec la sous-commande "binomial n=20 p=0.166667" donne la fonction de distribution cumulée comme suit :
Binôme avec n = 20 et p = 0,166667 xP( X <= x) 0 0,0261 1 0,1304 2 0,3287 3 0,5665 4 0,7687 5 0,8982 6 0,9629 7 0,9887 8 0,9972 9 0,9994
Les graphiques correspondants pour la fonction de densité de probabilité et la fonction de distribution cumulative pour la distribution B(20,1/6) sont présentés ci-dessous :
Puisque la probabilité d'avoir 2 six ou moins est égale à 0,3287, la probabilité d'obtenir plus de 2 six = 1 - 0,3287 = 0,6713.
La probabilité qu'une variable aléatoire X de distribution binomiale B(n,p) soit égale à la valeur k , où k = 0, 1,....,n , est donnée par
, où
.
Cette dernière expression est connue sous le nom de coefficient binomial , exprimé sous la forme « n choisit k », ou le nombre de façons possibles de choisir k « succès » parmi n observations. Par exemple, le nombre de façons d'obtenir 2 faces dans une série de quatre lancers est « 4 choisissez 2 », ou 4 !/2 !2 ! = (4*3)/(2*1) = 6. Les possibilités sont {HHTT, HTHT, HTTH, TTHH, THHT, THTH}, où "H" représente une tête et "T" représente une queue. Le coefficient binomial multiplie la probabilité d' une de ces possibilités (qui est (1/2)²(1/2)² = 1/16 pour une pièce équitable) par le nombre de façons dont le résultat peut être atteint, pour une probabilité totale du 16/06.
Moyenne et variance de la distribution binomiale
La distribution binomiale pour une variable aléatoire X avec les paramètres n et p représente la somme de n variables indépendantes Z qui peuvent prendre les valeurs 0 ou 1. Si la probabilité que chaque variable Z prenne la valeur 1 est égale à p , alors la moyenne de chaque variable est égale à 1*p + 0*(1-p) = p , et la variance est égale à p(1-p). Par les propriétés d'addition des variables aléatoires indépendantes, la moyenne et la variance de la distribution binomiale sont égales à la somme des moyennes et des variances des n variables Z indépendantes , donc
Ces définitions sont intuitivement logiques. Imaginez, par exemple, 8 lancers d’une pièce de monnaie. Si la pièce est juste, alors p = 0,5. On pourrait s'attendre à ce que le nombre moyen de faces soit la moitié des flips, soit np = 8*0,5 = 4. La variance est égale à np(1-p) = 8*0,5*0,5 = 2.
Exemples de proportions
Si nous savons que le nombre X de « succès » dans un groupe de n observations avec une probabilité de succès p a une distribution binomiale de moyenne np et de variance np(1-p) , alors nous sommes en mesure de dériver des informations sur la distribution de l' échantillon . proportion P , le nombre de succès X divisé par le nombre d'observations n . D'après les propriétés multiplicatives de la moyenne, la moyenne de la distribution de X/n est égale à la moyenne de X divisée par n , ou np/n = p . Cela prouve que la proportion de l'échantillon P est un estimateur impartial de la proportion de population p . La variance de X/n est égale à la variance de X divisée par n² , ou (np(1-p))/n² = (p(1-p))/n . Cette formule indique qu'à mesure que la taille de l'échantillon augmente, la variance diminue.
Dans l'exemple de lancer un dé à six faces 20 fois, la probabilité p de lancer un six sur n'importe quel lancer est de 1/6, et le nombre X de six a une distribution B(20, 1/6) . La moyenne de cette distribution est de 20/6 = 3,33 et la variance est de 20*1/6*5/6 = 100/36 = 2,78. La moyenne de la proportion de six dans les 20 lancers, X/20 , est égale à p = 1/6 = 0,167, et la variance de la proportion est égale à (1/6*5/6)/20 = 0,007.
Approximations normales pour les comptes et les proportions
Pour de grandes valeurs de n , les distributions du nombre X et de la proportion de l'échantillon P sont approximativement normales . Ce résultat découle du théorème central limite . La moyenne et la variance de la distribution approximativement normale de X sont np et np(1-p) , identiques à la moyenne et à la variance de la distribution binomiale ( n,p ). De même, la moyenne et la variance de la distribution approximativement normale de la proportion de l'échantillon sont p et (p(1-p)/n) .
Remarque : étant donné que l'approximation normale n'est pas précise pour les petites valeurs de n , une bonne règle générale consiste à utiliser l'approximation normale uniquement si np > 10 et np(1-p) > 10.
Par exemple, considérons une population d’électeurs dans un État donné. La véritable proportion d’électeurs favorables au candidat A est de 0,40. Étant donné un échantillon de 200 électeurs, quelle est la probabilité que plus de la moitié des électeurs soutiennent le candidat A ?
Le nombre X d'électeurs dans l'échantillon de 200 qui soutiennent le candidat A est distribué B(200,0.4) . La moyenne de la distribution est égale à 200*0,4 = 80 et la variance est égale à 200*0,4*0,6 = 48. L'écart type est la racine carrée de la variance, 6,93. La probabilité que plus de la moitié des électeurs de l'échantillon soutiennent le candidat A est égale à la probabilité que X soit supérieur à 100, qui est égale à 1- P(X < 100).
Pour utiliser l'approximation normale pour calculer cette probabilité, nous devons d'abord reconnaître que la distribution normale est continue et appliquer la correction de continuité . Cela signifie que la probabilité d'une seule valeur discrète, telle que 100, est étendue à la probabilité de l' intervalle (99,5, 100,5). Puisque nous nous intéressons à la probabilité que X soit inférieur ou égal à 100, l’approximation normale s’applique à la limite supérieure de l’intervalle, 100,5. Si nous nous intéressions à la probabilité que X soit strictement inférieur à 100, nous appliquerions alors l’approximation normale à l’extrémité inférieure de l’intervalle, 99,5.
Ainsi, appliquer la correction de continuité et normaliser la variable X donne ce qui suit :
1 - P(X < 100)
= 1 - P(X < 100,5)
= 1 - P(Z < (100,5 - 80)/6,93)
= 1 - P(Z < 20,5/6,93)
= 1 - P(Z < 2,96) = 1 - (0,9985) = 0,0015. Étant donné que la valeur 100 est à près de trois écarts types de la moyenne 80, la probabilité d’observer un décompte aussi élevé est extrêmement faible.