Introduction
L'analyse de la variance (ANOVA) permet de comparer les moyennes de k populations, à partir d'échantillons aléatoires et indépendants prélevés dans une population.
Nous illustrerons
la procédure ANOVA en cinq étapes. Les calculs sont souvent organisés dans une
table ANOVA. Le tableau ANOVA décompose les composantes de la variation des
données en variation entre traitements et erreur (variation résiduelle). Le
tableau ANOVA est configuré comme suit :
Source de Variation |
Sommes
des carrés (SS) |
Degrés
de liberté (df) |
Carrés
moyen (MS) |
F |
Entre traitement |
SSB=∑nj (Ẍj - Ẍ)2 |
K-1 |
MSB=(SSB)/(K-1) |
F = MSB/MSE |
Erreur (ou Résiduel) |
SSE=∑∑ (X -
Ẍj)2 |
N-k |
MSE = (SSE)/(N-K) |
|
Total |
SST=∑∑ (X -
Ẍ)2 |
N-1 |
Avec :
X = observation individuelle,
Ẍj = échantillon
moyen du jnième traitement (ou groupe),
Ẍ = moyenne globale de l'échantillon,
K = le nombre de
traitements ou de groupes de comparaison indépendants,
N = nombre total
d'observations ou taille totale de l'échantillon
Source de variation
La première colonne
s'intitule "Source de variation" et délimite entre traitement
et erreur ou variation résiduelle. La variation totale est la somme de la
variation entre le traitement et l'erreur.
Somme des carrés
La deuxième colonne
s'intitule " somme des carrés (SS)".
-
La somme des
carrés de traitement est :
SSB=∑nj (Ẍj - Ẍ)2
Elle est calculée en
additionnant les différences au carré entre chaque moyenne de traitement (ou groupe)
et la moyenne globale. Les différences au carré sont pondérées par la taille
des échantillons par groupe (nj).
-
La somme des
carrés des erreurs est :
SSE=∑∑ (X
- Ẍj)2
Elle est calculée en
additionnant les différences au carré entre chaque observation et sa moyenne de
groupe (c.-à-d. les différences au carré entre chaque observation du groupe 1
et la moyenne du groupe 1, les différences au carré entre chaque observation du
groupe 2 et la moyenne du groupe 2, etc.).
-
Le total des
carrés est :
SST=∑∑ (X
- Ẍ)2
Il est calculé en
additionnant les différences au carré entre chaque observation et la moyenne
globale de l'échantillon. Dans une ANOVA, les données sont organisées par
groupes de comparaison ou de traitement. Si toutes les données étaient
regroupées en un seul échantillon, le SST refléterait le numérateur de la
variance de l'échantillon calculé sur l'échantillon groupé ou total. SST ne figure
pas directement dans la statistique F. Cependant, SST = SSB + SSE, donc
si deux sommes de carrés sont connues, la troisième peut être calculée à partir
des deux autres.
Degrés de liberté
La troisième colonne
contient des degrés de liberté.
-
Les degrés de liberté
entre les traitements sont df1 = k-1.
-
Le degré de liberté
d'erreur est df2 = N - k.
-
Les degrés de liberté total
est N-1 (et il est également vrai que (k-1) + (N-k) = (N-1).
Carrés moyens
La quatrième colonne
contient les « carrés moyens (MS) » qui sont calculés en divisant les sommes
des carrés (SS) par degrés de liberté (df), ligne par ligne.
-
Carré moyen entre groupe :
MSB = SSB / (k-1) et
-
Carré moyen de l’erreur :
MSE = SSE / (N-k).
La statistique F
La cinquième colonne
contient La statistique F. Il est calculé en prenant le rapport MSB /
MSE.
Example pratique
On a effectué un essai clinique pour comparer les programmes de perte de
poids des patients. Les participants ont été assignés au hasard pendant 8
semaines à l'un des programmes de comparaison et sont conseillés sur les
détails du programme attribué. A la fin de l’étude nous avons calculé la perte
de poids, en calculant la différence de poids mesurée au début de l'étude
(ligne de base) et le poids mesuré à la fin de l'étude (après 8 semaines).
Les trois programmes de perte de poids utilisé étaient : un régime
hypocalorique, un régime faible en graisse et un régime faible en
glucides. Pour la comparaison, un quatrième groupe témoin a été considéré. Le
groupe témoin a été inclus juste pour évaluer l'effet placebo (c'est-à-dire la
perte de poids due à la simple participation à l'étude). Au total, vingt
patients ont participé à l'étude et sont répartis au hasard dans l'un des
quatre groupes de régime. Des différences positives indiquent des pertes de
poids et des différences négatives indiquent des gains de poids. À des fins
d'interprétation, les différences de poids sous forme de pertes de poids sont
indiquées ci-dessous.
Faible
teneur en graisse (T2) |
Faible
teneur en glucides (T3) |
Control
(T4) |
|
8 |
2 |
3 |
2 |
9 |
4 |
5 |
2 |
6 |
3 |
4 |
-1 |
7 |
5 |
2 |
0 |
3 |
1 |
3 |
3 |
Question :
Existe-t-il une différence statistiquement significative dans la perte de
poids moyenne entre les quatre régimes ?
Solution :
Nous exécuterons l'ANOVA en utilisant une approche en cinq étapes.
·
Étape
1.
Établissez des hypothèses et déterminez le niveau de signification
H0: μ1 = μ2 = μ3 = μ4;
H1: Les
moyens ne sont pas tous égaux avec α=0.05
·
Étape
2.
Sélectionnez le test statistique approprié.
Ici nous utiliserons le test statistique F pour ANOVA, F = MSB / MSE.
·
Étape
3.
Configurez la règle de décision.
La valeur critique appropriée peut être trouvée dans un tableau de
probabilités pour la distribution F. Pour déterminer la valeur critique de F,
nous avons besoin de degrés de liberté, df1 = k-1 et df2 = N-k. Dans notre
exemple, df1 = k-1 = 4-1 = 3 et df2 = N-k = 20-4 = 16.
Sur la table de Fisher, la valeur critique est de F est 3,24
et la règle de décision est la suivante : Rejeter H0 si F > 3,24.
·
Étape
4.
Calculez le test statistique.
Pour organiser
nos calculs nous complétons le tableau ANOVA. Afin de calculer les sommes des
carrés, nous devons d'abord calculer les moyennes de l'échantillon pour chaque
groupe et la moyenne globale sur la base de l'échantillon total.
T1 |
T2 |
T3 |
T4 |
Total |
|
N |
5 |
5 |
5 |
5 |
20 |
Moyen du
groupe |
6.6 |
3 |
3.4 |
1.2 |
3.55 |
Si nous regroupons toutes les observations N = 20, la moyenne globale est l'indicateur Ẍ = 3,6.
Nous pouvons
maintenant calculer
SSB=∑nj (Ẍj - Ẍ)2
Dans ce cas :
SSB = 5(6.6
– 3.6)2 + 5(3.0 -3.6)2 + 5(3.4 -3.6)2 + 5(1.2
-3.6)2
SSB = 45.0
+ 1.8 + 0.2 + 28.8 = 75.8
Après nous
calculons :
SSE=∑∑ (X
- Ẍj)2
La SSE nécessite
de calculer les différences au carré entre chaque observation et sa moyenne de
groupe. Nous calculerons le SSE en plusieurs parties.
-
Pour
les participants au régime de faible calorique :
Faible Calorie |
(X - 6.6) |
(X - 6.6)2 |
8 |
1.4 |
2.0 |
9 |
2.4 |
5.8 |
6 |
-0.6 |
0.4 |
7 |
0.4 |
0.2 |
3 |
-3.6 |
13.0 |
Total |
0 |
21.4 |
Donc,
∑ (X
- Ẍ1)2 = 21.4
-
Pour
les participants au régime faible en graisse :
Faible teneur en graisse |
(X - 3.0) |
(X - 3.0)2 |
2 |
-1.0 |
1.0 |
4 |
1.0 |
1.0 |
3 |
0.0 |
0.0 |
5 |
2.0 |
4.0 |
1 |
-2.0 |
4.0 |
Totals |
0 |
10.0 |
Donc,
∑ (X
- Ẍ2)2 = 10.0
-
Pour
les participants au régime pauvre en glucides :
Faible
en Glucide |
(X
- 3.4) |
(X
- 3.4)2 |
3 |
-0.4 |
0.2 |
5 |
1.6 |
2.6 |
4 |
0.6 |
0.4 |
2 |
-1.4 |
2.0 |
3 |
-0.4 |
0.2 |
Totals |
0 |
5.4 |
Donc :
∑ (X
- Ẍ3)2 = 5.4
-
Pour
les participants du groupe témoin :
Control |
(X
- 1.2) |
(X
- 1.2)2 |
2 |
0.8 |
0.6 |
2 |
0.8 |
0.6 |
-1 |
-2.2 |
4.8 |
0 |
-1.2 |
1.4 |
3 |
1.8 |
3.2 |
Totals |
0 |
10.6 |
Donc :
∑ (X
- Ẍ4)2 = 10.6
Ainsi :
SSE = ∑∑ (X - Ẍj)2 = 21.4 + 10.0
+ 5.4 + 10.6 = 47.4
Nous pouvons
maintenant construire la table ANOVA.
Source of Variation |
Sommes des carrés (SS) |
Degrés de liberté (df) |
Carrés moyens (MS) |
F |
Entre traitement |
75.8 |
4-1 = 3 |
75.8/3 = 25.3 |
25.3/3.0 = 8.43 |
Erreur (ou Résiduel) |
47.4 |
20-4 = 16 |
47.4/16 = 3.0 |
|
Total |
123.2 |
20-1 = 19 |
·
Étape
5.
Conclusion.
Nous rejetons H0 car 8.43> 3.24. Nous avons des preuves statistiquement significatives à α = 0,05 pour montrer qu'il existe une différence de perte de poids moyenne entre les quatre régimes.
L'ANOVA est un
test qui fournit une évaluation globale d'une différence statistique dans plus
de deux moyennes indépendantes. Dans cet exemple, nous constatons qu'il existe
une différence statistiquement significative dans la perte de poids moyenne
parmi les quatre régimes considérés. En plus de rapporter les résultats du test
statistique d'hypothèse (c'est-à-dire qu'il existe une différence
statistiquement significative dans les pertes de poids moyennes à α = 0,05),
les enquêteurs doivent également déclarer les moyennes d'échantillonnage
observées pour faciliter l'interprétation des résultats. Dans cet exemple, les
participants au régime faible en calorique ont perdu en moyenne 6,6 Kg en 8
semaines, comparativement à 3,0 et 3,4 Kg dans les groupes à faible teneur en
matières grasses et en glucides, respectivement. Les participants du groupe
témoin ont perdu en moyenne 1,2 Kg, ce que l'on pourrait appeler l'effet
placebo, car ces participants ne participaient pas à un bras actif de l'essai
spécifiquement ciblé pour la perte de poids.
Télécharger la Table de la loi de Fisher