Une statistique du chi carré ( χ 2 ) est un test qui mesure la façon dont un modèle se compare aux données observées réelles. Les données utilisées pour calculer une statistique du Khi deux doivent être aléatoires, brutes, mutuellement exclusives , tirées de variables indépendantes et d'un échantillon suffisamment grand. Par exemple, les résultats du lancer d'une pièce équitable répondent à ces critères.

Les tests du chi carré sont souvent utilisés dans les tests d'hypothèses . La statistique du chi carré compare la taille de tout écart entre les résultats attendus et les résultats réels, compte tenu de la taille de l'échantillon et du nombre de variables dans la relation.

Pour ces tests, des degrés de liberté sont utilisés pour déterminer si une certaine  hypothèse nulle  peut être rejetée en fonction du nombre total de variables et d'échantillons au sein de l'expérience. Comme pour toute statistique, plus la taille de l'échantillon est grande, plus les résultats sont fiables.

POINTS CLÉS À RETENIR

  • Une statistique du chi carré ( χ 2 ) est une mesure de la différence entre les fréquences observées et attendues des résultats d'un ensemble d'événements ou de variables.
  • Le chi carré est utile pour analyser de telles différences dans les variables catégorielles, en particulier celles de nature nominale.
  • χ 2 dépend de la taille de la différence entre les valeurs réelles et observées, les degrés de liberté et la taille des échantillons.
  • χ 2 peut être utilisé pour tester si deux variables sont liées ou indépendantes l'une de l'autre.
  • Il peut également être utilisé pour tester la qualité de l'ajustement entre une distribution observée et une distribution théorique de fréquences.

La formule du chi carré est


χc2=Ei(OiEi)2



Que vous dit une statistique du Khi deux ?

Il existe deux types principaux de tests du chi carré : le test d'indépendance, qui pose une question de relation, telle que « Y a-t-il une relation entre le sexe de l'étudiant et le choix de cours ? et le  test d'adéquation , qui demande quelque chose comme "Dans quelle mesure la pièce dans ma main correspond-elle à une pièce théoriquement équitable ?"

 

L'analyse du chi carré est appliquée aux variables catégorielles et est particulièrement utile lorsque ces variables sont nominales (où l'ordre n'a pas d'importance, comme l'état matrimonial ou le sexe).

Indépendance

Lors de l'examen du sexe de l'étudiant et du choix de cours, un test d'indépendance χ 2 pourrait être utilisé. Pour faire ce test, le chercheur recueillerait des données sur les deux variables choisies (sexe et cours choisis), puis comparerait les fréquences auxquelles les étudiants et étudiantes choisissent parmi les classes proposées à l'aide de la formule donnée ci-dessus et d'un tableau statistique χ 2 .

S'il n'y a pas de relation entre le sexe et le choix des cours (c'est-à-dire s'ils sont indépendants), alors les fréquences réelles auxquelles les étudiants masculins et féminins choisissent chaque cours proposé devraient être approximativement égales, ou inversement, la proportion d'hommes et de femmes le nombre d'étudiantes dans un cours sélectionné doit être approximativement égal à la proportion d'étudiants et d'étudiantes dans l'échantillon.

Un test d'indépendance χ 2 peut nous dire dans quelle mesure il est probable que le hasard puisse expliquer toute différence observée entre les fréquences réelles dans les données et ces attentes théoriques.

Qualité de l'ajustement

Le X2 fournit un moyen de tester dans quelle mesure un échantillon de données correspond aux caractéristiques (connues ou supposées) de la population plus large que l'échantillon est censé représenter. C'est ce qu'on appelle la qualité de l'ajustement . Si les données de l'échantillon ne correspondent pas aux propriétés attendues de la population qui nous intéresse, alors nous ne voudrions pas utiliser cet échantillon pour tirer des conclusions sur la population plus large.

Exemple

Par exemple, considérons une pièce de monnaie imaginaire avec exactement 50/50 de chances de tomber sur pile ou face et une vraie pièce que vous lancez 100 fois. Si cette pièce est juste, alors elle aura également une probabilité égale d'atterrir de chaque côté, et le résultat attendu de lancer la pièce 100 fois est que les faces viendront 50 fois et les queues viendront 50 fois.

Dans ce cas, χ 2 peut nous dire dans quelle mesure les résultats réels de 100 lancers de pièces se comparent au modèle théorique selon lequel une pièce équitable donnera des résultats 50/50. Le lancer réel pourrait arriver à 50/50, ou 60/40, ou même 90/10. Plus les résultats réels des 100 lancers sont éloignés de 50/50, moins l'ajustement de cet ensemble de lancers est bon par rapport à l'espérance théorique de 50/50, et plus nous pourrions conclure que cette pièce n'est pas réellement un monnaie juste.

Quand utiliser un test du Khi deux

Un test du chi carré est utilisé pour aider à déterminer si les résultats observés sont conformes aux résultats attendus et pour exclure que les observations sont dues au hasard. Un test du chi carré est approprié pour cela lorsque les données analysées proviennent d'un échantillon aléatoire et lorsque la variable en question est une variable catégorielle. Une variable catégorielle est une variable qui se compose de sélections telles que le type de voiture, la race, le niveau d'instruction, les hommes par rapport aux femmes, à quel point quelqu'un aime un candidat politique (de beaucoup à très peu), etc.

Ces types de données sont souvent collectées via des réponses à des enquêtes ou des questionnaires. Par conséquent, l'analyse du chi carré est souvent la plus utile pour analyser ce type de données.

A quoi sert un test du chi carré ?

Le chi carré est un test statistique utilisé pour examiner les différences entre les variables catégorielles d'un échantillon aléatoire afin de juger de la qualité de l'ajustement entre les résultats attendus et observés. 

Qui utilise l'analyse du chi carré ?

Étant donné que le chi carré s'applique aux variables catégorielles, il est surtout utilisé par les chercheurs qui étudient les données de réponse aux enquêtes. Ce type de recherche peut aller de la démographie aux études de consommation et de marketing en passant par les sciences politiques et l'économie.

L'analyse du chi carré est-elle utilisée lorsque la variable indépendante est nominale ou ordinale ?

Une variable nominale est une variable catégorielle qui diffère par la qualité, mais dont l'ordre numérique pourrait être sans importance. Par exemple, demander à quelqu'un sa couleur préférée produirait une variable nominale. En revanche, demander l'âge de quelqu'un produirait un ensemble ordinal de données. Le chi carré peut être mieux appliqué aux données nominales.