Relation entre variables nominales (contingence)

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Afin d’analyser la relation entre deux variables et mesurées sur des échelles nominales, on part de la distribution de fréquence conjointe de et mise sous la forme d’un tableau de contingence composé des fréquences absolues (effectifs) ou des fréquences relatives . Comme on l’a déjà montré au chapitre ”caractéristiques des distributions bidimensionnelles”, la fréquence relative de l’apparition conjointe des réalisations et est, lorsqu’il y a indépendance, égal au produit des fréquences relatives de ces valeurs dans les distributions marginales des deux variables : On est alors en mesure de calculer une quantité auxiliaire, la contingence quadratique, notée : Les numérateurs des quantités sommées ci-dessus sont formés des carrés des écarts quadratiques entre les fréquences absolues (resp. relatives) observées et ce qu’elles seraient s’il y avait indépendance. Le fait de diviser ces quantités par les fréquences absolues (resp. relatives) sous hypothèse d’indépendance, revient à effectuer une standardisation des numérateurs. A partir de la contingence quadratique, on peut définir le coefficient de contingence par : Celui mesure l’intensité d’une relation de dépendance entre deux variables mesurées sur des échelles nominales. Il vérifie : Lorsque le coefficient de contingence est égal à 0, il y a indépendance statistique des deux variables. Le coefficient de contingence ne prend jamais la valeur 1, même lorsqu’il existe une relation parfaite entre les deux variables étudiées, car la taille d’échantillon est toujours strictement supérieure à 0; par conséquent, les dénominateurs sont toujours supérieurs aux numérateurs dans les sommes précédentes. Afin de résoudre ce problème et d’atteindre le valeur 1 en situation de dépendance parfaite, on a souvent recours au coefficient de contingence corrigé, défini par : Alors :

Exemple:

On souhaite savoir s’il existe une relation entre le fait de fumer et le cancer des poumons. On dispose du tableau de contingence suivant :

DM
oui () non ()
fume oui () 10 15 25
fume non () 5 70 75
DM 15 85 100

La valeur prise par le coefficient de contingence corrigé, 0.53, met en évidence une relation entre le fait de fumer et le cancer des poumons. Cet exemple fournit les distributions conjointes de deux variables quelconques issues de l’un des jeux de données suivants :

Etudes

On relevé, sur 107 étudiants, les valeurs prises par les variables suivantes : majeure, sexe, âge, nombre de semestres d’étude, citoyenneté, situation sociale (très bonne/bonne, satisfaisante, mauvaise), situation psychologique (très instable, instable, stable, très stable) et résultats obtenus (très bons/bons, satisfaisants, moyens).

Information

On a demandé à 941 personnes si elles étaient abonnées à une revue. On a également relevé les valeurs prises, sur chaque personne, par les variables suivantes : situation professionnelle (travail, chômage), tranche d’âge (18 - 29, 30 - 39, ou 40 - 49), niveau d’études (primaire,collège, lycée)

Stations-essence

On s’intéresse à un ensemble de 700 stations-essence. On relève les valeurs prises, pour chaque station, par les variables suivantes : taille de la ville (“petite” si elle compte moins de 100000 habitants, “grande” si elle a plus de 100000 habitants), type de rue sur laquelle est située la station (nationale/autoroute, départementale, urbaine). On relève de plus le type de service assuré (service plein, self-service) et le niveau de ventes (faible, moyen, élevé). Commencez par sélectionner l’un des jeux de données. Pour le jeu de données sélectionné, vous obtiendrez en sortie l’ensemble des distributions conjointes de deux variables possibles sous la formes de tableaux de contingence, de même que les statistiques du et les coefficients de contingence associés. Le jeu de données ”supermarché” comprend les valeurs des variables ci-dessous, observées sur un échantillon aléatoire de clients :

Variable réalisations possibles
sexe - masculin
- féminin
moyen de paiement - cash
- carte bleue
- carte de crédit
lieu de résidence - Berlin
- hors Berlin

Dans ce qui suit, on considère successivement les trois croisements possibles des variables ci-dessus et on calcule le coefficient de contingence pour chacun d’eux. La distribution conjointe des variables sexe et moyen de paiement est résumée par un tableau de contingence 23.

sexe DM
masculin 31 (0,188) 32(0,194) 23(0,139 86 (0,521)
féminin 30 (0,182) 29(0,176) 20 (0,121) 79 (0,479)
DM 61 (0,370) 61(0,370) 43 (0,260) 165
statistique du 0,08
coefficient de contingence 0,02
coefficient de contingence corrigé 0,03

La valeur du coefficient de contingence corrigé, 0.03, montre qu’il n’existe qu’une faible relation entre sexe et moyen de paiement utilisé. La distribution conjointe des variables sexe et résidence est résumée par un tableau de contingence 22.

sexe DM
Berlin hors Berl n
masculin 50 (0,303) 36 (0,218) 86 (0,521)
féminin 37 (0,224) 42 (0,255) 79(0,429)
DM 87 (0,527) 78 (0,473) 165 (1,00)
statistique du 2,11
coefficient de contingence 0,11
coefficient de contingence corrigé 0,16

La valeur du coefficient de contingence corrigé, 0.16, montre qu’il n’existe qu’une faible relation entre sexe et lieu de résidence. La distribution conjointe des variables résidence et moyen de paiement est résumée par un tableau de contingence 23.

lieu de résidence DM
Berlin 44 (0,267) 22(0,133) 21(0,127) 87(0,527)
hors Berlin 17(0,103) 39(0,237) 22(0,133) 78(0,473)
DM 62(0,370) 61(0,370) 43(0,260) 165(1,00)
statistique du 16,27
coefficient de contingence 0,30
coefficient de contingence corrigé 0,42

La valeur du coefficient de contingence corrigé, 0.42, beaucoup plus élevée que dans les deux cas précédents, met en évidence une relation entre le lieu de résidence et le moyen de paiement utilisé.