Relation entre variables ordinales (corrélation de rang)

From MM*Stat International

Revision as of 12:25, 23 March 2020 by Siskosth (talk | contribs)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Le coefficient de corrélation de Spearman

Afin de quantifier la relation entre deux variables X et Y mesurées sur des échelles ordinales, on considère les valeurs : R(x_{i}),R(y_{i}),i=1,\dots ,n, assignés aux observations x_{i} et y_{j} selon leur rang dans l’échantillon dont on dispose. Ces couples de rangs peuvent être utilisés pour calculer le coefficient de corrélation de Spearman, qui est défini par : r_{s}=1-\frac{6\sum_{i=1}^{n}\limits[R(x_{i})-R(y_{i})]^{2}}{n(n^{2}-1)}=1-
\frac{6\sum_{i=1}^{n}\limits d_{i}^{2}}{n(n^{2}-1)},\quad
d_{i}=R(x_{i})-R(y_{i}) Le coefficient de Spearman revient n’est autre que le coefficient de corrélation de Bravais- Pearson appliqué aux rangs (au lieu des observations). On a : \sum_{i=1}^{n}\limits R(x_{i})=\sum_{i=1}^{n}\limits R(y_{i})=\frac{
n(n+1)}{2} \sum^n_{i=1}\limits R(x_i)^2=\sum^n_{i=1}\limits R(y_i)^2=\frac{n(n+1)(2n+1)
}{6} \sum^n_{i=1}\limits R(x_i)R(y_i)=\frac{1}{2}\left[\sum^n_{i=1}\limits
R(x_i)^2 +\sum^n_{i=1}\limits R(y_i)^2-\sum^n_{i=1}\limits
(R(x_i)-R(y_i))^2\right] Le coefficient de Bravais-Pearson s’écrit : r_{yx}=\frac{
n\sum_{i=1}^{n}\limits x_{i}y_{i}-\sum_{i=1}^{n}\limits
x_{i}\sum_{i=1}^{n}\limits y_{i}}{\sqrt{\left[ n\sum_{i=1}^{n}\limits
x_{i}^{2}-\left( \sum_{i=1}^{n}\limits x_{i}\right) ^{2}\right] \left[
n\sum_{i=1}^{n}\limits y_{i}^{2}-\left( \sum_{i=1}^{n}\limits y_{i}\right)
^{2}\right] }} Si on utilise les rangs R(x_{i}) et R(y_{i}) en lieu et place des observations x_{i} et y_{i}, on obtient le coefficient de corrélation de Spearman: r_{yx}=\frac{n \sum^n_{i=1}\limits R(x_i) R(y_i) - \sum^n_{i=1}\limits
R(x_i) \sum^n_{i=1}\limits R(y_i)}{\sqrt{\left[n \sum^n_{i=1}\limits
R(x_i)^2 - \left(\sum^n_{i=1}\limits R(x_i) \right)^2\right] \left[n
\sum^n_{i=1}\limits R(y_i)^2 - \left(\sum^n_{i=1}\limits
R(y_i)\right)^2\right]}} =\frac{n\cdot \frac{1}{2}\cdot 2 \frac{n(n+1)(2n+1)}{6}-n\cdot \frac{1}{2}
\sum^n_{i=1}\limits [R(x_i)-R(y_i)]^2 - \frac{n^2(n+1)^2}{4}} {n\cdot \frac{
n(n+1)(2n+1)}{6}-\frac{n^2(n+1)^2}{4}} =1-\frac{6\sum^n_{i=1}\limits [R(x_i)-R(y_i)]^2}{n(n+1)(n-1)}

 Propriétés:

  • Le coefficient de corrélation de Spearman prend des valeurs comprises antre -1 et +1 : -1<=r_{s}<=1.
  • Le coefficient de corrélation de Spearman prend la valeur +1 lorsque les rangs se comportent exactement de la même façon pour les deux variables, i.e.: R(x_{i})=R(y_{i}) for all i.
  • Le coefficient de corrélation de Spearman prend la valeur -1 lorque les rangs sont symétriques, i.e.: R(x_{i})=n+1-R(y_{i}) pour tout i.

Exemple:

X- Classement d’un athlète à la descente en ski Y- Classement d’un athlète au slalom Existe-t-il une relation entre les classements dans les deux didciplines?

athlète 1 2 3 4 5 6
descente 2 1 3 4 5 6
slalom 2 3 1 5 4 6
{d_{i}}^{2} 0 4 4 1 1 0

La valeur du coefficient de Spearman (calculez-la !) met une évidence une forte relation entre les classement dans les deux disciplines.

Le coefficient de corrélation de Kendall

Le coefficient de corrélation de rang de Kendall est basé sur la comparaison de la relation d’ordre pour toutes les paires possibles de réalisations de deux variables. Les paires concordantes sont celles qui vérifient la même relation d’ordre, i. e. qui présentent simultanément de fortes ou de faibles valeurs des deux variables. Les paires discordantes sont celles qui vérifient des relations d’ordre différentes, c’est-à-dire que l’une présente une valeur faible de la première variable et l’autre une valeur élevée de celle-ci, dans chaque cas relativement à la seconde variable. Lorsque deux paires sont identiques en termes d’une variable ou des deux, on parle d’ex-aequos. Le nombre de paires concordantes P et le nombre de paires discordantes Q sont déterminés de la façon suivante :

  • Les paires \{R(x_{i}),R(y_{i})\} sont ordonnées par valeurs croissantes de R(x_{i}).
  • On note p_{i} le nombre de rangs subséquents à R(y_{i}) et supérieurs à R(y_{i}).
  • On note q_{i} le nombre de rangs subséquents à R(y_{i}) et inférieurs à R(y_{i}).

Alors Q=\sum_{i}q_{i}\text{ et }P=\sum_{i}p_{i}. Le coefficient de corrélation de rang de Kendall est alors défini par : T=\frac{P-Q}{P+Q}. Le nombre total de rangs à comparer est égal à : n(n-1)/2=Q+P. Les valeur du coefficient de Kendall sont nécessairement comprises entre -1 et +1: -1<=\tau <=1. Une façon alternative de calculer le coefficient de corrélation de Kendall –faisnat usage du nombre total de rangs à comparer– est d’avoir recours à la formule suivante : T=1-\frac{4Q}{n(n-1)}=\frac{4P}{n(n-1)}-1.

Exemple:

On classe dix employés selon leurs capacités managériales (X) et leur éthique de travail (Y). Afin d’étudier la relation entre les deux variables, on a recours aux coefficients de corrélation de rang de Spearman et Kendall.

Employé 1 2 3 4 5 6 7 8 9 10
R(X) 7 3 9 10 1 5 4 6 2 8
R(Y) 3 9 10 8 7 1 5 4 2 6
{d_{i}}^{2} 16 36 1 4 36 16 1 4 0 4
  • Coefficient de Spearman

    r_{s}=1-\frac{6\sum_{i=1}^{n}\limits d_{i}^{2}}{n(n^{2}-1)}

    r_{s}=1-6\cdot 118/(10\cdot 99)=0,2848

  • Coefficient de Kendall

    employee 5 9 2 7 6 8 1 10 3 4
    R(X) 1 2 3 4 5 6 7 8 9 10
    R(Y) 7 2 9 5 1 4 3 6 10 8
    q 6 1 6 3 0 1 0 0 1 0
    p 3 7 1 3 5 3 3 2 0 0

    Q=18, P=27

    Q+P=n(n-1)/2=10\cdot 9/2=45

    \tau =(27-18)/(27+18)=9/45=0,2

L’exemple suivant utorise le calcul des coefficients de Spearman et de Kendall pour deux séries de rangs spécifiées par l’utilisateur. Le nombre déléments de la liste de rangs doit être spécifié au lancement de l’exemple. Il faut alors spécifier les séries de rang souhaitées. Afin de tester la procédure, on peut considèrer le jeu de données suivant :

Etudiant 1 2 3 4 5 6
résultat en Mathématiques 1 4 5 1 3 2
résultat en Physique 2 5 3 2 2 3

Pour cet série de rangs, le programme donne en sortie le résultat ci-dessous :

Fr folnode4 f lev2 1 1.gif Fr folnode4 f k 2.gif

Les classements de 20 athlètes au 100 mètres et 200 mètres sont donnés dans la table ci-dessous :

Athlète(i) 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20
100 mètres 5 7 3 13 2 15 19 14 12 1 6 20 17 4 18 11 10 16 9 8
200 mètres 3 9 1 10 7 5 13 14 17 4 11 16 18 12 20 2 15 19 6 8

On étudie ci-dessous la relation entre les classements des athlètes dans les deux disciplines. Comme il s’agit de variables ordinales, on utilise les coefficients de corrélation de Spearman et Kendall. Après calcul, on obtient :

Fr folnode4 f k 1 1.gif

Le coefficient de Spearman est obtenu via la formule : r_{s}=1-\frac{6\sum_{i=1}^{n}{d_{i}}^{2}}{n(n^{2}-1)} L’information requise pour utiliser cette formule est obtenue à partir de la table précédente – d_{i} est l’écart entre x_{i} et 
y_{i}, n est le nombre d’athlètes (= 20). On obtient finalement un coefficient égal à 0,6617, ce qui indique une relation postive entre les classements dans les deux disciplines - les athlètes se comportant bien au 100 mètres ont tendance à bien se comporter au 200 mètres également. Afin de pouvoir calculer le coefficient de corrélation de Kendall, onn doit d’abord déterminer les paires discordantes et concordantes d’athlètes. Une paire d’observations (=athletes) est concordante si elle satisfaît la même relation d’ordre dans les deux diciplines et discordante sinon. Ainsi, la paire constituée des athlètes 1 et 2 est concordante : l’athlète 1 est mieux classé que l’athlète 2 que ce soit au 100 mètres ou au 200 mètres. Par contre la paire constituée des athlètes 1et 5 est discordante : l’athlète 1 est devant au 100 mètres mais se retrouve derrière l’athlète 5 au 200 mètres. Il y a au total \frac{
n\cdot (n-1)}{2}=190 différentes paires à considérer dans cet exemple; parmi celles-ci, P=138 sont concordantes et Q=52 sont discordantes. Le coefficient de corrélation de Kendall est alors donné par : \tau =\frac{P-Q}{P+Q}, et prend la valeur 0.4526; il met en évidence une relation positive.