Relación entre variables medidas con escal ordinal (correlación de rango)

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Coeficiente de correlación de rangos de Spearman

Los puntos de medida de la relación entre dos variables X e Y medidas en escal ordinal son los rangos. R(x_i),R(y_i), i=1,\dots,n, que se asignan a las observaciones x_i e y_j de acuerdo con su rango. Para estos pares de rangos podemos calcular el coeficiente de correlación de rangos de Spearman del siguiente modo: r_s=1-\frac{6 \sum^n_{i=1}\limits [R(x_i)-R(y_i)]^2}{n(n^2-1)}=
1-\frac{6 \sum^n_{i=1}\limits d_i^2}{n(n^2-1)},\quad
d_i=R(x_i)-R(y_i) El coeficiente de rangos de Spearman aplica el coeficiente de correlación de Bravais-Pearson para los rangos (más que apra las observaciones en si mismas). Se cumple que: \sum^n_{i=1}\limits R(x_i)=\sum^n_{i=1}\limits R(y_i)=\frac{n(n+1)}{2} \sum^n_{i=1}\limits R(x_i)^2=\sum^n_{i=1}\limits
R(y_i)^2=\frac{n(n+1)(2n+1)}{6} \sum^n_{i=1}\limits R(x_i)R(y_i)=\frac{1}{2}\left[\sum^n_{i=1}\limits R(x_i)^2
+\sum^n_{i=1}\limits R(y_i)^2-\sum^n_{i=1}\limits
(R(x_i)-R(y_i))^2\right] El coeficiente de correlación de Bravais-Pearson se calcula como: r_{yx}=\frac{n
\sum^n_{i=1}\limits x_i y_i
-
\sum^n_{i=1}\limits x_i \sum^n_{i=1}\limits y_i}
{\sqrt{\left[n\sum^n_{i=1}\limits x^2_i -
\left(\sum^n_{i=1}\limits x_i \right)^2\right] \left[n
\sum^n_{i=1}\limits y^2_i - \left(\sum^n_{i=1}\limits
y_i\right)^2\right]}} Si usamos los correspondientes rangos R(x_i) y R(y_i) en lugar de las observaciones x_i e y_i se puede derivar el coeficiente de correlación de rangos de Spearman: r_{yx}=\frac{n \sum^n_{i=1}\limits R(x_i) R(y_i) -
\sum^n_{i=1}\limits R(x_i) \sum^n_{i=1}\limits
R(y_i)}{\sqrt{\left[n \sum^n_{i=1}\limits R(x_i)^2 -
\left(\sum^n_{i=1}\limits R(x_i) \right)^2\right] \left[n
\sum^n_{i=1}\limits R(y_i)^2 - \left(\sum^n_{i=1}\limits
R(y_i)\right)^2\right]}} =\frac{n\cdot \frac{1}{2}\cdot 2 \frac{n(n+1)(2n+1)}{6}-n\cdot
\frac{1}{2}\sum^n_{i=1}\limits [R(x_i)-R(y_i)]^2 -
\frac{n^2(n+1)^2}{4}} {n\cdot
\frac{n(n+1)(2n+1)}{6}-\frac{n^2(n+1)^2}{4}} =1-\frac{6\sum^n_{i=1}\limits [R(x_i)-R(y_i)]^2}{n(n+1)(n-1)}

propiedades:

  • El coeficente de correlación de rangos de Spearman sólo toma valores entre -1 y +1: -1<=r_s<=1.
  • el coeficiente de rangos toma el valor +1 si los rangos son exactamente los mismos es decir: R(x_i)=R(y_i) para todo i.
  • el coeficiente de correlación de Spearman toma el valor -1, si los rangos son exactamente opuestos, es decir: R(x_i)=n+1-R(y_i) para todo i.

ejemplo:

X- Posición de un esquiador en descenso Y- Posición de un esquiador en slalom ?’Existe alguna relación entre la posición de ambas disciplinas?

esquiador 1 2 3 4 5 6
descenso 2 1 3 4 5 6
slalom 2 3 1 5 4 6
{d_i}^2 0 4 4 1 1 0

El coeficiente muestra una fuerte relación entre los rangos de las dos disciplinas.

Coeficiente de correlación de rangos de Kendall

El coeficiente de correlación de rangos de Kendall se basa en la comparación de la relación de ordenes de todos los posibles pares de las observaciones de las dos variables. La concordancia en los pares de las variables muestra el mismo orden, es decir, para ambas variables el valor o es pequeño o grande. La discordancia es cuando los pares muestran una ordenación distinta, esto es cuando una variable toma el valor alto y la otra uno bajo. Más aún, pueden existir pares de variables, que son iguales en términos de un valor o de los dos, llamaremos a esto limitado. El número de pares concordantes P y de pares discordantes Q se calcula del siguiente modo:

  • El par de variables R(x_i) y R(y_i) están ordenadas en orden creciente de R(x_i).
  • Llamamos p_i al número de rangos subsiguientes de R(y_i) que son mayores que R(y_i).
  • Llamamos q_i al número de rangos subsiguientes de R(y_i) que son menores que R(y_i).

utilizando el número de pares discordantes y concordantes, se puede calcular el coeficiente de correlación de Kendall: T=\frac{P-Q}{P+Q}, con Q=\sum_i q_i and P=\sum_i p_i. El número total de rangos que tienen que ser comparados es: n(n-1)/2=Q+P. El coeficiente de correlación puede tomar valores entre -1 y +1: -1<=\tau<=1. Una forma alternativa de calcular el coeficiente de rango de Kendall es –usando el número total de rangos que tienen que compararse– es: T=1-\frac{4Q} {n(n-1)}=\frac{4P}{n(n-1)}-1

ejemplo:

Se han ordenado a diez trabajadores de acuerdo con sus habilidades en el trabajo (X) y su ética de trabajo (Y). A fin de realizar una afirmación sobre la relación entre ambas variables, calculamos el coeficiente de correlación de Spearman y Kendall.

trabajador 1 2 3 4 5 6 7 8 9 10
R(X) 7 3 9 10 1 5 4 6 2 8
R(Y) 3 9 10 8 7 1 5 4 2 6
{d_i}^2 16 36 1 4 36 16 1 4 0 4
  • coeficiente de correlación de Spearman

    r_s=1-\frac{6 \sum^n_{i=1}\limits d_i^2}{n(n^2-1)}

    r_s=1-6 \cdot 118/(10 \cdot 99)=0,2848

  • coeficiente de correlación de Kendall

    trabajador 5 9 2 7 6 8 1 10 3 4
    R(X) 1 2 3 4 5 6 7 8 9 10
    R(Y) 7 2 9 5 1 4 3 6 10 8
    q 6 1 6 3 0 1 0 0 1 0
    p 3 7 1 3 5 3 3 2 0 0

    Q=18, P=27

    Q+P=n(n-1)/2=10 \cdot 9/2=45

    \tau=(27-18)/(27+18)=9/45=0,2

Este ejemplo nos permite calcular el coeficiente de correlación de rangos de Spearman y de Kendall para dos series de rangos que seleccione el usuario. Tras comenzar el ejemplo, se debe especificar el número de elementos de la lista de rangos. Después, se suministrarán las series de rangos. Para comparar, se dispone del siguiente conjunto de datos:

estudiante 1 2 3 4 5 6
puesto en matemáticas 1 4 5 1 3 2
puesto en física 2 5 3 2 2 3

Para estas series de rangos, el programa genera el siguiente resultado Es folnode4 f lev2 1 1.gif Es folnode4 f k 2.gif En la siguiente tabla se ofrece la posición de 20 atletas en 100 metros lisos 200 metros lisos:

atleta(i) 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20
100 metros 5 7 3 13 2 15 19 14 12 1 6 20 17 4 18 11 10 16 9 8
200 metros 3 9 1 10 7 5 13 14 17 4 11 16 18 12 20 2 15 19 6 8

Se puede obtener la relación estadística entre las posiciones de los atletas en las dos disciplinas utilizando el coeficiente de correlación de Spearman y el de Kendal. Calculando ambos coeficientes se obtiene los siguientes resultados: Es folnode4 f k 1 1.gif El coeficiente de Spearman se calcula de acuerdo con: r_s = 1- \frac{6\sum_{i=1}^{n}{d_i}^2}
                {n(n^2-1)} La información necesaria para aplicar la fórmula se puede obtener de la tabla – d de las diferencias entre x_i e y_j, n es el número de atletas (= 20). El proceso de cálculo da un coeficiente de 0,6617, que implica una relación positiva entre la posición en ambas disciplinas - atletas buenos en 100 metros también lo son en 200 metros. Para calcular el coeficiente de correlación de Kendall, se necesita determinar la concordancia o discordancia entre los pares de atletas. Un par de observaciones (=atletas) se denomina concordancia, si la misma relación de orden se aplica en ambas variables y discordancia si la relación de orden no es igual. Por ejemplo, los atletas 1 y 2 son concordantes: el atleta 1 tiene una mejor posición que el 2 tanto en 100 metros como en 200 metros. Los atletas 1 y 5, sin embargo, son discordantes: el atleta 1 está por detrás en 100 metros pero por delante del atleta 5 en 200 metros. En conjunto, existen \frac{n\cdot (n-1)}{2}
= 190 diferentes pares en este ejemplo, 138 son concordantes y 52 son discordantes. Utilizando estos números el coeficiente de correlación de rangos puede ser calculado:  \tau = \frac {P-Q}{P+Q}, Donde Q=\sum_i q_i and P=\sum_i p_i. Aquí, P es el número de pares concordantes y Q el número de pares discordantes. El coeficiente de correlación de rangos de Kendall toma un valor 0,4526 en este ejemplo, lo cual evidencia una relación positiva.