Relação entre Variáveis Discretas (Correlação de Ordem)

From MM*Stat International

Revision as of 12:24, 23 March 2020 by Siskosth (talk | contribs)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Coeficiente de correlação de ordem de Spearman

O ponto inicial para a medida dos relacionamentos de duas variáveis ordinais discretas X e Y são as ordens R(x_i),R(y_i), i=1,\dots,n, que são designadas para as observações x_{i} e y_{j} de acordo com sua ordem. As ordens são definidas de forma que R(x_{i}) seja igual a 1 para o x_{i} que assume o maior valor observado, que seja igual a 2 para o x_{i} que assuma o segundo maior valor observado e assim por diante. O é calculado dos pares de ordem da seguinte maneira: r_s=1-\frac{6 \sum^n_{i=1}\limits [R(x_i)-R(y_i)]^2}{n(n^2-1)}=
1-\frac{6 \sum^n_{i=1}\limits d_i^2}{n(n^2-1)},\quad
d_i=R(x_i)-R(y_i) O coeficiente de correlação de ordem de Spearman significa que se aplica o às ordens (ao invés das observações em si). É verdadeiro que: \sum_{i=1}^{n}\limits
R(x_{i})=\sum_{i=1}^{n}\limits R(y_{i})=\frac{n(n+1)}{2} \sum^n_{i=1}\limits R(x_i)^2=\sum^n_{i=1}\limits R(y_i)^2=\frac{n(n+1)(2n+1)
}{6} \sum_{i=1}^{n}\limits R(x_{i})R(y_{i})=\frac{1}{2}\left[ \sum_{i=1}^{n}
\limits R(x_{i})^{2}+\sum_{i=1}^{n}\limits
R(y_{i})^{2}-\sum_{i=1}^{n}\limits(R(x_{i})-R(y_{i}))^{2}\right] O coeficiente de correlação Bravais-Pearson é calculado como: r_{yx}=\frac{
n\sum_{i=1}^{n}\limits x_{i}y_{i}-\sum_{i=1}^{n}\limits
x_{i}\sum_{i=1}^{n}\limits y_{i}}{\sqrt{\left[
n\sum_{i=1}^{n}\limits x_{i}^{2}-\left( \sum_{i=1}^{n}\limits
x_{i}\right) ^{2}\right] \left[ n\sum_{i=1}^{n}\limits
y_{i}^{2}-\left( \sum_{i=1}^{n}\limits y_{i}\right) ^{2}\right]
}} Se nós usarmos as ordens correspondentes R(x_{i}) e R(y_{i}) ao invés das observações x_{i} e y_{i} nós estamos deriavando o coeficiente de correlação de ordem de Spearman: r_{yx}=\frac{n \sum^n_{i=1}\limits R(x_i) R(y_i) -
\sum^n_{i=1}\limits R(x_i) \sum^n_{i=1}\limits
R(y_i)}{\sqrt{\left[n \sum^n_{i=1}\limits R(x_i)^2 -
\left(\sum^n_{i=1}\limits R(x_i) \right)^2\right] \left[n
\sum^n_{i=1}\limits R(y_i)^2 - \left(\sum^n_{i=1}\limits R(y_i)\right)^2
\right]}} =\frac{n\cdot \frac{1}{2}\cdot 2 \frac{n(n+1)(2n+1)}{6}-n\cdot \frac{1}{2}
\sum^n_{i=1}\limits [R(x_i)-R(y_i)]^2 - \frac{n^2(n+1)^2}{4}} {n\cdot \frac{
n(n+1)(2n+1)}{6}-\frac{n^2(n+1)^2}{4}} =1-\frac{6\sum_{i=1}^{n}\limits[R(x_{i})-R(y_{i})]^{2}}{n(n+1)(n-1)}  =  r_{s}

Propriedades do coeficiente de correlação de ordem de Spearman

  • o coeficiente de correlação de ordem de Spearman pode apenas assumir valores entre -1 e +1: -1<=r_{s}<=1.
  • o coeficiente de correlação de ordem assume o valor +1 se as ordens comportarem-se exatamente da mesma maneira, ou seja, R(x_{i})=R(y_{i}) para todos i.
  • o coeficiente de correlação de ordem de Spearman assume o valo -1 e as ordens são perfeitamente opostas umas às outras, ou seja, R(x_{i})=n+1-R(y_{i}) para todos i.

exemplo:

X- Ordem de um atleta em descida de montanha (esqui) Y- Ordem de um atleta em slalom Existe um relacionamento entre a ordem em ambas as disciplinas?

atleta 1 2 3 4 5 6
descida de montanha  R(x_{i}) 2 1 3 4 5 6
slalom R(y_{i}) 2 3 1 5 4 6
{d_{i}}^{2} 0 4 4 1 1 0

O coeficiente r_{s} = 0.714 aponta para um forte relacionamento entre a ordem em ambas as disciplinas.

coeficiente de correlação de ordem de Kendall

O é baseado na comparação da relação de ordem para todos os pares possíveis de observações das duas variáveis. Concordantes são os pares de variáveis que mostram a mesma relação de ordem, ou seja, que mostra para ambas as variáveis um valor alto ou baixo. Discordantes são os pares que mostram uma relação de ordem diferente, ou seja, que mostram em uma das variáveis um baixo e na outra um alto valor. Além do mais, podem existir pares de variávis que são iguais em termos de um valor para ambos os valores. Nós chamamos isto de “bounding”. O número de pares concordantes P e dos pares discordantes Q podem ser calculados da seguinte maneira:

  • Os pares de variáveis R(x_i) e R(y_i) são ordenados em ordem crescente de R(x_i).
  • Nós chamamos p_{i} de número de ordens subseqüentes a R(y_{i}) que são maiores que R(y_{i}).
  • Nós chamamos q_i de número de ordens subseqüentes a R(y_i) que são menores que R(y_i).

Usando o número de pares de variáveis discordantes e concordantes, nós podemos calcular o coeficiente de correlação de ordem de Kendall: T=\frac{P-Q}{P+Q}, with Q=\sum_i q_i and P=\sum_i p_i. O número total de todas as ordem a serem comparadas é dado por: n(n-1)/2=Q+P. O coeficiente de correlação pode apenas asumir valores entre -1 e +1: 
-1<=\tau <=1. Uma maneira alternativa de calcular o coeficiente de correlação de ordem de Kendall é dado por: T=1-\frac{4Q}{n(n-1)}=\frac{4P}{n(n-1)}-1

Exemplo:

Dez trabalhadores foram ordenados de acordo com suas habilidades gerenciais (X) e suas éticas de trabalho (Y). Para fazer um enunciado sobre o relacionamento entre ambas as variáveis, nós calculamos tanto o coeficiente de correlação de ordem de Spearman quando o de Kendall.

trabalhador 1 2 3 4 5 6 7 8 9 10
R(X) 7 3 9 10 1 5 4 6 2 8
R(Y) 3 9 10 8 7 1 5 4 2 6
{d_i}^2 16 36 1 4 36 16 1 4 0 4
  • Coeficiente de correlação de ordem de Spearman

    r_s=1-\frac{6 \sum^n_{i=1}\limits d_i^2}{n(n^2-1)}

    r_{s}=1-6\cdot 118/(10\cdot 99)=0.2848

  • Coeficiente de correlação de ordem de Kendall

    trabalhador 5 9 2 7 6 8 1 10 3 4
    R(X) 1 2 3 4 5 6 7 8 9 10
    R(Y) 7 2 9 5 1 4 3 6 10 8
    q 6 1 6 3 0 1 0 0 1 0
    p 3 7 1 3 5 3 3 2 0 0

    Q=18, P=27

    Q+P=n(n-1)/2=10 \cdot 9/2=45

    T=(27-18)/(27+18)=9/45=0.200

Este exemplo permite-nos calcular os coeficientes de correlação de ordem de Spearman e Kendall para duas séries de ordens a serem inseridas pelo usuário. Após começar o exemplo, o número de elementos da lista de ordens tem que ser especificado. Então as séries de ordens em si têm que ser fornecidas. Para testar, o seguinte conjunto de dados pode ser inserido:

estudante 1 2 3 4 5 6
nota em matemática 1 4 5 1 3 2
nota em física 2 5 3 2 2 3

Para esta série de ordens, o programa irá fornecer os seguintes resultados

Pt folnode4 f lev2 1 1.gif Pt folnode4 f k 2.gif

As posições de 20 atletar em corrida de 100 metros e corrida de 200 metros são dadas na seguinte tabela:

Atleta(i) 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20
100 metros 5 7 3 13 2 15 19 14 12 1 6 20 17 4 18 11 10 16 9 8
200 metros 3 9 1 10 7 5 13 14 17 4 11 16 18 12 20 2 15 19 6 8

Em seguida, a relação estatística entre as posições dos atletas nas duas modalidade irá ser determinada. Uma vez que as variáveis são escaladas ordinalmente (discretas), nós iremos usar os coeficientes de correlação de ordem de Spearman e Kendall . Calculando-se ambos os coeficientes fornece os seguintes resultados:

Pt folnode4 f k 1 1.gif

O coeficiente de Spearman é calculado como: r_s = 1- \frac{6\sum_{i=1}^{n}{d_i}^2} {n(n^2-1)} As informações necessárias para utilizar a fórmula podem ser obtidas na tabela – d é a diferença entre x_{i} e y_{j}, n é o número de atletas (= 20). Os cálculos produzem um coeficiente de 0.6617, o que implica em um relacionamento positivo entre as posições nas duas disciplinas - atletas com boa performance em corrida de 100 metros também tendem a ter boa performance em corridas de 200 metros. Para calcular o coeficiente de correlação de ordem de Kendall, pode-se precisar determinar os pares concordantes e discordantes de atletas. Um par de observações (= atletas) é chamado de concordante se a mesma relação de ordem valer para ambas as variáveis e discordantes se as relações de ordem não concordarem. Por exemplo, os atletas 1 e 2 são concordantes: o atleta 1 tem uma posição melhor que o atleta 2 tanto em corridas de 100 quanto em corridas de 200 metros. Os atletas 1 e 5, entretanto, são discordantes: o atleta 1 está atrás nos 100 metros mas na frente do atleta 5 nas posições da corrida de 200 metros. No geral, existem \frac{n\cdot (n-1)}{2}=190 pares diferentes neste exemplo, 138 dos quais são concordantes e 52 são discordantes. Usando estes números, o coeficiente de correlação de ordem de Kendall pode ser calculado: \tau = \frac {P-Q}{P+Q}, onde Q=\sum_i q_i and P=\sum_i p_i. Aqui, P é o número de pares concordantes e Q o número de pares discordantes. O coeficiente de correlação de ordem de Kendall revela-se como sendo igual a 0.4526, neste exemplo, que é evidência para uma relação positiva entre as posições.