Relazioni tra caratteri misurati su una scala ordinale (correlazione del rango)

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Il coefficiente di correlazione del rango di Spearman

Per poter misurare la correlazione tra due caratteri misurati sulla scala ordianle X e Y dobbiamo assegnare ranghi alle diverse osservazioni x_i e y_j R(x_i),R(y_i), i=1,\dots,n, per poterle ordinare. Per queste coppie di ranghi possiamo calcolare il coefficiente di correlazione del rango di Spearman come segue: r_s=1-\frac{6 \sum^n_{i=1}\limits [R(x_i)-R(y_i)]^2}{n(n^2-1)}=
1-\frac{6 \sum^n_{i=1}\limits d_i^2}{n(n^2-1)},\quad
d_i=R(x_i)-R(y_i) Il coefficiente di correlazione del rango di Spearman corrisponde al coefficiente di correlazione di Bravais-Pearson applicato perà sul rango delle osservazioni. Abbiamo: \sum^n_{i=1}\limits R(x_i)=\sum^n_{i=1}\limits
R(y_i)=\frac{n(n+1)}{2} \sum^n_{i=1}\limits R(x_i)^2=\sum^n_{i=1}\limits
R(y_i)^2=\frac{n(n+1)(2n+1)}{6} \sum^n_{i=1}\limits R(x_i)R(y_i)=\frac{1}{2}\left[\sum^n_{i=1}\limits R(x_i)^2
+\sum^n_{i=1}\limits R(y_i)^2-\sum^n_{i=1}\limits
(R(x_i)-R(y_i))^2\right] Il coefficiente di correlazione di Bravais-Pearson puà essere calcolato: r_{yx}=\frac{n \sum^n_{i=1}\limits x_i y_i -
\sum^n_{i=1}\limits x_i \sum^n_{i=1}\limits y_i}
{\sqrt{\left[n\sum^n_{i=1}\limits x^2_i -
\left(\sum^n_{i=1}\limits x_i \right)^2\right] \left[n
\sum^n_{i=1}\limits y^2_i - \left(\sum^n_{i=1}\limits
y_i\right)^2\right]}} Se al posto delle osservazioni x_i e y_i inseriamo i corrispondenti ranghi R(x_i) e R(y_i) possiamo calcolare il coefficiente di correlazione del rango di Spearman: r_{yx}=\frac{n \sum^n_{i=1}\limits R(x_i) R(y_i) -
\sum^n_{i=1}\limits R(x_i) \sum^n_{i=1}\limits
R(y_i)}{\sqrt{\left[n \sum^n_{i=1}\limits R(x_i)^2 -
\left(\sum^n_{i=1}\limits R(x_i) \right)^2\right] \left[n
\sum^n_{i=1}\limits R(y_i)^2 - \left(\sum^n_{i=1}\limits
R(y_i)\right)^2\right]}} =\frac{n\cdot \frac{1}{2}\cdot 2 \frac{n(n+1)(2n+1)}{6}-n\cdot
\frac{1}{2}\sum^n_{i=1}\limits [R(x_i)-R(y_i)]^2 -
\frac{n^2(n+1)^2}{4}} {n\cdot
\frac{n(n+1)(2n+1)}{6}-\frac{n^2(n+1)^2}{4}} =1-\frac{6\sum^n_{i=1}\limits [R(x_i)-R(y_i)]^2}{n(n+1)(n-1)}

Proprietà:

  • Il coefficiente di Spearman puà assumere solo valori compresi tra -1 e +1: -1 \leq r_s \leq 1.
  • Il coefficiente di Spearman assume il valore +1 se i ranghi si comportano esattamente allo stesso modo: R(x_i)=R(y_i) per ogni i.
  • Il coefficiente di Spearman assume il valore -1 se i ranghi si comporrtano esattamente in modo opposto: R(x_i)=n+1-R(y_i) per ogni i.

Esemio:

X- piazzamento dell’atleta in discesa libera Y- piazzamento dell’atleta nello slalom C’à una correlazione tra i piazzamenti nelle due discipline?

atleta 1 2 3 4 5 6
discesa libera 2 1 3 4 5 6
slalom 2 3 1 5 4 6
{d_i}^2 0 4 4 1 1 0

Il coefficiente indica una forte correlazione tra i piazzamenti nelle due discipline.

Il coefficiente di correlazione del rango di Kendall

Il coefficiente di correlazione del rango di Kendall si basa sul confronto della graduatoria o gerarchia di tutte le coppie di osservazioni di due caratteri. Le coppie di osservazioni vengono definite concordanti se presentano la stessa relazione d’ordine, ossia i due caratteri presentano entrambi un valore elevato (o basso). Le coppie di osservazioni vengono definite discordanti se i due caratteri presentano relazioni d’ordine opposte, ovvero un’osservazione presenta un valore elevato e l’altra basso. Inoltre ci possono essere coppie di osservazioni uguali rispetto a un carattere o a entrambi; in questo caso si parla di “bounding”. Il numero delle coppie concordanti P e di quelle discordanti Q puà essere calcolato come segue:

  • Le coppie di caratteri R(x_i) e R(y_i) sono ordinate in modo crescente secondo R(x_i).
  • Indichiamo con p_i il numero dei ranghi che seguono a R(y_i) e che sono superiori a R(y_i).
  • Indichiamo con q_i il numero dei ranghi che seguono a R(y_i) e che sono inferiori a R(y_i).

Utilizzando il numero delle coppie di caratteri concordanti e discordi possiamo calcolare il coefficiente di Kendall: T=\frac{P-Q}{P+Q}, con Q=\sum_i q_i e P=\sum_i p_i. Il numero totale di tutti i ranghi da confrontare à dato da: n(n-1)/2=Q+P. Il coefficiente di correlazione puà assumere solo valori compresi tra -1 e +1: -1 \leq \tau \leq 1. Un ulteriore possibilità per calcolare il coefficiente di correlazione di Kendall utilizzando il numero totale dei ranghi da confrontare à data da: T=1-\frac{4Q} {n(n-1)}=\frac{4P}{n(n-1)}-1

Esempio:

Abbiamo ordinato 10 impiegati in relazione alle loro capacità organizzative (X) e all’accuratezza del loro lavoro (Y). Per poter meglio comprendere la relazione tra questi due caratteri calcoliamo sia il coefficiente di Spearman che quello di Kendall.

impiegato 1 2 3 4 5 6 7 8 9 10
R(X) 7 3 9 10 1 5 4 6 2 8
R(Y) 3 9 10 8 7 1 5 4 2 6
{d_i}^2 16 36 1 4 36 16 1 4 0 4
  • Coefficiente di correlazione di Spearman

    r_s=1-\frac{6 \sum^n_{i=1}\limits d_i^2}{n(n^2-1)}

    r_s=1-6 \cdot 118/(10 \cdot 99)=0,2848

  • Coefficiente di correlazione di Kendall

    impiegato 5 9 2 7 6 8 1 10 3 4
    R(X) 1 2 3 4 5 6 7 8 9 10
    R(Y) 7 2 9 5 1 4 3 6 10 8
    q 6 1 6 3 0 1 0 0 1 0
    p 3 7 1 3 5 3 3 2 0 0

    Q=18, P=27

    Q+P=n(n-1)/2=10 \cdot 9/2=45

    \tau=(27-18)/(27+18)=9/45=0,2

Questo esempio permette di calcolare i coefficienti di correlazione di Spearman e di Kendall per due serie di ranghi da indicare. Dopo aver iniziato l’esempio bisogna specificare il numero degli elementi. Infine bisogna inserire le osservazioni dei diversi caratteri. Per verificare l’esempio si possono per esempio utilizzare i seguenti dati:

studente 1 2 3 4 5 6
votazione in matematica 1 4 5 1 3 2
votazione in fisica 2 5 3 2 2 3

Per questi dati il programma fornisce i seguenti risultati:

En folnode4 f lev2 1 1.gif


En folnode4 f k 2.gif

I piazzamenti di 20 atleti nei 100 Metri e nei 200 Metri piani sono indicati nella seguente tabella:

atleta(i) 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20
100 metri (x) 5 7 3 13 2 15 19 14 12 1 6 20 17 4 18 11 10 16 9 8
200 metri (y) 3 9 1 10 7 5 13 14 17 4 11 16 18 12 20 2 15 19 6 8

Nel seguito determineremo la relazione statistica tra i piazzamenti delle diverse discipline. Dato che si tratta di caratteri misurati sulla scala ordinale utilizzeremo i coefficienti di correlazione di Spearman e di Kendal. Il calcolo dei due coefficienti ci fornisce i seguenti risultati:

En folnode4 f k 1 1.gif

Il coefficiente di Spearman à calcolato con la formula seguente: r_s = 1- \frac{6\sum_{i=1}^{n}{d_i}^2}
                {n(n^2-1)} Le informazioni necessarie possono essere trovate nella tabella – d à la differenza tra i due caratteri x_i e y_j, n à il numero di atleti (= 20). Il calcolo ci fornisce un coefficiente di 0,6617, che indica un relazione positiva tra i piazzamenti nelle due discipline - atleti che raggiungono buoni risultati nei 100 metri tendono a raggiungere buoni risultati anche nei 200 metri. Per calcolare il coefficiente di correlazione di Kendall, bisogna prima determinare le coppie di atleti concordanti e discordanti. Una coppia di atleti à detta concordante se rispetto a due caratteri esiste la stessa relazione d’ordine e discordante nel caso contrario. Per la coppia atleta 1 e atleta 2 abbiamo per esempio concordanza: l’atleta 1 ottiene un piazzamento migliore sia nei 100 che nei 200 metri. Gli atleti 1 e 5 sono invece discordanti : l’atleta 1 ha un miglior piazzamento nei 200 metri e uno peggiore nei 100. Per questo esempio abbiamo \frac{n\cdot (n-1)}{2} = 190 diverse coppie di cui 138 concordanti e 52 discordanti. Utilizzando questi risualtati il coefficiente di correlazione à:  \tau = \frac {P-Q}{P+Q}, dove Q=\sum_i q_i e P=\sum_i p_i. P à il numero delle coppie concordanti e Q il numero delle coppie discordanti. Il coefficiente di correlazione di Kendall à 0,4526 che indica una relazione positiva.