Relazioni tra caratteri misurati sulla scala metrica (correlazione, coefficiente di correlazione)

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


L’intensità della relazione che lega due variabili e (misurate sulla scala metrica) à determinata dalla variabilità congiunta delle due variabili. Con variabilità intendiamo la dispersione dei valori assunti dalle due variabili attorno alla rispettiva media. In un primo passo centriamo i valori: La variabilità congiunta delle due varibili à data dal prodotto delle deviazioni dei valori dalla loro media (vedi il calcolo della covarianza): L’intensità della varibilità congiunta dipende in gran parte dall’unità di misura dei caratteri e dal numero di osservazioni. Se per esempio, la media di un carattere à 8 e le osservazioni sono 10 e la media dell’altro carattere à 1008 e le osservazioni 1260, la deviazione relativa dalla media di entrambi i caratteri à del 25% anche se per il primo carattere la deviazione assoluta à di 2 e per il secondo di 252. Per ottenere le deviazioni dei caratteri in termini comparabili effettuiamo una standardizzazione: La formula diventa quindi: Dividiamo poi questa somma di prodotti per il numero di osservazioni per eliminare il loro effetto. Otteniamo quindi il coefficiente di correlazione Bravais-Pearson che ci permette di misurare l’intensità delle relazioni lineari tra due variabili e , misurate sulla scala metrica: La semplificazione dell’equazione ci permette di osservare che il coefficiente di correlazione Bravais-Pearson à uguale alla variabilità congiunta delle due varibili e (= covarianza) standardizzata con il prodotto delle singole variabilità (deviazioni standard) di ciascuna varibile Il coefficiente di correlazione Bravais-Pearson puà anche essere calcolato come segue:

Proprietà del coefficiente di correlazione:

  • Il coefficiente di correlazione assume solo valori compresi tra -1 e +1:

  • Il segno del coefficiente di correlazione ci fornisce delle informazioni sulla direzione della relazione

    • “+” corrisponde ad una correlazione positiva (proporzionalità della varibilità)

    • “-” corrisponde ad una correlazione negativa (proporzionalità inversa della variabilità)

  • Se tutti i valori osservati sono su una linea retta, il coefficiente di correlazione à uguale a .

    Pià il coefficiente di correlazione si avvicina al valore pià pronunciata à la correlazione tra le due variabili e (e viceversa).

  • Se le variabili e sono indipendenti, il coefficiente di correlazione à uguale a 0.

    D’altra parte un coefficiente di correlazione uguale a 0 significa solo che non c’à alcuna realzione lineare tra le varibili e . Rimane comunque possibile che ci sia una forte correlazione non lineare.

  • Il coefficiente di correlazione à simmetrico:

Relazione tra correlazione e la rappresentazione grafica dei valori assunti da e

Correlazione perfetta (coefficiente di correlazione = )

En folimg250.gif En folimg251.gif

Forte correlazione (coefficiente di correlazione )

En folimg252.gif En folimg253.gif

Debole correlazione (coefficiente di correlazione )

En folimg254.gif En folimg255.gif

Nessuna correlazione (coefficiente di correlazione = 0)

En folimg256.gif

una correlazione uguale a 0 corrisponde “in generale” ad una rappresentazione dei valori a forma di cerchio.

Esempio:

Su imprese abbiamo osservato le variabili - profitto annuale (in Mio. DM) e - affitto annuale per il sistema informatico (in 1000 DM). I valori sono indicati nella tabella seguente e rappresentati nel grafico scatterplot.

Impresa profitti annuali in mil. DM affitto annuale in 1000 DM
1 10 30
2 15 30
3 15 100
4 20 50
5 20 100
6 25 80
7 30 50
8 30 100
9 30 250
10 35 180
11 35 330
12 40 200
13 45 400
14 50 500
15 50 600

En folimg257.gif

dalle osservazioni possiamo ottenere i seguenti risultati: l l , &
, &
Il coefficiente di correlazione in questo esempio à 0,8763. Abbiamo quindi una forte correlazione lineare.

En folnode4 b k 1 3.gif

Nel 1985, sono state rilevate le seguenti attività criminali per ognuno dei 50 stati degli U.S.A.:

- land area
- populatin
- murder
- rape
- robbery
- assault
- burglary
- larceny
- autothieft
- US states region number
- US states division number

Le variabili e possono assumere i seguetni valori:

1 Northeast 1 New England
2 Midwest 2 Mid Atlantic
3 South 3 E N Central
4 West 4 W N Central
5 S Atlantic
6 E S Central
7 W S Central
8 Mountain
9 Pacific

Questo esempio interattivo permette di selezionare due varibili per le quali viene prodotto uno scatterplot e calcolato il coefficiente di correlazione Bravais-Pearson.
Nel 1985, sono stati registrati diversi tassi di criminalità in 50 stati degli U.S.A. fra i quali c’à il tasso di omicidi e la dimensione della corrispondente popolazione. La relazione tra tasso di omicidi e la dimensione della popolazione puà essere osservata graficamente in uno scatterplot:

En folnode4 e k 1 1.gif

Le somme degli scarti quadratici (SSE) sono calcolate nel modo seguente: Somma dei prodotti delle deviazioni tra “population" e “murder": Somma degli scarti quadratici della “population": Somma degli scarti quadratici per “murder": Il coefficiente di correlazione à uguale a Un coefficiente di correlazione di 0,27 indica una debole correlazione positiva.