La regressione lineare semplice

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


La funzione di regressione lineare

La funzione di regressione lineare semplice ha la seguente forma: Dove sono i valori osservati della variabile X (data) e e sono i parametri sconosciuti. I valori effettivamente osservati possono essere ottenuti sommando i residui al valore interpolato (come si puà vedere nel grafico):

En folimg297.gif

I parametri della regressione I parametri della regressione lineare semplice hanno il seguente significato:

  • - costante (intercetta)

    Indica il punto di intersezione della retta di regressione con l’asse delle y e ci dà il valore della variabile in questo punto.

  • - coefficiente angolare

    Indica la pendenza della retta di regressione ovvero di quante unità la variabile varia in media per ogni unità della variabile .

Stima dei parametri di regressione Per stimare i parametri della regressione dobbiamo soddisfare due condizioni. 1. Condizione La media degli scarti tra i punti teorici dai valori osservati deve essere uguale a zero: Questa condizione à soddisfatta da un numero infinito di rette di regressione che passano attraverso il punto . Questa condizione quindi non determina nessuna precisa retta di regressione.

En folimg302.gif

2. Condizione Cerchiamo una retta di regressione per la quale la devianza (varianza) dei corrispondenti residui à minima a confronto con tutte le altre rette di regressione. Dalla prima condizione segue che Il seguente grafico illustra la seconda condizione:

En folimg305.gif

I quadrati disegnati nel grafico (corrispondono ai residui quadrati) devono venir minimizzati. Il metodo utilizzato in questo caso à detto dei minimi quadrati - least squares method (LS). Il metodo dei minimi quadrati ha come obiettivo la minimizzazione della somma degli scarti quadrati (residual sum of squares—RSS) dei valori teorici da quelli effettivi. La funzione da minimizzare à un’equazione in due incognite ( e ). Per trovare un minimo dobbiamo porre uguali a zero le derivate prime parziali. Per verificare che si tratta di un minimo calcoliamo le derivate seconde. Dato che le due derivate seconde sono positive possiamo affermare che si tratta di un minimo. Le prime derivate ci forniscono le cosidette due equazioni normali, risolvendo le quali possiamo trovare i due parametri cercati. Le equazioni possono essere risolte con la regola di Cramer: Se dividiamo le equazioni normali originali per , otteniamo una formula semplificata per il calcolo dei parametri della regressione: Per la costante , otteniamo: Per il coefficiente lineare , otteniamo: Proprietà:

  • La varianza di deve essere maggiore di zero:

  • Come già evidente delle equazioni normali semplificate abbiamo: per à

  • Se combiniamo i risultati della correlazione con quelli della regressione possiamo calcolare il coefficiente di regressione anche come segue:

  • La regressione di su non corrisponde alla regressione di su .

    = =
    = =

Esempio: X- produzione Y- tempo di lavoro n=10 cicli di produzione in una ditta

1 30 73 2190 900 5329 70 3
2 20 50 1000 400 2500 50 0
3 60 128 7680 3600 16384 130 -2
4 80 170 1360 6400 28900 170 0
5 40 87 3480 1600 7569 90 -3
6 50 108 5400 2500 11664 110 -2
7 60 135 8100 3600 18225 130 5
8 30 69 2070 900 4761 70 -1
9 70 148 10360 4900 21904 150 -2
10 60 132 72920 3600 17424 130 2
500 1100 61800 28400 134660 1100 0

Calcolo delle variabili ausiliarie (media,varianza e deviazione standard):

= =
= =

Covarianza e coefficiente di correlazione sono: Con tali valori possiamo calcolare i coefficienti di regressione e  : Otteniamo la seguente retta di regressione:

En folnode4 i 03.gif En folnode4 i 04.gif

La verifica della bontà di adattamento (goodness of fit)

Una volta che abbiamo determinato la funzione di regressione à opportuno valutare il grado di approssimazione esistente con i valori osservati: come cioà la funzione à in grado di rappresentare i dati osservati. Una misura della bontà di accostamento à data dal coefficiente di determinazione e si basa sulla scomposizione della varianza della variabile dipendente . La bontà di adattamento à tanto maggiore quanto la somma degli scarti quadrati à piccola. Per la varianza di abbiamo: Gli scarti dei valori osservati dalla media aritmetica possono essere suddivisi in due parti: gli scarti dei valori osservati dai valori interpolati e gli scarti dei valori interpolati dalla media. La scomposizione à rappresentata nella seguente figura:

En folimg340.gif

In modo analogo possiamo scomporre gli scarti quadrati in: Dividendo entrambi i membri dell’equazione per otteniamo: La varianza totale di à pari alla somma della varianza dei residui (la parte della varianza di non spiegata) e la parte di varianza di spiegata dalla funzione di regressione. Ne segue:

  • Tanto pià grande à la parte della varianza spiegata dal modello, tanto migliore à la bontà di adattamento.
  • D’altra parte tanto pià grande à la varianza dei residui , tanto pià grande à l’influenza di fattori non spiegabili dalla funzione di regressione.

Il coefficiente di determinazione Il coefficiente di determinazione indica quanta parte della varianza di viene spiegata dalla funzione di regressione in rapporto alla varianza totale di . Metodi alternativi di calcolo del coefficiente di determinazione sono: Caratteristiche:

  • Il coefficiente di determinazione assume i valori:

    Tanto pià grande à il coefficiente tanto migliore à l’adattamento della funzione ai valori osservati.

    Se tutti i valori osservati sono sulla retta di regressione il coefficiente di regressione à pari a 1. La varianza totale di viene spiegata dalla dipendenza da . Abbiamo un dipendenza totale.
    Se il coefficiente di determinazione à 0 la varianza totale di à pari alla varianza non spiegata (varianza dei residui). I carattere non ha nessuna influenza sul carattere .

  • Per una funzione di regressione lineare il coefficiente di regressione corrisponde al quadrato del coefficiente di correlazione: .

Esempio: Per la relazione tra tempo di lavoro e produzione sopra calcolata abbiamo il seguente coefficiente di determinazione e coefficiente di correlazione:

Regressione nonlineare con metodo dei minimi quadrati

Esempio n = 8 città simili X - numero delle cartine della rete di trasporti pubblici distribuite graituitamente agli abitanti all’inizio del periodo analizzato. Y - aumento dei passeggeri nel periodo analizzato.

Città Aumento Cartine dei trasporti pubblici
(in 1000) (in 1000)
1 0.60 80
2 6.70 220
3 5.30 140
4 4.00 120
5 6.55 180
6 2.15 100
7 6.60 200
8 5.75 160

Regressione lineare

En folnode4 i 20.gif

I residui non si distribuiscono casualmente attorno al valore zero ma esibiscono una chiara tendenza nonlineare. Utilizziamo quindi una funzione di regressione non lineare. Regressione quadratica – Polinomio di secondo grado

En folnode4 i 21.gif

Con questo esempio interattivo possiamo stimare funzioni di regressione lineari semplici tra due variabili di due insiemi di dati. Il programma produce un grafico nel quale viene disegnata la retta di regressione. Si procede inoltre al calcolo della funzione di regressione, del coefficiente di correlazione, e del coefficiente di determinazione.

US - crime data

En folnode4 b k 1 3.gif

Nell’anno 1985 sono stati rilevati i seguenti tassi di criminalità per 50 stati degli USA:

- land area
- population
- murder
- rape
- robbery
- assault
- burglary
- larceny
- auto-theft
- US states region number
- US states division number

Le variabili e hanno il seguente significato:

1 Northeast 1 New England
2 Midwest 2 Mid Atlantic
3 South 3 E N Central
4 West 4 W N Central
5 S Atlantic
6 E S Central
7 W S Central
8 Mountain
9 Pacific

Car data

Sono stati rilevati i seguenti dati su 74 differenti tipi di auto:

- price
- mpg (miles per gallon)
- headroom (in inches)
- rear seat clearance (distance from front seat back to the rear seat,in inches)
- trunk space (in cubic feet)
- weight (in pound)
- length (in inches)
- turning diameter (clearance required to make a U-turn, in feet)
- displacement (in cubic inches)

Nell’anno 1985 sono stati rilevati i seguenti tassi di criminalità per 50 stati degli USA:

- land area
- population
- murder
- rape
- robbery
- assault
- burglary
- larceny
- auto-theft
- US states region number
- US states division number

La dipendeza della variabile furto (X5) dalla popolazione (X2) di uno stato puà essere illustrata da uno scatterplot. Ogni stato à rappresentato nel diagramma da un singolo punto (). Nel grafico indichiamo inoltre la retta di regressione (in nero).

En folnode4 i lev1 2 1.gif

L’analisi di regressione ci fornisce i seguenti risultati:

  • La costante (intercetta) à . In questo caso non à significativa una interpretazione di questo numero; à una specie di parametro di compensazione.

  • Con l’aumento della popolazione di una unità (in questo caso 1.000 persone) abbiamo un aumento nei furti di .

  • Il coefficiente di correlazione à — abbiamo quindi una dipendenza tra il tasso di furti e la grandezza della popolazione.

  • Per valutare la bontà di adattamento della funzione di regressione utilizziamo il coefficiente di determinazione. Il calcolo di tale indice si base sulla scomposizione della varianza della variabile dipendente (tasso di furti). Per il calcolo del coefficiente di determinazione calcoliamo la varianza totale (SS-Totale), la varianza residua non spiegata (SS-Residua), e la varianza di regressione (SS-Regressione) e le inseriamo nella formula.

    Il coefficiente di determinazione à pari a . L’adattamento della retta di regressione ai dati osservati non à molto buono.

L’osservazione corrisponde alla grandezza della popolazione (mila) e a furti. I valori interpolati con la funzione di regressione prevedono in media per tale popolazione un numero di furti pari a . Nota bene: Grazie all’esempio interattivo si possono osservare i grafici delle altre variabili. Sono stati rilevati i seguenti dati su 74 differenti tipi di auto:

- price
- mpg (miles per gallon)
- headroom (in inches)
- rear seat clearance (distance from front seat back to the rear seat,in inches)
- trunk space (in cubic feet)
- weight (in pound)
- length (in inches)
- turning diameter (clearance required to make a U-turn, in feet)
- displacement (in cubic inches)

La correlazione della variabile turning diameter (X8) con la varribile length (X7) di un auto puà venir illustrata in un scatterplot. Ogni auto à rappresentata nel diagramma da un punto (). Inoltre à indicata la retta di regressione in nero.

En folnode4 i lev1 1 1.gif

La regressione ci fornisce i seguenti risultati:

  • La costante à . In questo caso non à significativa una interpretazione di questo numero; à una specie di parametro di compensazione.

  • Un incremento nella lunghezza (lenght) di un auto (in questo caso di un pollice (inch)) causa un incremento nel diametro della curva (turning diameter) di piedi (feet).

  • Il coefficiente di correlazione à —cià implica una forte correlazione tra diametro della curva e lunghezza della macchina.

  • Per valutare la bontà di adattamento della funzione di regressione, usiamo il coefficiente di determinazione. Il calcolo di tale indice si basa sulla scomposizione della varianza della variabile dipendente (diametro della curva). Inseriamo quindi nella formula la varianza totale (SS-Totale), la varianza residuale non spiegata (SS-Residuale), e la varianza spiegata (SS-Regressione):

    Il coefficiente di determinazione à . La retta di regressione si adatta ai valori osservati piuttosto bene.

Il punto osservato corrisponde alla lunghezza dell’auto di 192 pollici e a un diametro di curva di 38 piedi. la funzione di regressione trovata fornirebbe un valore teorico del diametro di curva data la lunghezza dell’auto di 192 pollici di piedi. Nota bene: L’esempio interattivo ci permette di illustrare graficamente la correlazione anche tra altre variabili. Esaminiamo il reddito mensile netto e le spese mensili di 10 famiglie composte da due persone:

Famiglie 1 2 3 4 5 6 7 8 9 10
Reddito netto in DM 3,500 5,000 4,300 6,100 1,000 4,800 2,900 2,400 5,600 4,100
Spese mensili in DM 2,000 3,500 3,100 3,900 900 3,000 2,100 1,900 2,900 2,100

Nel grafico seguente possiamo già riconoscere il fatto che il reddito mensile netto à correlato positivamente con le spese mensili. La correlazione à lineare e puà essere stimata con una funzione di regressione semplice lineare.

En folnode4 i k 1 1.gif

Cerchiamo la funzione di regressione che descrive le spese mesili come funzione del reddito famigliare netto. Per stimare i parametri della regressione dobbiamo procedere ad alcuni calcoli intermedi.

1 3,500 2,000 7,000,000 12,250,000 4,000,000
2 5,000 3,500 17,500,000 25,000,000 12,250,000
3 4,3000 3,100 13,330,000 18,490,000 9,610,000
4 6,100 3,900 23,790,000 37,210,000 15,210,000
5 1,000 3900 900,000 1,000,000 810,000
6 4,800 3,000 14,400,000 23,040,000 9,000,000
7 2,900 2,100 6,090,000 8,410,000 4,410,000
8 2,4000 1,900 4,560,000 5,760,000 3,610,000
9 5,600 2,900 16,240,000 31,360,000 8,410,000
10 4,100 2,100 8,610,000 16,810,000 4,410,000
Somma

Calcoliamo quindi i parametri e come segue: Quindi la funzione di regressione à Spese mensili = 423.13 + 0.5332 reddito netto La retta di regressione puà essere disegnata nello scatterplot:

En folnode4 i k 1 2.gif

La pendenza della retta corrisponde alla propensione al consumo: per ogni marco di reddito in pià le famiglie aumentano mediamente il consumo di 0.53 DM. Dopo aver calcolato le deviazioni standard di e e la loro covarianza possiamo facilmente calcolare il coefficiente di correlazione: Il coefficiente di correlazione indica una forte correlazione tra le spese mensili e il reddito netto. La bontà di adattamento della funzione di regressione ai dati viene valutata con il coefficiente di determinazione. Il coefficiente rappresenta la quota di varianza delle spese spiegata dalla regressione in rapporto alla varianza totale di : L’86% della varianza delle spese puà essere spiegata dalla funzione lineare che abbiamo stimato tra spese e reddito netto.