Indici di variabilità

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Le medie illustrate nei due capitoli precedenti non sono sufficienti a descrivere una distribuzione di frequenze unidimensionale. Prendiamo in considerazione il seguente esempio: Spese mensili per il tempo libero e vacanze (in DM):

  • dati raccolti su dieci famiglie composte da due persone: 210, 250, 340, 360, 400, 430, 440, 450, 530, 630
    disposti sull’asse:

    En folimg133.gif

  • dati raccolti su dieci famiglie composte da quattro persone: 340, 350, 360, 380, 390, 410, 420, 440, 460, 490
    disposti sull’asse:

    En folimg134.gif

La media aritmetica à in entrambi i casi 404 DM, ma come si puà evincere dal grafico, la distribuzione dei dati à molto differente. I dati riguardanti le famiglie con quattro componenti si dispongono tutti vicino alla media, la variabilità à quindi inferiore. La variabilità (o dispersione) indica l’attitudine di un carattere ad assumere diverse modalità quantitative. Gli indici di variabilità riassumono numericamente tale attitudine. Gli indici di variabilità, assieme a quelli di localizzazione, sono fondamentali per la descrizione di distribuzioni unidimensionali.

Il campo di variazione (Range).

Il campo di variazione costituisce il pià semplice indice di variabilità: (1) Variabili non suddivise in classi
Il campo di variazione (R) si definisce come la differenza tra il massimo e il minimo dei valori osservati. dove sono valori osservati ordinati. (2) Variabili suddivise in classi
In questo caso il campo di variazione (R) si definisce come differenza tra l’estremo superiore dell’ultima classe e quello inferiore della prima classe  : Proprietà:

  • trasformazioni lineari:

La differenza interquartile

La differenza interquartile à la differenza tra il terzo quartile e il primo : rappresenta l’ampiezza dell’intervallo al centro della distribuzione comprendente il 50% dei valori osservati (la distribuzione deve essere ordinata). La differenza interquartile relativa rispetto alla mediana à: . Proprietà:

  • indipendenza dai valori estremi (anomali)
  • trasformazioe lineare:

Gli scarti medi assoluti - Mean Absolute Deviation (MAD)

La media aritmetica degli scarti in valore assoluto da una certa origine c à definita come scarto medio assoluto . L’origine c puà essere qualsiasi valore, solitamente perà si scelgolo la mediana o la media aritmetica . Lo scarto medio assoluto à un indice di variabilità lineare che considera tutti i valori della distribuzione. La prima formula di seguito à applicabile a dati non suddivisi in classi, dove sono i valori osservati mentre la seconda formula à applicabile a dati suddivisi in classi e sono i valori centrali delle classi: Proprietà:

  • Le proprietà della mediana implicano che: . Cià significa che non esiste altra origine c, per la quale lo scarto medio assume un valore inferiore allo scarto dalla mediana ().

    Esempio:
    Valori osservati: 2, 5, 9, 20, 22, 23, 29


  • trasformazione lineare:

La varianza e lo scarto quadratico medio

La media aritmetica del quadrato degli scarti da un’origine c viene denominata scarto quadratico medio (mean square error - MSE). L’origine c puà essere scelta a piacere. La varianza Se l’origine scelta corrisponde alla media aritmetica la devianza viene chiamata varianza. La varianza dei valori osservati viene indicata con . la deviazione standard La deviazione standard () à definita come la radice quadrata della varianza. La varianza (e quindi anche lo scarto quadratico medio ) à sempre maggiore o uguale a . Se la varianza à zero i valori non presentano nessuna variabilità e quindi la variabile à una costante. Proprietà:

  • La devianza rispetto a (la varianza) à inferiore a qualsiasi devianza da un’origine .

    La proprietà puà essere provata come segue:

    Quindi la devianza MSE(c) à sempre maggiore o uguale alla varianza; à uguale per .

    Esempio:
    Valori osservati: 2, 5, 9, 20, 22, 23, 29

  • trasformazioni lineari:

  • standardizzazione:

La varianza del miscuglio
Se i dati osservati sono divisi in gruppi e la varianza e la media aritmetica di tali gruppi sono conosciute, la varianza del miscuglio si calcola come segue: sono le medie aritmetiche dei gruppi
sono le varianze dei gruppi
sono le numerosità dei gruppi,
Scomposizione della varianza Come indicato dalla formula la varianza puà essere scomposta in due fonti di variabilità:
Varianza totale = varianza nei gruppi + varianza fra i gruppi. Il coefficiente di variazione
Per poter confrontare lo scarto quadratico medio di pià variabili si fa ricorso allo scarto quadratico medio riferito alla media definito come coefficiente di variazione. Il coefficiente di variazione non si riferisce a nessuna unità di misura. Esempio di uso del coefficiente di variazione: La media e lo scarto quadratico medio di due serie di osservazioni sono:


Confrontando gli scarti quadratici medi, concludiamo che la serie di dati (2) ha una varianza tre volte maggiore della serie (1). Se invece consideriamo il fatto che le due serie hanno diverse medie aritmetiche à necessario calcolare il coefficiente di variazione per confrontare le due serie:


La variabilità delle due serie à la stessa. Questo esempio interattivo esegue una rappresentazione grafica delle distribuzioni unidimensionali. Lo studente puà scegliere tra due possibili variabili. Nel primo grafico vengono indicati il range (verde), la media aritmetica (nero) e lo scarto quadratico medio (rosso). Nel secondo grafico vengono indicati il range (verde), la mediana (nero) e la differenza interquartile (magenta).

US crime data USA

Nel 1985 sono state osservate le frequenze di diversi crimini negli Stati Uniti:

En folnode4 b k 1 3.gif

- land area
- population
- murder
- rape
- robbery
- assault
- burglary
- larcery
- autothieft
- US states region number
- US states division number

I valori delle variabili e sono:

region numbers division numbers
1 Northeast 1 New England
2 Midwest 2 Mid Atlantic
3 South 3 E N Central
4 West 4 W N Central
5 S Atlantic
6 E S Central
7 W S Central
8 Mountain
9 Pacific

Macchine

Su 74 tipi diversi di macchine sono state investigate le seguenti modalità:

- price
- mpg (miles per gallon)
- headroom (in inches)
- rear seat clearance (distance from front seat back to rear seat, in inches)
- trunk space (in cubic feet)
- weight (in pound)
- length (in inches)
- turning diameter (clearance required to make a U-turn, in feet)
- displacement (in cubic inches)

It folnode3 d k 1 2.gif

Nel 1985 sono stati osservati i prezzi in USD di 74 tipi di macchine. I dati sono rappresentati nel primo grafico; sulle ascisse à riportata una scala dei prezzi. I valori sono stai poi distribuiti casualmente anche lungo l’asse delle ordinate per rendere il grafico pià chiaro. Il primo grafico contiene il range (verde), la media aritmetica (nero) e lo scarto quadratico medio (rosso). Il secondo grafico contiene il range (verde), la mediana (nero) e la differenza interquartile (magenta).

En folnode3 f lev1 1.gif

media aritmetica: 4618,38
mediana: 4618
range 2690
differenza interquartile 795,5
scarto quadratico medio 614,04

Controllando i dati si rileva un errore nello spoglio. Il prezzo maggiore à stato registrato come 5962 USD invece di 15962 USD. Correggendo i dati si ottengono i seguenti grafici:

En folnode3 f lev1 2.gif

media aritmetica: 4753,51
mediana: 4618
range 12690
differenza interquartile 795,5
scarto quadratico medio 1447,93

Chiaramente il campo di variazione (range) à aumentato in quanto dipende dai valori estremi. La differenza interquartile invece non à cambiata, in quanto à cambiato solo un valore estremo ma non la numerosità dei dati. Lo scarto quadratico medio à aumentato considerevolmente. questo indice infatti calcola lo scarto di ogni valore dalla media ed à quindi sensibile ai valori estremi (anormali). L’investigazione viene ripetuta dopo alcuni mesi. I risultati sono i seguenti:

En folnode3 f lev1 3.gif

media aritmetica: 6192,28
mediana: 5091,50
range 12615
differenza interquartile 2077
scarto quadratico medio 2938,06

I prezzi di alcune macchine sono aumentati considerevolmente e si differenziano dagli altri. La distribuzione viene spostata verso destra. Caratteristica di questa distribuzione à il fatto che lo scarto quadratico medio à maggiore della differenza interquartile come mostrato dall’esempio. In 20 supermercati di Berlino sono stati osservati i prezzi della pizza surgelata marca Dr. Oetker:
3,99; 4,50; 4,99; 4,79; 5,29; 5,00; 4,19; 4,90; 4,99; 4,79; 4,90; 4,69; 4,89; 4,49; 5,09; 4,89; 4,99; 4,29; 4,49; 4,19

  • Il prezzo medio della pizza nei 20 supermercati à di 4,27 DM (= media aritmetica)
  • Il prezzo centrale della pizza, ordinando i diversi prezzi à 4,84 DM (= mediana)
  • La differenza tra il prezzo maggiore e quello inferiore à 1,30 DM (= range)
  • I prezzi variano in media di 0,29 DM (= MAD) rispetto al prezzo medio e di 0,28 DM (= MAD) rispetto alla mediana.
  • il 50 % di tutti i prezzi sono compresi nell’intervallo tra 4,49 DM (quartile ) e 4,99 DM (quartile ), di ampiezza 0,50 DM (= differenza interquartile).
  • la devianza dalla media à di 0,12241 DM (= varianza), la radice quadrata della varianza à 0,34987 DM (= scarto quadratico medio).

En folnode3 f k 1.gif