Rappresentazione grafica di alcuni indici di localizzazione e di variabilità

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Boxplot (Box-Whisker-Plot)

Il boxplot non contiene (a differenza del diagramma Stem-and-Leaf illustrato nei precedenti paragrafi) le informazioni riguardo a tutti i valori osservati, rappresenta solo le informazioni pià importanti riguardo alla disribuzione di frequenze di variabili quantitative. Lo schema del boxplot contiene importanti caratteristiche della distribuzione: i valori minimo e massimo osservati e e i tre quartili . Si ricorda che il secondo quartile corrisponde alla mediana. I quartili sono indicati sulla scala da linee orizzontali. Il terzo e il quarto quartile sono congiunti da linee verticali cosà che si ottiene un parallelogramma (box). La linea all’interno di questo parallelogramma à la mediana. La lunghezza del parallelogramma indica la differenza interquartile tra il terzo quartile e il primo: e . All’interno di questo parallelogramma si trova il 50 % di tutti i valori. Altre linee indicano i valori maggiori e minori, non indicano perà i valori estremi della distribuzione, ma la distanza della differenza interquartile (QA) moltiplicata per 1,5 dal parallelogramma. I valori calcolati come e vengono chiamati “lower fence” e “upper fence” e sono collegati al parallelogramma da una linea verticale. I valori che eccedono la differenza interquartile moltiplicata per 1,5 o alternativamente 3 sono denominati estremi o valori anormali. Normalmente il boxplot indica anche la media aritmetica con una linea tratteggiata. Il boxplot fornisce quindi una rappresentazione grafica della distribuzione e della struttura dei valori osservati. Boxplot:

En folnode3 g 01.gif

Esempio:
Redditi studenteschi in USD:

1 1 1,74997
44,5005 26,2903 44,5005
R 43,5005 R 25,2903 R 42,7505
5,24985 6,00024 4,74979
7,77801 8,92985 6,79985
11,2504 12,9994 10,0001
QA 6,00065 QA 9,99916 QA 5,25031
9,02395 9,99479 7,87874
26,408 27,9377 22,2774
s 5,13887 s 5,28562 s 4,7199
v 0,57 v 0,53 v 0,60

Totalità dei dati:

En folnode3 g 02.gif

Uomini e donne separatamente:

En folnode3 g 03.gif

Questo esempio rappresenta graficamente con un dotplot, un boxplot e un istogramma una distribuzione unidimensionale di una variabile scelta. Inoltre vengono calcolati gli indici di localizzazione e variabilità pià importanti.

US crime data USA

Nel 1985 sono state rilevate le seguenti frequenze per diversi crimini negli Stati Uniti:

En folnode4 b k 1 3.gif

- land area
- population
- murder
- rape
- robbery
- assault
- burglary
- larcery
- autothieft
- US states region number
- US states division number

I valori delle variabili e sono:

region numbers division numbers
1 Northeast 1 New England
2 Midwest 2 Mid Atlantic
3 South 3 E N Central
4 West 4 W N Central
5 S Atlantic
6 E S Central
7 W S Central
8 Mountain
9 Pacific

Macchine

Sono state raccolte le seguenti modalità su 74 tipi diversi di macchine:

- price
- mpg (miles per gallon)
- headroom (in inches)
- rear seat clearance (distance from front seat back to rear seat, in inches)
- trunk space (in cubic feet)
- weight (in pound)
- length (in inches)
- turning diameter (clearance required to make a U-turn, in feet)
- displacement (in cubic inches)

It folnode3 d k 1 2.gif

Nel 1983 sono stati rilevati i prezzi di 74 tipi di macchine. I risultati sono rappresentati nel grafico di seguito:

En folnode3 g k 1.gif

La prima parte del grafico i valori sono ordinati sull’asse orizzontale secondo il prezzo e distribuiti sull’asse verticale casualmente. La parte inferiore del grafico rappresenta la distribuzione dei prezzi grazie a un boxplot. I valori che cadono all’esterno della distanza interquartile moltiplicata per 1,5 o 3 vengono denominati valori estremi. Questi valori sono responsabili della grossa differenza esistente tra il valore della mediana e la media aritmetica (linea tratteggiata).