Parametri per le distribuzioni unidimensionali

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


I parametri sono una serie di indicatori capaci di descrivere gli aspetti pià qualificanti e tipici della situazione espressa dagli elementi originali. Tra i parametri pià importanti appartengono gli indici di localizzazione e quelli di forma.

Indici di localizzazione o di tendenza centrale o valori medi

Le medie consentono di sostituire tutte le modalità della distribuzione con un’unica modalità rappresentativa. Il loro scopo à:

  • rappresentare adeguatamente la distribuzione;
  • permettere un confronto tra diverse distribuzioni di frequenza;
  • permettere una migliore valutazione delle singole modalità.

La media viene misurata con le stesse unità di misura delle modalità che rappresenta. Siccome ci sono diversi modi di misurare le modalità, ci sono anche diversi modi per calcolare una media.

La moda o norma

La modalità pià diffusa, vale a dire quella che si presenta con la massima frequenza à definita moda. La moda puà essere individuata anche per mutabili, e quindi per qualsiasi tipo di fenomeno (per mutabili espresse in scala nominale à l’unica media possibile). à significativa tuttavia solo per distribuzioni unimodali. Moda di caratteri discreti Moda di caratteri continui Nel caso di dati suddivisi in classi si calcola la classe modale: la classe cià che contiene le frequenze pià elevate a condizione che l’ampiezza di ciascuna classe sia constante.

, limite inferiore/superiore (lower/upper) della classe
distribuzione di frequenze della classe modale
distribuzione di frequenze per la classe antecedente la classe modale
distribuzione di frequenze della classe successiva alla classe modale

Esempio: Duranta di vita (in ore) di 100 lampadine.

: Durata (ore)
Totale

Classe modale:
Valore centrale della classe modales: ore
usando la formula esatta:
La durata pià frequente della 100 lampadine à quindi di ore.

La mediana e i quantili

Data una successione ordinata di valori (à necessario almeno l’uso della scala ordinale) si definisce -quantile o frattile di ordine p indicato quel valore a sinistra del quale si colloca la frazione dei casi mentre alla sua destra si trova la parte complementare costituita da elementi, dove indica una frazione del campione e prende valori compresi tra 0 e 1:. Quantili di caratteri non classificati

  • Se non à un numero intero e à il pià piccolo numero intero che soddisfa la condizione , allora . Il quantile viene quindi definito da , .
  • Se invece à un numero intero, allora ogni valore tra e puà essere definito come quantile. Per convenzione si definisce in questo caso il quantile come:

Quantili per caratteri classificati In caso di dati suddivisi in classi si puà definire il -quantile per interpolazione: Dove , e sono rispettivamente l’estremo inferiore, superiore e la frequenza relativa della classe a cui appartiene il quantile e à la frequenza cumulata inclusiva della classe antecedente al quantile. Dato che i quantili possono essere facilmente dedotti dal grafico della funzione di distribuzione come si puà desumere dal grafico.

En folimg85.gif En folimg86.gif

Alcuni quantili particolari:

  • decili – la distribuzione à suddivisa in decimi.
  • quintili – la distribuzione à suddivisa in quinti.
  • quartili – la distribuzione à suddivisa in quarti.

La mediana
Data una successione ordinata di valori della variabile si definisce mediana quel termine che occupa la posizione centrale, ovvero bipartisce il gruppo in due parti di eguale numerosità. La mediana non risente di valori che escono dalla norma, esageratamente al di sotto o al di sopra dei dati usuali. La mediana corrisponde al secondo quartile . (1) caratteri non classificati

  • se n à dispari:
  • se n à pari :

(2) caratteri classificati Nel caso in cui i valori siano suddivisi in classi, la mediana si definisce come segue: à l’estremo inferiore della classe e quello superiore, sono le frequenze relative e le frequenze relative cumulate della classe. La mediana puà essere trovata attraverso interpolazione. Dal grafico della funzione di distribuzione à facile ritrovare la mediana in quanto .

En folimg94.gif En folimg95.gif

Proprietà della mediana per variabili:

  • minimizza la somma degli scarti assoluti

    La somma degli scarti assoluti dalla mediana à inferiore alla somma degli scarti da qualsiasi altro valore.

  • trasformazioni lineari

Esempio: Reddito netto familiare, 1988, Repubblica Federale Tedesca (fino a 25 000 DM):

Reddito da - a Quota delle famiglie:
(DM)
1 - 800 0.044 0.044
800 - 1400 0.166 0.210
1400 - 3000 0.471 0.681
3000 - 5000 0.243 0.924
5000 - 25000 0.076 1.000

Grafico della funzione di distribuzione con indicazione dei quartili:

En folimg99.gif

Calcolo dei quartili: Dalla funzione di distribuzione (terza colonna della tabella) si puà dedurre che il primo quartile e il secondo quartile appartengono alla terza classe (1400 - 3000 DM). Questa classe ha un’ampiezza di 1600 DM. Il terzo quantile appartiene alla quarta classe (3000-5000 DM) che ha un’ampiezza di 2000 DM. Interpretazione: 1. quartile: il 25% delle famiglie osservate ha un reddito mensile netto inferiore a 1535.88 DM e il 75 % ha un reddito superiore a 1535.88 DM. 2. quartile: il 50% delle famiglie osservate ha un reddito mensile netto inferiore a 2385.14 DM e il 50% ha un reddito superiore a 2385.14 DM. 3. quartile: il 75% delle famiglie osservate ha un reddito mensile netto inferiore a 3567.90 DM e il 25% ha un reddito superiore a 3567.90 DM. Questo implica che il 50% delle famiglie ha un reddito netto compreso tra 1535.88 DM e 3567.90 DM.

Media aritmetica

Il valore ottenuto dividendo la somma di tutti i valori per il numero dei valori à chiamato media aritmetica. La media esprime l’equiripartizione del totale ed à pertanto applicabile solo a volori misurabili sulla scala cardinale. A differenza della mediana viene influenzata da valori abnormali degli estremi. Calcolo dalla media aritmetica semplice: Tenendo conto delle frequenze abbiamo la media aritmetica ponderata: Proprietà della media aritmetica:

  • La somma degli scarti dalla media aritmetica à nulla

  • devianza minima
    La somma dei quadrati degli scarti dalla media aritmetica - definita devianza - risulta minima, ovvero minore di qualunque altra somma di quadrati di scarti calcolati da un’origine diversa dalla media aritmetica.


  • media aritmetica del miscuglio
    Se i dati riferiti ad una variabile sono suddivisi in gruppi , dei quali à conosciuta la media aritmetica si puà calcolare la media aritmetica di tutti i valori osservati (del miscuglio) grazie alla seguente formula: dove indica le determinazioni di ciascun gruppo . ().

  • trasformazione lineare:

  • somma:

Esempio 1:
Reddito mensile famigliare in 1998:

Reddito in DM Quota delle famiglie f(x) F(x)
1 - 800 0,044 0,044
800 - 1400 0,166 0,210
1400 - 3000 0,471 0,681
3000 - 5000 0,243 0,924
5000 - 25000 0,076 1,000

La media aritmetica usando i valori centrali delle classi sarà: La media aritmetica (3348.4 DM) à superiore alla mediana calcolata precedentamente (2385.14 DM). Il fatto si spiega facilmente guardando la tabella: la frequenza relativa à pià grande per i redditi elevati che per quelli pià bassi; la media viene quindi “tirata” verso questi valori. Esempio 2: Reddito mensile di 716 persone.

1881,40 DM
1092,50 DM
1800 DM
2400 DM
2000 DM

Questo esempio interattivo permette di rappresentare come dotplot una distribuzione unidimensionale di una variabile a scelta dello studente. Le modalità osservate sono indicate sull’asse delle ascisse. Per rendere la letture dei dati pià facile i valori osservati vengono ditribuiti casualmente anche sull’asse verticale. La mediana viene indicata in rosso mentre la media aritmetica sarà in magenta. Entrambi i valori sono riportati sotto il grafico.

Criminalità negli USA

I seguenti tassi di criminalità sono stati osservati nei 50 Stati americani nel 1985:

En folnode4 b k 1 3.gif

- land area
- population
- murder
- rape
- robbery
- assault
- burglary
- larcery
- autothieft
- US states region number
- US states division number

I valori di e sono:

region numbers division numbers
1 Northeast 1 New England
2 Midwest 2 Mid Atlantic
3 South 3 E N Central
4 West 4 W N Central
5 S Atlantic
6 E S Central
7 W S Central
8 Mountain
9 Pacific

Macchine

Su 74 macchine sono state investigate le seguenti modalità:

- price
- mpg (miles per gallon)
- headroom (in inches)
- rear seat clearance (distance from front seat back to rear seat, in inches)
- trunk space (in cubic feet)
- weight (in pound)
- length (in inches)
- turning diameter (clearance required to make a U-turn, in feet)
- displacement (in cubic inches)

En folnode3 d k 1 2.gif

I dati raccolti riguardano il prezzo in USD di 74 diverse macchine e sono rappresentati nel grafico a dotplot. I prezzi sono indicati sull’asse delle ascisse; i valori vengono distribuiti anche verticalmente per renderli leggibili. Dato che la modalità investigata à solo una (il prezzo) la distribuzione verticale avviene casualmente. Nel grafico sono indicate sia la mediana (in rosso) che la media (in magenta). I valori dei due parametri sono indicati sotto il grafico.

En folnode3 d k 1.gif

La mediana à il valore che suddivide la sequenza ordinata dei prezzi in due, il 50% dei valori à quindi pià piccolo / pià grande della mediana. La media aritmetica corrisponde a quel prezzo che si ottiene se si equiripartisce la somma di tutti i prezzi per il numero di macchine osservate (74). Se la distribuzione dei valori à simmetrica i due parametri sono uguali. Nell’esempio à rappresentato (approssimativamente) questo caso; come si puà evincere dal grafico la distribuzione à quasi simmetrica. Controllando i dati si à rilevato un errore durante lo spoglio: il prezzo massimo di vendita à stato rilevato come 5.962 USD invece di 15.962 USD. Corregendo tale errore si ottiene il seguente grafico:

En folnode3 d k 2.gif

La mediana, grazie alla sua robustezza rimane invariata in quanto à cambiato solo il prezzo massimo lasciando inalterato il numero dei valori indagati. Al contrario, la media à cambiata: dato che nel calcolo vengono presi in considerazione tutti i valori, la media à influenzata dai valori estremi. Dopo alcuni mesi l’indagine viene ripetuta con i seguenti risultati:

En folnode3 d k 3.gif

I dati presentano ora diversi valori elevati che si distinguono chiaramente dalla massa delle rilevazioni. La distribuzione à ora spostata verso destra a causa dei pochi valori estremamente alti. I questo caso come si puà osservare dal nostro esempio, la media à pià grande della mediana.