L’inferenza statistica

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Uno dei compiti principali della statistica à quello di fornire informazioni su una certa situazione o su un processo. Il problema specifico da analizzare determina le unità statistiche e quali dei loro caratteri dovranno essere presi in considerazione.

(1) La popolazione

L’insieme di tutte le unità statistiche che vengono analizzate rispetto ad almeno un carattere viene chiamato popolazione. La popolazione à composta da elementi omogenei rispetto a uno o pià caratteri e deve essere definita in modo univoco, ovvero ogni unità statistica appartenente ad essa deve avere caratteri temporali, spaziali o qualitativi che permettono di includerla nella popolazione o meno. La numerosità della popolazione.
La numerosità della popolazione N à semplicemente il numero delle unità statistiche comprese nella popolazione. La popolazione puà essere finita o infinita e anche ipotetica. I valori del carattere (o variabile) si manifestano con una determinata o . I valori e le frequenze ad essi associate ci forniscono la distribuzione del carattere nella popolazione. Per descrivere tale distribuzione possiamo calcolare alcuni parametri indicati con lettere greche nel caso di analisi dell’intera popolazione:

  • la media
  • la varianza
  • la deviazione standard
  • la proporzione

la proporzione di elementi che assume uno dei due possibili valori (solitamente indicati con e ) I parametri della popolazione assumono valori fissi e costanti. La distribuzione e i parametri del carattere nella popolazione sono solitamente totalmente o in parte sconosciuti. Per ottenere informazioni ulteriori si puà effettuare una rilevazione totale o censuaria.
In una rilevazione parziale o censuaria vengono rilevate tutte le unità di una popolazione, i caratteri che queste presentano e le frequesnze a questi associate. Solo grazie ad una rilevazione censuaria à possibile conoscere la distribuzione esatta del carattere e i suoi parametri. In caso di impossibilità nell’eseguire una rilevazione totale si puà ricorrere ad una rilevazione parziale o campionaria.

Il campionamento

Un insieme finito degli elementi della popolazione, che viene scelto per una indagine statistica à detto campione. Il numero di elementi compresi in un campione à detto numerosità del campione e si simboleggia con Il rapporto tra e la popolazione à detto tasso di campionamento. Dato che il campione contiene solo una parte della popolazione, si possono solo ottenere delle informazioni incomplete sulla distribuzione del carattere nella popolazione. Tuttavia, grazie ai risultati ottenuti dal campione si possono “indurre” delle conclusioni sull’intera popolazione. Si parla in questo caso di inferenza statistica. I risultati ottenuti dal processo di inferenza statistica possono contenere degli errori; infatti l’uso di una rilevazione campionaria comporta dei rischi che possono comprometterne l’attendibilità. Questi rischi sono derivano da possibili errori di campionamento. Si possono determinare delle procedure di campionamento che grazie al calcolo delle probabilità, possono a determinate condizioni, misurare il rischio connesso all’uso di una stima campionaria. Si puà quindi dire che l’inferenza statistica fornisce una serie di modelli basati sul calcolo delle probabilità che ci permettono di utilizzare i dati del campione per trarre conclusioni sulla popolazione con una determinata precisione. Per poter utilizzare questi modelli il campione deve essere rappresentativo della popolazione, ovvero deve presentare (con una buona approssimazione) le stesse caratteristiche della popolazione. Per poter trarre delle conclusioni sulla popolazione sulla base del campione si richiede l’uso di determinate tecniche nella scelta del campione.
In un campione probabilistico, ogni elemento ha una probabilità non nulla anche se non necessariamente uguale.
In questo caso la selezione avviene tra elementi che hanno tutti la stessa probabilità di venir scelti.
In questo tipo di campionamento gli elementi soddisfano le condizioni di un campione casuale e vengono estratti indipendentamente li uni dagli altri.

Variabile campionaria

Se si estrae dalla popolazione con il metodo del campionamento semplice un elemento che presenta una manifestazione del carattere , abbiamo una realizzazione di una variabile casuale che indichiamo con . La funzione di ripartizione di ci fornisce la probabilità che un elemento scelto a caso presenti un valore del carattere (variabile) al massimo uguale a . La ripartizione determinata dalla funzione à quindi indicata come la funzione di ripartizione di nella popolazione o in breve come la ripartizione della popolazione. “Carattere” e “variabile casuale” vengono usati come sinonimi e quindi i concetti introdotti dallo studio del calcolo delle probabilità per quanto riguarda le distribuzioni come la speranza matematica o la varianza possono essere utilizzati per lo studio di una popolazione. Estrarre un campione di elementi equivale alla ripetizione volte di un esperimento aleatorio. In tal modo si ottengono variabili casuali La variabile casuale rappresenta la realizzazione della variabile nella -esima estrazione casuale .
Il campione di osservazioni della variabile con funzione di ripartizione à detto campione casuale semplice se le seguenti condizioni sono soddisfatte:

  • Le variabili casuali campionarie sono identicamente distribuite e hanno la stessa funzione di ripartizione della variabile nella popolazione.
  • Le variabili casuali campionarie sono variabili casuali indipendenti.

I valori assunti dalle variabili casuali sono indicati con

Lo stimatore

La funzione delle variabili casuali campionarie à detta stimatore. Lo stimatore à una funzione di variabili casuali (del campione) ed à quindi a sua volta una variabile casuale. Come variabile casuale lo stimatore ha una sua propria distribuzione detta distribuzione campionaria. Per la distribuzione campionaria dello stimatore possiamo derivare

  • la speranza matematica
  • la varianza
  • la deviazione standard

l’estrazione del campione di elementi porta ad identificare i valori della variabile casuale . Applicando la funzione sui valori estratti otteniamo la stima . Se si estraggono pià campioni con lo stesso numero di elementi dalla stessa popolazione, i parametri dei diversi campioni sono differenti e quindi anche le stime di tali parametri cambiano da campione a campione. Gli stimatori hanno un ruolo importante nell’inferenza dei parametri sconosciuti della variabile casuale nella popolazione. Il calcolo di una stima di tali parametri nel campione richiede la definizione di una funzione sulle variabili del campione appropriata, in altre parole la scelta di un appropriato stimatore.

  • ** se la speranza matematica della popolazione à nota:
    • se à sconosciuta:

En s2 30 f 1.gif

All’esame finale di un corso all’università hanno partecipato studenti ottenendo i seguenti punteggi. Tabella 1:

Studente A B C D E F G
Punteggi 10 11 11 12 12 12 16

La variabile ha nella popolazione la seguente distribuzione di frequenze:
Tabella 2:

10 1 1/7 1/7
11 2 2/7 3/7
12 3 3/7 6/7
16 1 1/7 7/7

Da questa distribuzione possono essere calcolate la media, la varianza e la deviazione standard della variabile nella popolazione: Se selezioniamo casualmente una prova d’esame dalla popolazione, il punteggio rilevato su tale prova rappresenta una variabile casuale indicata a sua volta con in quanto rappresenta lo stesso carattere e puà assumere gli stessi valori (10,11,12 o 16) della variabile casuale della popolazione. Le frequenze relative rappresentano le probabilità con le quali una prova d’esame con il corrispondente punteggio puà essere estratta. La variabile casuale ha quindi la funzione di probabilità e la funzione di ripartizione come indicato nella Tabella 2, e quindi la speranza matematica e la varianza .

Campionamento casuale con reinserimento

Supponiamo che dalla popolazione vengano estratte due prove d’esame con reinserimento. Per la prima estrazione si ottiene una variabile casuale = “punteggio della prima prova d’esame estratta” e per la seconda estrazione otteniamo la variabile = “punteggio della seconda prova d’esame estratta”. e sono le due variabili campionarie. La Tabella 3 indica tutti i possibili campioni con che possono essere estratti con reinserimento tenendo conto dell’ordine di estrazione. Tabella 3:

1. prova d’esame
10 11 11 12 12 12 16
10 10;10 10;11 10;11 10;12 10;12 10;12 10;16
11 11;10 11;11 11;11 11;12 11;12 11;12 11;16
11 11;10 11;11 11;11 11;12 11;12 11;12 11;16
12 12;10 12;11 12;11 12;12 12;12 12;12 12;16
12 12;10 12;11 12;11 12;12 12;12 12;12 12;16
12 12;10 12;11 12;11 12;12 12;12 12;12 12;16
16 16;10 16;11 16;11 16;12 16;12 16;12 16;16

La probabilità di ottenere uno di questi campioni à 1/49. Dalla Tabella 3 si possono ottenere le funzioni di probabilità di e . Tabella 4:

10 7 7/49 = 1/7 10 7 7/49 = 1/7
11 14 14/49 = 2/7 11 14 14/49 = 2/7
12 21 21/49 = 3/7 12 21 21/49 = 3/7
16 7 7/49 = 1/7 16 7 7/49 = 1/7

Le funzioni di probabilità di e sono identiche e coincidono con la funzione di probabilità delle variabili casuali nella popolazione. Dalla Tabella 3 si puà anche derivare la distribuzione duedimensionale . Tabella 5:

10 11 12 16
10 1 / 49 2 / 49 3 / 49 1 / 49
11 2 / 49 4 / 49 6 / 49 2 / 49
12 3 / 49 6 / 49 9 / 49 3 / 49
16 1 / 49 2 / 49 3 / 49 1 / 49

L’ultima colonna della Tabella 5 indica la distribuzione marginale di e l’ultima righa contiene la distribuzione marginale di , come già data in Tabella 4. Per ogni casella della Tabella 5, ovvero per ogni paio di valori , vale: Di conseguenza le due variabili casuali e sono indipendenti. Conclusioni:
Dato che le due variabili campionarie e sono indipendenti e distribuite identicamente e hanno la stessa distribuzione della variabile casuale nella popolazione, il campionamento casuale con reinserimento ci fornisce un campione casuale semplice.

Campionamento casuale senza reinserimento

Estraiamo dalla popolazione due prove d’esame senza reinserimento. Come prima otteniamo due variabili campionarie e . La Tabella 6 mostra tutti i possibili campioni che possono essere estratti dalla popolazione senza reinserimento e tenendo presente l’ordine di estrazione. Tabella 6:

1. prova d’esame
10 11 11 12 12 12 16
10 10;11 10;11 10;12 10;12 10;12 10;16
11 11;10 11;11 11;12 11;12 11;12 11;16
11 11;10 11;11 11;12 11;12 11;12 11;16
12 12;10 12;11 12;11 12;12 12;12 12;16
12 12;10 12;11 12;11 12;12 12;12 12;16
12 12;10 12;11 12;11 12;12 12;12 12;16
16 16;10 16;11 16;11 16;12 16;12 16;12

La probabilità di ottenere uno di questi campioni à 1/42. Le distribuzioni di probabilità di e possono essere lette nella Tabella 6. Tabella 7:

10 6 6/42 = 1/7 10 6 6/42 = 1/7
11 12 12/42 = 2/7 11 12 12/42 = 2/7
12 18 18/42 = 3/7 12 18 18/42 = 3/7
16 6 6/42 = 1/7 16 6 6/42 = 1/7

Chiaramente dato che indica l’estrazione della prima prova d’esame, la funzione di probabilità coincide con la distribuzione della popolazione. Se si estrae senza reinserimento cambia perà la distribuzione della popolazione in relazione a quale valore della variabile casuale (punteggio nella prova d’esame) abbiamo ottenuto dalla prima estrazione. Per esempo se la prima prova d’esame estratta ha un punteggio di 10 (), la probabilità –condizionata– di ottenere un 10 nella seconda estrazione diventa (), in quanto tra le 6 prove d’esame che rimangono nella popolazione non c’à pià quella con il punteggio di 10. La Tabella 8 fornisce tutte le probabilità condizionate: Tabella 8:

10 0 3/6 1/6 1/6
11 2/6 1/6 2/6 2/6
12 3/6 3/6 2/6 3/6
16 1/6 1/6 1/6 0
1 1 1 1

La probabilità che assuma un particolare valore (ovvero ) puà essere calcolata utilizzando il teorema delle probabilità totali: Queste probabilità sono quelle riportate nella Tabella 7. In questo modo à identica a ed entrambe sono identiche alla distribuzione della popolazione ma e non sono indipendenti. Cià puà essere dedotto dal fatto che le distribuzioni condizionate (in Tabella 8) non coincidono. Si puà anche vedere grazie ad una distribuzione duedimensionale che puà essere calcolata sulla base della Tabella 6. Tabella 9:

10 11 12 16
10 0 2 / 42 3 / 42 1 / 42
11 2 / 42 4 / 42 6 / 42 2 / 42
12 3 / 42 6 / 42 9 / 42 3 / 42
16 1 / 42 2 / 42 3 / 42 1 / 42

Chiaramente: , e quindi e non sono indipendenti.
Conclusioni:
Le variabili casuali campiponarie e sono identicamente distribuite e hanno la stessa distribuzione della variabile casuale ma sono dipendenti l’una dall’altra. Con un campionamento casuale senza reinserimento non otteniamo quindi un campione casuale semplice.

Perchà si ricorre al campionamento?

Sebbene una rilevazione totale o censuaria fornisca dei dati esatti sulla distribuzione della variabile casuale nella popolazione, in pratica si ricorre spesso ad un campionamento per le seguenti ragioni:

  • Una rilevazione totale non à possibile.
    • l’indagine degli elementi della popolazione implica la loro distruzione

Esempio: la variabile casuale à la durata di vita di batterie, lampadine o la resistenza di determinati materiali. In questo caso bisognerebbe testare tutti gli elementi della popolazione fino alla loro distruzione.

    • la popolazione à molto estesa

Esempio: per preparare un rapporto sullo stato delle foreste in Germania, non si puà esaminare ogni albero sul territorio tedesco.

    • la popolazione à ipotetica e infinita.

Esempio: la popolazione à costituita da tutte le possibili estrazioni di “di sei numeri da 49”.

    • la popolazione contiene elementi che si verificheranno solo nel futuro.

Esempio: al momento della rilevazione alcuni beni prodotti da un macchinario non sono ancora finiti.

  • Una rilevazione totale à troppo costosa.

Esempio: per avere informazioni sui cambiamenti del reddito e delle abitudini di spesa delle famiglie tedesche, non si possono intervistare ogni mese od ogni anno 37,5 milioni di famiglie (dati dell’aprile 1997). I costi sono proibitivi e quinid si ricorre all’estrazione di un campione sui redditi e sui consumi.

  • Una rilevazione totale richiede troppo tempo.

Esempio: la politica economica ha bisogno di dati sempre attuali per essere effettiva.

Il campione probabilistico.

Possiamo distinguere tra due modelli di campionamento probabilistico: con reinserimento oppure senza reinserimento. Nel caso di campionamento con reinserimento ogni elemento della popolazione ha la stessa probabilità di essere nel campione. L’elemento viene quindi estratto, le sue caratteristiche rilevate e reinserito nella popolazione prima che il prossimo elemento venga estratto. In questo modo un elemento puà comparire nel campione pià volte. Il reinserimento implica che

  • le variabili casuali campionarie sono indipendenti in quanto i risultati di ciascuna estrazione non vengono influenzati da quelli di un’altra.
  • la funzione di ripartizione della variabile casuale rimane invariata. La probabilità di estrarre un valore inferiore o uguale a nella prima prova à la stessa in ciascuna prova (2. 3. o n-esima estrazione): In altre parole, le variabili casuali campionarie sono distribuite identicamente.

Un campionamento probabilistico con reinserimento ci fornisce quindi un campione casuale semplice. Nel caso di un processo di campionamento senza reiserimento, ogni elemento della popolazione ha la stessa probabilità di essere estratto. Dopo la rilevazione delle caratteristiche dell’elemento estratto, quest’ultimo non viene reinserito. Di conseguenza la distribuzione della popolazione cambia da estrazione a estrazione e quindi le variabili casuali campionarie non sono indipendenti le une dalle altre. Il campionamento senza reinserimento ci fornisce un campione semplice ma non un campione casuale semplice. Tuttavia, la distinzione tra “con reinserimento” e “senza reinserimento” à rilevante solo per popolazioni finite. Anche in popolazioni finite con una numerosità degli elementi molto elevata in rapporto ad un numero di elementi estratti molto limitato, si puà trascurare questa distinzione in quanto la distribuzione cambia solo minimamente. In generale possiamo dire che se un campionamento senza reinserimento puà essere considerato un campionamento semplice. Oltre ai campionamenti qui menzionati ne esistono altri tipi come il campionamento stratificato, sistematico, a grappoli, a pià stadi.