La distribuzione di uno stimatore à detta distribuzione campionaria. Nella statistica inferenziale si utilizzano gli stimatori per poter stimare i parametri della popolazione sconosciuta sulla base del campione e per poter provare delle ipotesi sui parametri sconosciuti della popolazione. Questi compiti richiedono la conoscenza delle probabilità e della distribuzione dei pià importanti stimatori come la media campionaria e la varianza campionaria.
La distribuzione della media campionaria
Data una popolazione con funzione di ripartizione
, speranza matematica
e varianza
, uno degli stimatori pià importanti à la media campionaria
La media campionaria à una funzione delle variabili casuali campionarie
:
Prima del campionamento le variabili campionarie
sono variabili casuali e quindi anche la media campionaria
à una variabile casuale. Dopo aver estratto il campione disponiamo dei valori
sui quali si applica lo stimatore media campionaria per ottenere la determinazione concreta (stima) di essa:
La speranza matematica, la varianza e la deviazione standard della media campionaria
La speranza matematica, la varianza e la deviazione standard della media campionaria sono:
- per un campione probabilistico senza reinserimento
à il fattore di correzione per popolazioni finite.
Se la varianza della popolazione
à sconosciuta deve essere stimata dal campione con lo stimatore
Nelle formule di cui sopra, bisogna sostituire la varianza
con
e quindi otteniamo per la varianza della media campionaria
solo una stima
:
- per un campione casuale semplice:

- per un campione probabilistico senza reinserimento o in blocco:

Questi risultati sulla speranza matematica e la varianza dello stimatore media campionaria
valgono indipendentemente dalla forma effettiva della distribuzione della media campionaria.
La distribuzione della media campionaria
La distribuzione della media campionaria
à determinata dalla distribuzione della variabile casuale
nella popolazione e dalle eventuali conoscenze che abbiamo su di essa.
Supponiamo che
sia una variabile nomale con speranza matematica
e varianza
: 
La varianza della popolazione
à conosciuta
Se
à una variabile normale
e
à conosciuta, allora in un campione casuale semplice, lo stimatore media campionaria
à a sua volta distribuito normalmente:
e la variabile casuale standardizzata
à una variabile normale standardizzata
.
Se
, à sconosciuta deve essere stimata con
. In questo caso non à possibile giugere ad alcuna conclusione sulla distribuzione della media campionaria
ma solo sulla variabile standardizzata 
La variabile casuale
ha, nel caso di un campione casuale semplice, una distribuzione di t di Student con parametro
:
Il parametro
sono i gradi di libertà di
. Se
la distribuzione di t di Student converge verso una distribuzione normale standardizzata. La distribuzione t di Student puà essere approssimata già abbastanza correttamente da una distribuzione normale standardizzata per
Di conseguenza, nel caso in cui
utilizziamo una distribuzione normale standardizzata: 
Questo à il caso pià comune nella pratica, in quanto molti caratteri sono distribuiti nella popolazione in modo sconosciuto.
Consideriamo
variabili campionarie
distribuite identicamente ma in modo sconosciuto con
e
In base al teorema del limite centrale possiamo affermare:
Se le variabili campionarie
sono indipendenti (il campione à casuale semplice) e
à conosciuta allora la variabile casuale
converge per campioni abbastanza grandi verso una distribuzione normale standardizzata.
Se le variabili casuali
sono indipendenti e
à sconosciuta, allora la variabile casuale
converge per campioni abbastanza grandi verso una distribuzione normale standardizzata.
Se le variabili casuali
non sono indipendenti (estrazione in blocco) allora la variabile casuale
rispettivamente
converge per una popolazione
e un campione
abbastanza grandi verso una distribuzione normale standardizzata
Come regola per l’approssimazione vale
.
Se
à distribuita normalemente e
e
sono conosciute, possiamo calcolare come segue la probabilità
- che
assuma valori minori o uguali ad un determinato valore

- che
assuma valori nell’intervallo

dove
indica la funzione di ripartizione della distribuzione normale standardizzata. Le probabilità cosà trovate valgono solo approssimativamente se
ha una distribuzione sconosciuta e
à abbastanza grande.
Se
ha una distribuzione normlae e
e
sono conosciuti, si puà trovare un intervallo di confidenza centrale
per determinati livelli di significatività
:
Il livello di significatività
ha valore solo approssimativo se
ha una distribuzione sconosciuta e
à abbastanza grande.
La legge dei grandi numeri
Date
variabili casuali indipendenti e indenticamente distribuite
con
e
, allora per ogni
piccolo a piacere vale:
lo possiamo dimostrare come segue:
In base alla diseguaglianza di Tschebyschev abbiamo
inserendo
Se
tende all’infinito, il secondo termine sulla destra tende a zero.
Questa legge implica che:
per grandi campioni, la probabilità che la media campionaria
si discosti dalla speranza matematica
di un valore inferiore a
converge verso uno; se il campione à abbastanza grande, la media campionaria
assume con grande proabilità valori nell’intervallo
e cià indipendentemenete dalla distribuzione di
nella popolazione.
Con questo esempio tratteremo formalmente la distribuzione, la speranza matematica e la varianza della media campionaria. A questo scopo dobbiamo avere alcune informazioni sulla popolazione, cosa che nella pratica normalmente non à possibile.
Supponiamo che il salario lordo orario medio dei 5000 lavoratori di una certa ditta sia di 27,30 DM con una variazione standard di 5,90 DM.
Problema 1:
Supponiamo che la variabile casuale
= “Salario lordo orario di un lavoratore” in detta ditta sia distribuita normalmente. Date le informazioni che abbiamo quindi
.
Dalla popolazione viene estratto un campione casuale semplice di
lavoratori. La media campionaria
ci fornisce il salario lordo orario medio per il campione estratto.
Calcoliamo la speranza matematica, la varianza, la deviazione standard e la forma della distribuzione di
per le date numerosità del campione:
e
Per tutti i campioni, indipendemente dalla numerosità del campione abbiamo una speranza matematica dello stimatore media campionaria pari a:
Dato che il campione casuale semplice richiede il reinserimento dei lavoratori nella popolazione calcoliamo la varianza della media campionaria come segue
Di conseguenza

DM.

DM.

DM.
Chiaramente la deviazione standard di
à inferiore a quella di
. Inoltre si puà osservare che il valore della deviazione standard di
diminuisce da 1,8657 a 0,8344 e poi a 0,4172, al crescere dal campione da 10 a 50 e poi a 200. Aumentando la numerosità del campione di cinque volte si ha una diminuzione della deviazione standard di circa la metà. Aumentando la numerosità di venti volte riduciamo la deviazione standard a medo di 1/4 del suo valore iniziale.
Dato che
à distribuita normalmente e la corrispondente deviazione standard à conosciuta, anche
à, nei dati campioni casuali semplici, distribuita normalmente con speranza matematica
e deviazione standard
.
Di conseguenza:
per il campione semplice casuale di numerosità 

Nel grafico, la curva rossa indica la distribuzione di
mentre quella blu indica la distribuzione di
.
per il campione semplice casuale di numerosità 

per il campione semplice casuale di numerosità 

Problema 2:
Supponiamo che la variabile casuale
= “Salario lordo orario di un lavoratore” in detta ditta sia distribuita normalmente. Date le informazioni che abbiamo quindi
.
Dalla popolazione viene stratto in blocco un campione probabilistico di numerosità
. La media campionaria
ci fornisce quindi il salario lordo orario medio di un campione estratto in blocco di numerosità
.
Calcoliamo la speranza matematica, la varianza e la deviazione standard di
se il campione ha una numerosità di:
e
Per tutti i campioni probabilistici, abbiamo, indipendentemente dal procedimento di estrazione e dalla numerosità, lo stesso risultato che nel problema 1:
Nel caso di un campione probabilistico estratto in blocco, la varianza à calcolata come segue
Tuttavia la correzione per popolazioni finite puà essere tralasciata se
à sufficientemente piccolo rispetto a
(
).
Di conseguenza
Dato che
la varianza puà essere calcolata per approssimazione con la formula
e otteniamo lo stesso risultato che nel Problema 1:

DM.
Per un confronto: considerando la correzione per popolazioni finite otteniamo
e
DM, la correzione à quindi trascurabile.
Dato che
la varianza puà essere calcolata per approssimazione con la formula
e otteniamo lo stesso risultato che nel Problema 1:

DM. Per un confronto: considerando la correzione per popolazioni finite otteniamo
e
DM.
Dato che
dobbiamo usare la correzione per popolazioni finite per calcolare la varianza e la deviazione standard:
Problema 3:
Supponiamo ora, pià realisticamente che la distribuzione di
= “Salario lordo orario di un lavoratore” in detta ditta abbia una distribuzione sconosciuta. Sappiamo solo che
DM e
DM.
Dalla popolazione viene estratto un campione semplice di numerosità
. La media campionaria
ci fornisce quindi il salario lordo orario medio per questo campione.
Calcoliamo la speranza matematica, la varianza, la deviazione standard e la forma della distribuzione di
per le seguenti numerosità del campione:
e
La speranza matematica
non dipende dalla distribuzione di
e quindi il risultato rimane sempre lo stesso dei problemi 1 e 2:
Il calcolo della varianza di
non dipende dalla distribuzione di
, ma dal tipo e dalla numerosità dal campione.
Nel problema 3 non abbiamo specificato che tipo di campionamento effettuiamo. In tutte e tre le estrazioni abbiamo comunque
in modo tale che anche in una estrazione in blocco possiamo calcolare per approssimazione la varianza e la deviazione standard come segue
.
lll per
&
&
DM
per
&
&
DM
per
&
&
DM
Purtroppo non conosciamo la distribuzione di
e quindi non possiamo trarre alcuna conclusione sulla distribuzione di
Tuttavia in base al teorema del limite centrale sappiamo che la variabile casuale standardizzata
converge verso una distribuzione normale standardizzata per una numerosità del campione
e se in un campione probabilistico la popolazione à abbastanza numerosa (
abbastanza grande). Le condizioni sono soddisfatte per b)
e c)
.
studenti prendono parte ad un esame ed ottengono i seguenti punteggi:
Tabella 1:
Studente
|
A
|
B
|
C
|
D
|
E
|
F
|
G
|
Punti
|
10
|
11
|
11
|
12
|
12
|
12
|
16
|
La variabile
= “punteggio ottenuto nell’esame” ha nella popolazione la seguente distribuzione di frequenze:
Tabella 2:
|
|
|
|
10
|
1
|
1/7
|
1/7
|
11
|
2
|
2/7
|
3/7
|
12
|
3
|
3/7
|
6/7
|
16
|
1
|
1/7
|
7/7
|
con
e
.
Campionamento casuale con reinserimento
prove d’esame vengono estratte con reinserimento. Nella Tabella 3 sono elencati tutti i possibili campioni
con reinserimento e con considerazione dell’ordine di estrazione:
Tabella 3:
1. esame
|
|
|
|
|
|
|
|
|
10
|
11
|
11
|
12
|
12
|
12
|
16
|
10
|
10;10
|
10;11
|
10;11
|
10;12
|
10;12
|
10;12
|
10;16
|
11
|
11;10
|
11;11
|
11;11
|
11;12
|
11;12
|
11;12
|
11;16
|
11
|
11;10
|
11;11
|
11;11
|
11;12
|
11;12
|
11;12
|
11;16
|
12
|
12;10
|
12;11
|
12;11
|
12;12
|
12;12
|
12;12
|
12;16
|
12
|
12;10
|
12;11
|
12;11
|
12;12
|
12;12
|
12;12
|
12;16
|
12
|
12;10
|
12;11
|
12;11
|
12;12
|
12;12
|
12;12
|
12;16
|
16
|
16;10
|
16;11
|
16;11
|
16;12
|
16;12
|
16;12
|
16;16
|
Per ogni possibile campione calcoliamo la media aritmetica indicata in Tabella 4.
Tabella 4:
1. esame
|
|
|
|
|
|
|
|
|
10
|
11
|
11
|
12
|
12
|
12
|
16
|
10
|
10
|
10,5
|
10,5
|
11
|
11
|
11
|
13
|
11
|
10,5
|
11
|
11
|
11,5
|
11,5
|
11,5
|
13,5
|
11
|
10,5
|
11
|
11
|
11,5
|
11,5
|
11,5
|
13,5
|
12
|
11
|
11,5
|
11,5
|
12
|
12
|
12
|
14
|
12
|
11
|
11,5
|
11,5
|
12
|
12
|
12
|
14
|
12
|
11
|
11,5
|
11,5
|
12
|
12
|
12
|
14
|
16
|
13
|
13,5
|
13,5
|
14
|
14
|
14
|
16
|
puà quindi assumere diversi valori con diverse probabilità associate. Dalla Tabella 4 possiamo determinare la distribuzione di
indicata nelle colonne 1 e 2 della Tabella 5.
Tabella 5:
|
|
|
|
|
10
|
1 / 49
|
- 2
|
4
|
4 / 49
|
10.5
|
4 / 49
|
- 1.5
|
2.25
|
9 / 49
|
11
|
10 / 49
|
- 1
|
1
|
10 / 49
|
11.5
|
12 / 49
|
- 0.5
|
0.25
|
3 / 49
|
12
|
9 / 49
|
0
|
0
|
0
|
13
|
2 / 49
|
1
|
1
|
2 / 49
|
13.5
|
4 / 49
|
1.5
|
2.25
|
9 / 49
|
14
|
6 / 49
|
2
|
4
|
24 / 49
|
16
|
1 / 49
|
4
|
16
|
16 / 49
|
Se si calcola la media aritmetica di questa distribuzione, ovvero la speranza matematica di
, otteniamo:
che corrisponde alla speranza matematica della variabile casuale
nella popolazione:
. Possiamo calcolare la varianza di
grazie ai risultati intermedi delle colonne 3-5 della Tabella 5 nel seguente modo:
questo risultato corrisponde alla formula per
data in precedenza:
Si puà facilmente notare che la varianza di
à effettivamente pià piccola di quella di
.
Campionamento casuale senza reinserimento
Estraiamo ora
prove d’esame senza reinserimento. Nella Tabella 6 sono indicati tutti i possibli campioni estratti in blocco con
tenendo in considerazione l’ordine delle estrazioni.
Tabella 6:
1. esame
|
|
|
|
|
|
|
|
|
10
|
11
|
11
|
12
|
12
|
12
|
16
|
10
|
|
10;11
|
10;11
|
10;12
|
10;12
|
10;12
|
10;16
|
11
|
11;10
|
|
11;11
|
11;12
|
11;12
|
11;12
|
11;16
|
11
|
11;10
|
11;11
|
|
11;12
|
11;12
|
11;12
|
11;16
|
12
|
12;10
|
12;11
|
12;11
|
|
12;12
|
12;12
|
12;16
|
12
|
12;10
|
12;11
|
12;11
|
12;12
|
|
12;12
|
12;16
|
12
|
12;10
|
12;11
|
12;11
|
12;12
|
12;12
|
|
12;16
|
16
|
16;10
|
16;11
|
16;11
|
16;12
|
16;12
|
16;12
|
|
Per ogni campione calcoliamo la media aritmetica indicata in Tabella 7:
Tabella 7:
1. esame
|
|
|
|
|
|
|
|
|
10
|
11
|
11
|
12
|
12
|
12
|
16
|
10
|
|
10,5
|
10,5
|
11
|
11
|
11
|
13
|
11
|
10,5
|
|
11
|
11,5
|
11,5
|
11,5
|
13,5
|
11
|
10,5
|
11
|
|
11,5
|
11,5
|
11,5
|
13,5
|
12
|
11
|
11,5
|
11,5
|
|
12
|
12
|
14
|
12
|
11
|
11,5
|
11,5
|
12
|
|
12
|
14
|
12
|
11
|
11,5
|
11,5
|
12
|
12
|
|
14
|
16
|
13
|
13,5
|
13,5
|
14
|
14
|
14
|
|
Le prime due colonne della Tabella 8 ci forniscono la distribuzione di probabilità di
:
Tabella 8:
|
|
|
|
|
10,5
|
4 / 42
|
- 1,5
|
2,25
|
9 / 42
|
11
|
8 / 42
|
- 1
|
1
|
8 / 42
|
11,5
|
12 / 42
|
- 0,5
|
0,25
|
3 / 42
|
12
|
6 / 42
|
0
|
0
|
0
|
13
|
2 / 42
|
1
|
1
|
2 / 42
|
13,5
|
4 / 42
|
1,5
|
2,25
|
9 / 42
|
14
|
6 / 42
|
2
|
4
|
24 / 42
|
La speranza matematica
à
ed à uguale alla speranza matematica di
.
La varianza à
come da formula data per il calcolo di
:
Consideriamo una popolazione con una funzione di ripartizione
, speranza matematica
e varianza
. Le variabili casuali campionarie
hanno tutte la stessa funzione di ripartizione
, speranza matematica
e varianza
.
Speranza matematica della media campionaria 
Utilizzando le regole per la combinazione lineare di variabili casuali otteniamo:
con
.
Questo risultato vale sia per campioni casuali bernoulliani sia per campioni estratti in blocco. Cià significa che
vale per campioni di qualsiasi numerosità.
Varianza della media campionaria
(1)
Dato che
vale per ogni
e che con un campionamento casuale semplice le variabili campionarie sono indipendenti e
, la varianza puà essere calcolata come segue:
Si noti che la varianza della media campionaria
à pià piccola di quella di
e diventa sempre pià piccola per
crescente. Per grandi
la distribuzione di probabilità di
si concentra attorno al valore
.
(2)
Nel caso di un campionamento senza reinserimento possiamo derivare la varianza
in modo analogo al caso precedente, il calcolo in sà stesso à perà pià complicato data la dipendenza delle variabili campionarie. Per quanto riguarda la correzione per popolaziuoni finite, possiamo approssimarla come segue per grandi campioni
abbiamo quindi una correzione approssimativa
dove
à il tasso di campionamento. In un campionamento in blocco,
non puà essere maggiore di
. Per un determinato valore di
, la correzione per popolazioni finite converge verso 1:
Nella pratica si puà quindi tralasciare la correzione se
à piccola in rapporto a
.
In generale cià vale per: 
Chiaramente in questo caso si ottiene solo un valore approssimativo di
.
La distribuzione di 
Supponiamo che la variabile casuale
abbia una distribuzione normale con media
e vaianza
:
.
In questo caso anche le variabili campionarie
sono identicamente normalmente distribuite :
per ogni
. La somma di
variabili indipendenti normali à a sua volta distribuita normalmente (proprietà additiva della distribuzione normale):
Lo stimatore
si differenzia da questa somma solo per il fattore costante
e di conseguenza ha una distribuzione normale:
. Per poter utilizzare le tavole bisogna tuttavia standardizzare la distribuzione:
ha quindi la distribuzione:
.
Come si puà dedurre dalla formula, l’uso della variabile standardizzata
richiede la conoscenza della varianza della popolazione 
Se la varianza della popolazione
à sconosciuta dobbiamo estimarla come segue:
Dividendo ciscun membro per
otteniemo
Per semplificare definiamo
.
In un campione casuale semplice, le variabili campionarie
sono indipendenti e di conseguenza
rappresenta la somma di variabili indipendenti distribuite normalemente elevate al quadrato. La variabile
ha quindi una distribuzione di Chi-quadrato con il parametro
. Il rapporto tra la variabile normale standardizzata
e la radice quadrata della variabile Chi-quadrato
(indipendente da
) divisa per i suoi gradi di libertà
ci fornisce la variabile casuale
con una distribuzione di t di Student con il parametro
. Inserendo le corrispondenti formule per
,
e
ed elaborando il risultato abbiamo:
Intervallo di confidenza:
L’intervallo centrale di confidenza definisce un intervallo centrato sul valore della media
della media campionaria
, con estremi
, e include i valori di
con una prescelta probabilità
:
.
Considerando la variabile casuale standardizzata
abbiamo
Lo scostamento
da
viene quindi espresso come multiplo di
. Inserendo
otteniamo l’intervallo
con probabilità
Se
e
sono conosciuti e
à distribuita normalmente possiamo calcolare l’intervallo di confidenza per determinati livelli di probabilità
, inserendo nella formula il valore di
che troviamo nelle tavole della distribuzione
. La probabilità
ha un valore solo approssimativo se
ha una distribuzione sconosciuta e il campione ha una numerosità
sufficientemente elevata.