La distribuzione dello stimatore

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


La distribuzione di uno stimatore à detta distribuzione campionaria. Nella statistica inferenziale si utilizzano gli stimatori per poter stimare i parametri della popolazione sconosciuta sulla base del campione e per poter provare delle ipotesi sui parametri sconosciuti della popolazione. Questi compiti richiedono la conoscenza delle probabilità e della distribuzione dei pià importanti stimatori come la media campionaria e la varianza campionaria.

La distribuzione della media campionaria

Data una popolazione con funzione di ripartizione , speranza matematica e varianza , uno degli stimatori pià importanti à la media campionaria La media campionaria à una funzione delle variabili casuali campionarie : Prima del campionamento le variabili campionarie sono variabili casuali e quindi anche la media campionaria à una variabile casuale. Dopo aver estratto il campione disponiamo dei valori sui quali si applica lo stimatore media campionaria per ottenere la determinazione concreta (stima) di essa:

La speranza matematica, la varianza e la deviazione standard della media campionaria

La speranza matematica, la varianza e la deviazione standard della media campionaria sono:

  1. per un campione probabilistico senza reinserimento à il fattore di correzione per popolazioni finite.

Se la varianza della popolazione à sconosciuta deve essere stimata dal campione con lo stimatore Nelle formule di cui sopra, bisogna sostituire la varianza con e quindi otteniamo per la varianza della media campionaria solo una stima :

  • per un campione casuale semplice:
  • per un campione probabilistico senza reinserimento o in blocco:

Questi risultati sulla speranza matematica e la varianza dello stimatore media campionaria valgono indipendentemente dalla forma effettiva della distribuzione della media campionaria.

La distribuzione della media campionaria

La distribuzione della media campionaria à determinata dalla distribuzione della variabile casuale nella popolazione e dalle eventuali conoscenze che abbiamo su di essa.

  1. Supponiamo che sia una variabile nomale con speranza matematica e varianza :

    1. La varianza della popolazione à conosciuta

      Se à una variabile normale e à conosciuta, allora in un campione casuale semplice, lo stimatore media campionaria à a sua volta distribuito normalmente: e la variabile casuale standardizzata à una variabile normale standardizzata.

    2. Se , à sconosciuta deve essere stimata con . In questo caso non à possibile giugere ad alcuna conclusione sulla distribuzione della media campionaria ma solo sulla variabile standardizzata

      La variabile casuale ha, nel caso di un campione casuale semplice, una distribuzione di t di Student con parametro : Il parametro sono i gradi di libertà di . Se la distribuzione di t di Student converge verso una distribuzione normale standardizzata. La distribuzione t di Student puà essere approssimata già abbastanza correttamente da una distribuzione normale standardizzata per Di conseguenza, nel caso in cui utilizziamo una distribuzione normale standardizzata:


  2. Questo à il caso pià comune nella pratica, in quanto molti caratteri sono distribuiti nella popolazione in modo sconosciuto.

    Consideriamo variabili campionarie distribuite identicamente ma in modo sconosciuto con e In base al teorema del limite centrale possiamo affermare:

    • Se le variabili campionarie sono indipendenti (il campione à casuale semplice) e à conosciuta allora la variabile casuale converge per campioni abbastanza grandi verso una distribuzione normale standardizzata.

    • Se le variabili casuali sono indipendenti e à sconosciuta, allora la variabile casuale converge per campioni abbastanza grandi verso una distribuzione normale standardizzata.

    • Se le variabili casuali non sono indipendenti (estrazione in blocco) allora la variabile casuale rispettivamente converge per una popolazione e un campione abbastanza grandi verso una distribuzione normale standardizzata

    Come regola per l’approssimazione vale .


Se à distribuita normalemente e e sono conosciute, possiamo calcolare come segue la probabilità

  • che assuma valori minori o uguali ad un determinato valore
  • che assuma valori nell’intervallo

dove indica la funzione di ripartizione della distribuzione normale standardizzata. Le probabilità cosà trovate valgono solo approssimativamente se ha una distribuzione sconosciuta e à abbastanza grande.
Se ha una distribuzione normlae e e sono conosciuti, si puà trovare un intervallo di confidenza centrale per determinati livelli di significatività : Il livello di significatività ha valore solo approssimativo se ha una distribuzione sconosciuta e à abbastanza grande.

La legge dei grandi numeri

Date variabili casuali indipendenti e indenticamente distribuite con e , allora per ogni piccolo a piacere vale: lo possiamo dimostrare come segue:
In base alla diseguaglianza di Tschebyschev abbiamo inserendo Se tende all’infinito, il secondo termine sulla destra tende a zero. Questa legge implica che:
per grandi campioni, la probabilità che la media campionaria si discosti dalla speranza matematica di un valore inferiore a converge verso uno; se il campione à abbastanza grande, la media campionaria assume con grande proabilità valori nell’intervallo e cià indipendentemenete dalla distribuzione di nella popolazione.

En s2 31 e 7.gif

Con questo esempio tratteremo formalmente la distribuzione, la speranza matematica e la varianza della media campionaria. A questo scopo dobbiamo avere alcune informazioni sulla popolazione, cosa che nella pratica normalmente non à possibile. Supponiamo che il salario lordo orario medio dei 5000 lavoratori di una certa ditta sia di 27,30 DM con una variazione standard di 5,90 DM.

Problema 1:

Supponiamo che la variabile casuale = “Salario lordo orario di un lavoratore” in detta ditta sia distribuita normalmente. Date le informazioni che abbiamo quindi .
Dalla popolazione viene estratto un campione casuale semplice di lavoratori. La media campionaria ci fornisce il salario lordo orario medio per il campione estratto. Calcoliamo la speranza matematica, la varianza, la deviazione standard e la forma della distribuzione di per le date numerosità del campione:

  1. e

Per tutti i campioni, indipendemente dalla numerosità del campione abbiamo una speranza matematica dello stimatore media campionaria pari a:


Dato che il campione casuale semplice richiede il reinserimento dei lavoratori nella popolazione calcoliamo la varianza della media campionaria come segue Di conseguenza
DM.
DM.
DM. Chiaramente la deviazione standard di à inferiore a quella di . Inoltre si puà osservare che il valore della deviazione standard di diminuisce da 1,8657 a 0,8344 e poi a 0,4172, al crescere dal campione da 10 a 50 e poi a 200. Aumentando la numerosità del campione di cinque volte si ha una diminuzione della deviazione standard di circa la metà. Aumentando la numerosità di venti volte riduciamo la deviazione standard a medo di 1/4 del suo valore iniziale.


Dato che à distribuita normalmente e la corrispondente deviazione standard à conosciuta, anche à, nei dati campioni casuali semplici, distribuita normalmente con speranza matematica e deviazione standard . Di conseguenza:

  1. per il campione semplice casuale di numerosità

    Nel grafico, la curva rossa indica la distribuzione di mentre quella blu indica la distribuzione di .

    En s2 31 e 4.gif

  2. per il campione semplice casuale di numerosità

    En s2 31 e 5.gif

  3. per il campione semplice casuale di numerosità

    En s2 31 e 6.gif

Problema 2:

Supponiamo che la variabile casuale = “Salario lordo orario di un lavoratore” in detta ditta sia distribuita normalmente. Date le informazioni che abbiamo quindi . Dalla popolazione viene stratto in blocco un campione probabilistico di numerosità . La media campionaria ci fornisce quindi il salario lordo orario medio di un campione estratto in blocco di numerosità . Calcoliamo la speranza matematica, la varianza e la deviazione standard di se il campione ha una numerosità di:

  1. e

Per tutti i campioni probabilistici, abbiamo, indipendentemente dal procedimento di estrazione e dalla numerosità, lo stesso risultato che nel problema 1:


Nel caso di un campione probabilistico estratto in blocco, la varianza à calcolata come segue Tuttavia la correzione per popolazioni finite puà essere tralasciata se à sufficientemente piccolo rispetto a (). Di conseguenza Dato che la varianza puà essere calcolata per approssimazione con la formula e otteniamo lo stesso risultato che nel Problema 1:

DM.
Per un confronto: considerando la correzione per popolazioni finite otteniamo e DM, la correzione à quindi trascurabile.
Dato che la varianza puà essere calcolata per approssimazione con la formula e otteniamo lo stesso risultato che nel Problema 1:

DM. Per un confronto: considerando la correzione per popolazioni finite otteniamo e DM.
Dato che dobbiamo usare la correzione per popolazioni finite per calcolare la varianza e la deviazione standard:

Problema 3:

Supponiamo ora, pià realisticamente che la distribuzione di = “Salario lordo orario di un lavoratore” in detta ditta abbia una distribuzione sconosciuta. Sappiamo solo che DM e DM.
Dalla popolazione viene estratto un campione semplice di numerosità . La media campionaria ci fornisce quindi il salario lordo orario medio per questo campione. Calcoliamo la speranza matematica, la varianza, la deviazione standard e la forma della distribuzione di per le seguenti numerosità del campione:

  1. e

La speranza matematica non dipende dalla distribuzione di e quindi il risultato rimane sempre lo stesso dei problemi 1 e 2:


Il calcolo della varianza di non dipende dalla distribuzione di , ma dal tipo e dalla numerosità dal campione. Nel problema 3 non abbiamo specificato che tipo di campionamento effettuiamo. In tutte e tre le estrazioni abbiamo comunque in modo tale che anche in una estrazione in blocco possiamo calcolare per approssimazione la varianza e la deviazione standard come segue . lll per & & DM

per & & DM

per & & DM


Purtroppo non conosciamo la distribuzione di e quindi non possiamo trarre alcuna conclusione sulla distribuzione di Tuttavia in base al teorema del limite centrale sappiamo che la variabile casuale standardizzata converge verso una distribuzione normale standardizzata per una numerosità del campione e se in un campione probabilistico la popolazione à abbastanza numerosa ( abbastanza grande). Le condizioni sono soddisfatte per b) e c) .

En s2 30 f 1.gif

studenti prendono parte ad un esame ed ottengono i seguenti punteggi:
Tabella 1:

Studente A B C D E F G
Punti 10 11 11 12 12 12 16

La variabile = “punteggio ottenuto nell’esame” ha nella popolazione la seguente distribuzione di frequenze:
Tabella 2:

10 1 1/7 1/7
11 2 2/7 3/7
12 3 3/7 6/7
16 1 1/7 7/7

con e .

Campionamento casuale con reinserimento

prove d’esame vengono estratte con reinserimento. Nella Tabella 3 sono elencati tutti i possibili campioni con reinserimento e con considerazione dell’ordine di estrazione: Tabella 3:

1. esame
10 11 11 12 12 12 16
10 10;10 10;11 10;11 10;12 10;12 10;12 10;16
11 11;10 11;11 11;11 11;12 11;12 11;12 11;16
11 11;10 11;11 11;11 11;12 11;12 11;12 11;16
12 12;10 12;11 12;11 12;12 12;12 12;12 12;16
12 12;10 12;11 12;11 12;12 12;12 12;12 12;16
12 12;10 12;11 12;11 12;12 12;12 12;12 12;16
16 16;10 16;11 16;11 16;12 16;12 16;12 16;16

Per ogni possibile campione calcoliamo la media aritmetica indicata in Tabella 4. Tabella 4:

1. esame
10 11 11 12 12 12 16
10 10 10,5 10,5 11 11 11 13
11 10,5 11 11 11,5 11,5 11,5 13,5
11 10,5 11 11 11,5 11,5 11,5 13,5
12 11 11,5 11,5 12 12 12 14
12 11 11,5 11,5 12 12 12 14
12 11 11,5 11,5 12 12 12 14
16 13 13,5 13,5 14 14 14 16

puà quindi assumere diversi valori con diverse probabilità associate. Dalla Tabella 4 possiamo determinare la distribuzione di indicata nelle colonne 1 e 2 della Tabella 5. Tabella 5:

10 1 / 49 - 2 4 4 / 49
10.5 4 / 49 - 1.5 2.25 9 / 49
11 10 / 49 - 1 1 10 / 49
11.5 12 / 49 - 0.5 0.25 3 / 49
12 9 / 49 0 0 0
13 2 / 49 1 1 2 / 49
13.5 4 / 49 1.5 2.25 9 / 49
14 6 / 49 2 4 24 / 49
16 1 / 49 4 16 16 / 49

Se si calcola la media aritmetica di questa distribuzione, ovvero la speranza matematica di , otteniamo: che corrisponde alla speranza matematica della variabile casuale nella popolazione: . Possiamo calcolare la varianza di grazie ai risultati intermedi delle colonne 3-5 della Tabella 5 nel seguente modo: questo risultato corrisponde alla formula per data in precedenza: Si puà facilmente notare che la varianza di à effettivamente pià piccola di quella di .

Campionamento casuale senza reinserimento

Estraiamo ora prove d’esame senza reinserimento. Nella Tabella 6 sono indicati tutti i possibli campioni estratti in blocco con tenendo in considerazione l’ordine delle estrazioni. Tabella 6:

1. esame
10 11 11 12 12 12 16
10 10;11 10;11 10;12 10;12 10;12 10;16
11 11;10 11;11 11;12 11;12 11;12 11;16
11 11;10 11;11 11;12 11;12 11;12 11;16
12 12;10 12;11 12;11 12;12 12;12 12;16
12 12;10 12;11 12;11 12;12 12;12 12;16
12 12;10 12;11 12;11 12;12 12;12 12;16
16 16;10 16;11 16;11 16;12 16;12 16;12

Per ogni campione calcoliamo la media aritmetica indicata in Tabella 7: Tabella 7:

1. esame
10 11 11 12 12 12 16
10 10,5 10,5 11 11 11 13
11 10,5 11 11,5 11,5 11,5 13,5
11 10,5 11 11,5 11,5 11,5 13,5
12 11 11,5 11,5 12 12 14
12 11 11,5 11,5 12 12 14
12 11 11,5 11,5 12 12 14
16 13 13,5 13,5 14 14 14

Le prime due colonne della Tabella 8 ci forniscono la distribuzione di probabilità di : Tabella 8:

10,5 4 / 42 - 1,5 2,25 9 / 42
11 8 / 42 - 1 1 8 / 42
11,5 12 / 42 - 0,5 0,25 3 / 42
12 6 / 42 0 0 0
13 2 / 42 1 1 2 / 42
13,5 4 / 42 1,5 2,25 9 / 42
14 6 / 42 2 4 24 / 42

La speranza matematica à ed à uguale alla speranza matematica di . La varianza à come da formula data per il calcolo di : Consideriamo una popolazione con una funzione di ripartizione , speranza matematica e varianza . Le variabili casuali campionarie hanno tutte la stessa funzione di ripartizione , speranza matematica e varianza .

Speranza matematica della media campionaria

Utilizzando le regole per la combinazione lineare di variabili casuali otteniamo: con . Questo risultato vale sia per campioni casuali bernoulliani sia per campioni estratti in blocco. Cià significa che vale per campioni di qualsiasi numerosità.

Varianza della media campionaria

(1) Dato che vale per ogni e che con un campionamento casuale semplice le variabili campionarie sono indipendenti e , la varianza puà essere calcolata come segue: Si noti che la varianza della media campionaria à pià piccola di quella di e diventa sempre pià piccola per crescente. Per grandi la distribuzione di probabilità di si concentra attorno al valore .
(2)
Nel caso di un campionamento senza reinserimento possiamo derivare la varianza in modo analogo al caso precedente, il calcolo in sà stesso à perà pià complicato data la dipendenza delle variabili campionarie. Per quanto riguarda la correzione per popolaziuoni finite, possiamo approssimarla come segue per grandi campioni abbiamo quindi una correzione approssimativa dove à il tasso di campionamento. In un campionamento in blocco, non puà essere maggiore di . Per un determinato valore di , la correzione per popolazioni finite converge verso 1: Nella pratica si puà quindi tralasciare la correzione se à piccola in rapporto a .
In generale cià vale per:
Chiaramente in questo caso si ottiene solo un valore approssimativo di .

La distribuzione di

Supponiamo che la variabile casuale abbia una distribuzione normale con media e vaianza : . In questo caso anche le variabili campionarie sono identicamente normalmente distribuite : per ogni . La somma di variabili indipendenti normali à a sua volta distribuita normalmente (proprietà additiva della distribuzione normale): Lo stimatore si differenzia da questa somma solo per il fattore costante e di conseguenza ha una distribuzione normale: . Per poter utilizzare le tavole bisogna tuttavia standardizzare la distribuzione: ha quindi la distribuzione: . Come si puà dedurre dalla formula, l’uso della variabile standardizzata richiede la conoscenza della varianza della popolazione
Se la varianza della popolazione à sconosciuta dobbiamo estimarla come segue:
Dividendo ciscun membro per otteniemo Per semplificare definiamo .
In un campione casuale semplice, le variabili campionarie sono indipendenti e di conseguenza rappresenta la somma di variabili indipendenti distribuite normalemente elevate al quadrato. La variabile ha quindi una distribuzione di Chi-quadrato con il parametro . Il rapporto tra la variabile normale standardizzata e la radice quadrata della variabile Chi-quadrato (indipendente da ) divisa per i suoi gradi di libertà ci fornisce la variabile casuale con una distribuzione di t di Student con il parametro . Inserendo le corrispondenti formule per , e ed elaborando il risultato abbiamo:

Intervallo di confidenza:

L’intervallo centrale di confidenza definisce un intervallo centrato sul valore della media della media campionaria , con estremi , e include i valori di con una prescelta probabilità :
. Considerando la variabile casuale standardizzata abbiamo Lo scostamento da viene quindi espresso come multiplo di . Inserendo otteniamo l’intervallo con probabilità Se e sono conosciuti e à distribuita normalmente possiamo calcolare l’intervallo di confidenza per determinati livelli di probabilità , inserendo nella formula il valore di che troviamo nelle tavole della distribuzione . La probabilità ha un valore solo approssimativo se ha una distribuzione sconosciuta e il campione ha una numerosità sufficientemente elevata.