L’intervallo di confidenza per la media

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Supponiamo di avere la variabile casuale con speranza matematica sconosciuta per la quale vogliamo effettuare una stima per intervallo. sono le variabili campionarie di un campione casuale semplice di dimensione estratto da questa popolazione. Abbiamo già dimostrato che la media campionaria à uno stimatore puntuale adeguato per il valore atteso sconosciuto della popolazione in quanto à uno stimatore corretto e consistente. La varianza e la deviazione standard di sono nel caso di un campione casuale semplice (vedi il cap. Distribuzioni campionarie): Per la costruzione di un intervallo di confidenza simmetrico (centrale) per procediamo come segue:

  • stabiliamo lo stimatore ,
  • utilizziamo la deviazione standard come misura di precisione
  • prendiamo in considerazione il fattore come multiplo della deviazione standard di al quale riferiamo il coefficiente di confidenza .

Di conseguenza l’intervallo diviene inserendo un intervallo con il coefficiente di confidenza se entrambi le condizioni per un intervallo di confidenza sono soddisfatte: La prima condizione :
per ogni campione osservato à soddisfatta. La seconda condizione:
, richiede che la probabilità debba poter essere determinata effettivamente o approssimativamente senza conoscere il valore effettivo del parametro ; cià presuppone la conoscenza della distribuzione dello stimatore e quindi della distribuzione di nella popolazione. Cià puà porre numerosi problemi pratici in quanto solitamente la distribuzione di à sconosciuta. Consideriamo i seguenti casi:

  • ha una distribuzione normale.
  • La distribuzione di non à conosciuta ed estraiamo campioni di grandi dimensioni.

Un ulteriore problema à costituito dal fatto che nell’intervallo à contenuta la deviazione standard della variabile casuale della popolazione. Dobbiamo quindi distinguere tra le due possibilità:

  • à conosciuta e
  • à sconosciuta.

Intervallo di confidenza per la media data varianza conosciuta.

Popolazione distribuita normalmente

Supponiamo di avere una variabile casuale distribuita normalmente in una popolazione con e : La varianza à conosciuta mentre la media à sconosciuta e deve essere stimata. Per questo estraiamo un campione di numerosità . Le variabili campionarie sono indipendenti e normalmente distribuite con e : Da cià segue che lo stimatore ha anch’esso una distribuzione normale con e : La variabile casuale standardizzata ha una distribuzione standardizzata normale: . Per la variabile standardizzata possiamo determinare un intervallo di oscillazione centrale dove assume valori con un dato intervallo di confindenza puà essere considerato il quantile e il quantile della distribuzione normale standardizzata. Data la simmetria della distribuzione normale standardizzata, vale Di conseguenza: Per la probabilità troviamo nelle tavole della distribuzione normale standardizzata. Dopo aver inserito otteniamo: Nell’ultima espressione abbiamo l’intervallo di confidenza per il parametro . La costante come multiplo della deviazione standard dello stimatore à data da: . Le condizioni per un intervallo di confidenza sono soddisfatte in quanto la distribuzione à conosciuta (normale standardizzata) e non dipende dal parametro incognito . à un intervallo di confidenza per il parametro sconosciuto di una variabile casuale normale standardizzata con varianza conosciuta con coefficiente di confidenza Se il campione à già stato estratto e disponiamo delle osservazioni , allora à la media aritmetica del campione (come realizzazione di ) e à la corrispondente stima dell’intervallo di confidenza. L’interpretazione generale data per gli intervalli di confidenza puà essere applicata anche in questo caso.

  • Per quanto riguarda la probabilità, l’intervallo di confidenza dato à simmetrico in quanto
  • L’intervallo à simmetrico anche rispetto alla stima puntuale. Gli estremi dell’intervallo hanno la stessa distanza da . Questa distanza (ovvero la metà dell’ampiezza dell’intervallo) puà in questo caso anche essere considerata come errore di stima e indicata con :
  • L’ampiezza dell’intervallo di confidenza e l’errore di stima non dipendono dalle variabili campionarie . Dati , e otteniamo diverse stime di intervalli da campione a campione. Tuttavia queste stime hanno tutte la stessa ampiezza e quindi errore di stima.
  • L’ampiezza dell’intervallo di confidenza e l’errore di stima dipendono dalla deviazione standard della popolazione , dalla numerosità del campione , e attraverso dal coefficiente di confidenza. Quanto pià grande (piccola) à la deviazione standard tanto pià ampio (ristretto) sarà l’intervallo a parità di condizioni. Quanto pià grande (piccolo) à il coefficiente di confidenza tanto pià grande (piccolo) à e quindi ampio (ristretto) l’intervallo a parità di condizioni. Quanto pià grande (piccola) à la dimensione campionaria tanto pià ristretto (ampio) sarà l’intervallo a parità di condizioni. Si puà stabilire abbastanza precisamente l’intervallo desiderato, agendo sul coefficiente di confidenza e sulla dimensione del campione.

La distribuzione della popolazione à sconosciuta

Se la distribuzione delle variabili casuali nella popolazione à sconosciuta, non possiamo stabilire con precisione la distribuzione dello stimatore . Tuttavia grazie al teorema del limite centrale sappiamo che la distribuzione di converge per una numerosità del campione crescente verso una distribuzione normale. Di conseguenza per campioni sufficientemente grandi, lo stimatore à approssimativamente distribuito normalmente: e la variabile casuale standardizzata ha approssimativamente una distribuzione normale standardizzata: Regola generale per avere un campione abbastanza grande à . Di conseguenza à un intervallo di confidenza per il parametro incongito , che ha approssimativamente il coefficiente di confidenza

Intervallo di confidenza per la media nel caso in cui la varianza sia sconosciuta.

La popolazione à distribuita normalmente

Come in 1.1 vale La variabile casuale standardizzata non puà esssere determinata in quanto à sconosciuta. La varianza deve essere stimata con i valori del campione. Uno stimatore adeguato à la varianza campionaria La deviazione standard come radice quadrata di viene utilizzata per la standardizzazione: Dato un campione casuale semplice di dimensione , la variabile casuale ha una distribuzione di t di Student con gradi di libertà: Per la variabile casuale standardizzata possiamo costruire un intervallo di confidenza centrale tale che ricada nell’intervallo con una determinata probabilità à il - quantile e à il - quantile della distribuzione t di Student. Data la simmetria della distribuzione t di Student vale la relazione da cui deriva Per la probabilità possiamo trovare sulle tavole della distribuzione t di Student. Possiamo quindi affermare di conoscere la distribuzine e questa non dipende dal parametro incognito . Inserendo e applicando un po’ di algebra otteniamo l’intervallo di confidenza. à un intervallo di confidenza per il parametro sconosciuto di una variabile casuale normale con varianza sconosciuta e coefficiente di canfidenza Dopo aver estratto un campione disponiamo delle osservazioni e possiamo procedere a:

  • effettuare le stime puntuali e
  • determinare l’intervallo di stima

Dato che per crescenti gradi di libertà e quindi per divergente, la distribuzione di t di Student converge verso una , possiamo per utilizzare la distribuzione normale standardizzata e quindi al posto di . Otteniamo in questo modo un intervallo di confidenza approssimativo.

  • L’intervallo di confidenza à simmetrico rispetto alla probabilità.
  • L’intervallo di confidenza à simmetrico rispetto alla stima puntuale e gli estremi dell’intervallo hanno la stessa distanza da .
  • Sia la lunghezza dell’intervallo di confidenza che l’errore di stima dipendono attraverso dalle variabili campionarie e sono quindi a loro volta variabili casuali. Data la dimensione campionaria e il coefficiente di confidenza otteniamo per ogni campione differenti intervalli di stima che possono distinguersi anche per la lunghezza e per gli errori di stima.
  • La lunghezza dell’intervallo di confidenza e l’errore di stima dipendono dalla dimensione campionaria e attraverso dal coefficiente di confidenza dato .
  • Dato che i quantili nella distribuzione t di Student sono pià grandi dei quantili nella distribuzione normale standardizzata, gli intervalli di confidenza in caso di varianza sconosciuta sono pià lunghi rispetto a quelli calcolati in caso di varianza conosciuta. Cià costituisce un indicatore della mancanza di questa informazione. L’ulteriore insicurezza rispetto a à contenuta nella distribuzione t di Student.

La distribuzione della popolazione à sconosciuta

Se la variabile casuale non à distribuita normalmente e la varianza à sconosciuta, puà essere utilizzato, per campioni abbastanza grandi, l’intervallo di confidenza con approssimativamente un coefficiente di confidenza pari a Cià puà essere spiegato da:

  • data una popolazione distribuita arbitrariamente, la variabile casuale standardizzata converge verso una distribuzione normale standardizzata per campioni abbastanza grandi (applicando il teorema del limite centrale);
  • à uno stimatore consistente di e quindi anche à consistente. In altre parole possiamo supporre che per campioni molto grandi oscilli pià vicino al vero parametro ;
  • la variabile casuale , dove à stata sostituita da ha approssimativamente una distribuzione normale standardizzata per campioni sufficientemente grandi.

Supponiamo di avere una compagnia assicurativa con impiegati. Su questa popolazione abbiamo rilevato i seguenti caratteri:
= provvigione annuale in DM
= polizze assicurative vendute in un mese
= giorni di malattia in un anno
= ore lavorative settimanali.
La speranza matematica , la varianza e la distribuzione delle variabili nella popolazione sono sconosciute. Determinare una stima puntuale e per intervalli di confidenza per la speranza matematica sconosciuta sulla base di un campione casuale semplice. In questo esempio si ha la possibilità di osservare l’influsso del coefficiente di confidenza e della dimensione campionaria sull’ampiezza dell’intervallo di confidenza. Si consiglia di modificare solo una delle due variabili mantenendo l’altra costante. Si prega di stabilire i seguenti punti

  • la variabile che deve essere analizzata
  • la dimensione campionaria
  • il coefficiente di confidenza (come decimale, per esempio 0,95)

Suggerimento: considerate quali informazioni sulla popolazione avete a vostra disposizione. Risultati:
Questo esempio interattivo ci fornisce

  1. il corrispondente Box-plot

Se scegliamo la stessa variabile una seconda volta cambiando perà il coefficiente di confidenza o la dimensione campionaria, si puà confrontare il nuovo intervallo con il vecchio. Il dipartimento di marketing di una ditta che produce lampadine necessita di dati sulla durata media di un particolare tipo di lampadine per poter preparare la prossima campagna pubblicitaria. Dal punto di vista statistico dobbiamo coinsiderare i seguenti punti:

  • La rilevazione di tutta la popolazione, ovvero tutte le lampadine di questo tipo, non à possibile per due motivi:

    • le lampadine verranno prodotte anche in futuro, à quindi impossibile determinare l’intera popolazione.

    • determinando la durata di vita delle lampadine le eliminiamo dalla popolazione.

    Dobbiamo quindi estrarre un campione dalla popolazione.

  • Per evitare errori sistematici nella rilevazione della durata di vita, estraiamo un campione casuale.

  • L’estrazione di un campione casuale semplice (con reinserimento) non à possibile in questo contesto (le lampadine vengono bruciate per testarle). Estraiamo quindi un campione in blocco (scelta casuale senza reinserimento).

  • Dato che comunque la produzione totale à molto grande, il mancato reinserimento delle lampadine non influenza la distribuzione della popolazione. Possiamo quindi considerare il campione come casuale semplice.

  • Oltre a una stima puntuale per la durata media di vita sconosciuta dobbiamo determinare un intervallo di confidenza simmetrico con coefficiente di confidenza .

  • Non disponiamo di alcuna informazione riguardo la distribuzione della variabile casuale = {durata di vita} e la varianza . Se estraiamo un campione abbastanza grande possiamo determinare un intervallo di confidenza approssimativo con una probabilità approssimativa di Al coefficiente di confidenza dato troviamo nelle tavole della distribuzione normale standardizzata .

  • Per garantire la convergenza verso una distribuzione normale e allo stesso tempo ridurre i costi del campione, manteniamo la numerosità del campione il pià ridotta possibile e scegliamo .

Il campione estratto ci fornisce le seguenti stime puntuali:

durata media di vita nel campione : 1600 ore
Varianza del campione : 8100 ore
Deviazione standard del campione : 90 ore

Con tali dati otteniamo la stima per intervallo: Scegliendo un coeffidciente di confidenza 0,95 prossimo a uno, possiamo supporre di aver ottenuto un intervallo per che contiene l’effettivo parametro . Dal punto di vista del responsabile marketing il risultato ottenuto à insoddisfacente in quanto nella campagna pubblicitaria non puà, per motivi psicologici, essere fatto nessun riferimento al limite superiore della durata di vita media. Richiede quindi il calcolo di un intervallo unilaterale (senza estremo superiore). Per la probabilità otteniamo nelle tavole della distribuzione normale standardizzata . Con i risultati dello stesso campione otteniamo per l’estremo inferiore e il corrispondente intervallo unilaterale Anche questo risultato puà essere interpretato similarmente: scegliendo una probabilità prossima a uno, possiamo supporre di avere ottenuto un intervallo unilaterale per che contiene l’effettivo parametro .

En s2 44 f 18.gif

In una popolazione di famiglie, la variabile casuale indica il reddito netto (in DM). Il reddito netto medio di questa popolazione, ovvero il valore atteso , à sconosciuto e deve essere stimato. Determiniamo una stima puntuale e una stima per intervalli di confidenza con probabilità . Per stimare usiamo la media campionaria come stimatore. Un campione casuale di numerosità ci fornisce le seguenti osservazioni . Inserendo questi valori nello stimatore otteniamo il valore come stima puntuale del reddito medio mensile della popolazione. La determinazione di un intervallo di confidenza dipende dalle informazioni che abbiamo sulla popolazione.

Una popolazione distribuita normalmente

1.1 Intervallo di confidenza per con deviazione standard incognita Supponiamo che la variabile casuale reddito mensile medio sia distribuita normalmente con una deviazione standard DM: . In base a queste informazioni abbiamo l’intervallo di confidenza per il parametro incognito di con un coefficiente di confidenza In corrispondenza della probabilità data troviamo nelle tavole della distribuzione normale standardizzata : . Inserendo e abbiamo e Dopo aver estratto il campione otteniamo il corrispondente intervallo di confidenza dove dobbiamo solo inserire i valori di e . Un ulteriore campione casuale semplice di numerosità stratto dalla stessa popolazione ci fornisce i seguenti valori. Tabella 1: Osservazioni sul reddito mensile netto in un campione di numerosità (in ordine di grandezza)

Reddito mensile netto (DM) Reddito mensile netto (DM)
1 800 11 2500
2 1200 12 2500
3 1400 13 2500
4 1500 14 2700
5 1500 15 2850
6 1500 16 3300
7 1800 17 3650
8 1800 18 3700
9 2300 19 4100
10 2400 20 4300

Il reddito medio mensile in questo campione à DM e costituisce una stima per il reddito mensile medio della popolazione. La stima per intervallo per questo campione à: Per questo intervallo non puà essere affermato che il valore effettivo della popolazione ricade o meno intale intervallo. Tuttavia avendo scelto una probabilità di 0,95 (prossima a uno), si suppone di avere uno degli intervalli per il campione con che contiene il valore della popolazione . Per illustrare meglio la problematica legata agli intervalli di confidenza, estraiamo dalla stessa popolazione altri 24 campioni di dimensione . Abbiamo poi calcolato il reddito mensile medio e la stima per intervallo per ogni campione. Tabella 2: Reddito mensile medio e intervallo di confidenza per 25 campioni di dimensione

1 2413,40 1969,52 2857,28 14 2126,50 1682,62 2570,38
2 2317,00 1873,12 2760,88 15 2243,15 1799,27 2687,03
3 2567,50 2123,62 3011,38 16 2361,25 1917,37 2805,13
4 2060,90 1617,02 2504,78 17 2607,25 2163,37 3051,13
5 2363,50 1919,62 2807,38 18 2319,55 1875,67 2763,43
6 2774,30 2330,42 3218,18 19 2203,85 1759,97 2647,73
7 2298,80 1854,92 2742,68 20 2395,25 1951,37 2839,13
8 72241,15 1797,27 2685,03 21 2659,00 2215,12 3102,88
9 1915,30 1471,42 2359,18 22 2168,50 1724,62 2612,38
10 2062,15 1618,27 2506,03 23 2110,30 1666,42 2554,18
11 2267,75 1823,87 2711,63 24 1884,90 1441,02 2328,78
12 2163,10 1719,22 2606,98 25 2415,00 1971,12 2858,88
13 2635,00 2191,12 3078,88

Il seguente grafico mostra le 25 stime puntuali e gli intervalli di stima. Per un confronto à stata indicata anche la media della popolazione con una linea tratteggiata. Fig. 1: Stime puntuali e intervalli di confidenza di 25 campioni di dimensione

En s2 44 f 8.gif

Sulla base di questi risultati le seguenti caratteristiche degli intervalli di confidenza diventano pià chiare:

  • Gli estremi e di un intervallo di confidenza sono variabili casuali, che possono assumere diversi valori da campione a campione a seconda delle osservazioni ottenute e delle corrispondenti stime ottenute )

  • 23 intervalli (92 %) contengono il valore effettivo di mentre 2 intervalli (campione nr. 9 e nr. 24; 8 %) non lo contengono. à questo risultato in contraddizione con il coefficiente di confidenza scelto 0,95?

    La risposta à NO, in quanto il coefficiente si riferisce ad un numero molto elevato di campioni e 25 non à abbastanza elevato.

  • Tutti e 25 gli intervalli hanno la stessa ampiezza 887,76 e lo stesso margine d’errore 443,88, in quanto abbiamo supposto di conoscere la deviazione standard della popolazione .

1.2 Intervallo di confidenza per con deviazione standard incognita Supponiamo ancora che la variabile casuale (reddito mensile netto) sia normale con deviazione standard incognita: . Per determinare un intervallo di confidenza per dobbiamo stimare la varianza utilizzando lo stimatore . In base a queste infomrazioni à un intervallo di confidenza per il parametro incognito della variabile casuale (reddito mensile netto) con probabilità Per il dato coefficiente di confidenza troviamo nelle tavole della distribuzione t di Student: . Dopo aver estratto il campione abbiamo l’intervallo di confidenza nel quale dobbiamo inserire le stime puntuali per , e . Per illustrare la differenza rispetto alla procedura seguita nel primo esempio, estraiamo dalla stessa popolazione 25 campioni casuali semplici di numerosità come nella sezione 1.1. Per il campione nr. 25, i cui valori sono contenuti nella Tabella 1, il reddito mensile medio à DM, la deviazione standard DM à l’intervallo di confidenza L’interpretazione à la stessa. La Tabella 3 indica il reddito mensile netto , la deviazione standard , l’intervallo di confidenza e il margine d’errore per i 25 campioni. Tabella 3: Reddito mensile netto (DM) , deviazione standard , intervallo di confidenza e margine d’errore per 25 campioni di numerosità

1 2413,40 1032,150 1930,34 2896,46 483,06
2 2317,00 872,325 1908,74 2825,26 408,26
3 2567,50 1002,008 2098,55 3036,45 468,95
4 2060,90 812,365 1680,71 2441,09 380,19
5 2363,50 1376,648 1719,22 3007,78 644,28
6 2774,30 1213,779 2206,24 3342,63 568,06
7 2298,80 843,736 1903,92 2693,68 394,88
8 2241,15 1116,827 1718,46 2763,84 522,69
9 1915,30 1113,122 1394,35 2436,25 520,95
10 2062,15 856,069 1661,50 2462,80 400,65
11 2267,75 1065,227 1769,21 2766,29 498,54
12 2163,10 1040,966 1675,92 2650,28 487,18
13 2635,00 1154,294 2094,78 3175,22 540,22
14 2126,50 1103,508 1610,05 2642,95 516,45
15 2243,15 1126,913 1715,74 2770,56 527,41
16 2361,25 1166,260 1815,43 2907,07 545,82
17 2607,25 848,019 2210,37 3004,13 396,88
18 2319,55 941,236 1879,04 2760,06 440,51
19 2203,85 974,980 1747,55 2660,15 456,30
20 2395,25 899,461 1974,29 2816,21 420,96
21 2659,00 969,720 2205,16 3112,84 453,84
22 2168,50 763,222 1811,31 2525,69 357,19
23 2110,30 1127,608 1582,57 2638,03 527,73
24 1884,90 928,420 1450,39 2319,41 434,51
25 2415,00 1001,065 1946,49 2883,51 468,51

Il seguente grafico mostra le 25 stime puntuali e intervalli di confidenza. Per un confronto à indicata anche la media della popolazione con una linea tratteggiata. Fig. 2: Intervalli di confidenza per 25 campioni casuali di numerosità

En s2 44 f 9.gif

In questo caso solo un intervallo (campione nr. 24) non contiene . Dalle Tabella 3 e Fig. 2 possiamo osservare che la lunghezza L degli intervalli e il margine di errore E variano da campione a campione e sono quindi variabili casuali. La causa à la deviazione standard della popolazione : essendo incognita deve essere stimata e quindi assume diversi valori di volta in volta.

Popolazione distribuita arbitrariamente e deviazione standard sconosciuta

Analizziamo ora il caso pià frequente nella pratica: la distribuzione delle variabili casuali e la deviazione standard sono incognite. Per poter determinare un intervallo di confidenza dobbiamo avere un campione abbastanza grande in modo tale che possiamo applicare il teorema del limite centrale. Scegliamo . Abbiamo quindi come intervallo di confidenza approssimativo per il parametro incognito della variabile casuale (reddito mensile netto) al livello di confidenza approssimativo Per la probabilità data troviamo nelle tavole della distribuzione normale standardizzata . Fig. 3 mostra le stime puntuali e gli intervalli di confidenza per 50 campioni casuali. Per un confronto à indicata anche la media della popolazione con una linea tratteggiata. Non sono indicati i risultati numerici. Fig. 3: Intervalli di confidenza per 50 campioni casuali di dimensione

En s2 44 f 10.gif

Anche in questo caso possiamo notare che la lunghezza L e il margine di errore E cambiano da campione a campione e sono quindi variabili casuali (à da ricondurre al fatto che la deviazione standard della popolazione à sconosciuta). Dei 50 intervalli 2 (4 %) non contengono il parametro della popolazione . Intervallo di confidenza per nel caso di una popolazione distribuita normalmente e varianza sconosciuta Supponiamo che la variabile casuale sia normalmente distribuita con parametri incogniti e . Per il valore atteso incognito effettuiamo una stima per intervallo: La variabile casuale standardizzata non puà pià essere determinata in quanto à sconosciuta. Non possiamo quindi avvalerci della distribuzione normale standardizzata . Inoltre la distribuzione normale non potrebbe essere utilizzata in quanto non à indipendente da , e viola quindi una condizione necessaria per la costruzione di un intervallo di confidenza. La varianza sconosciuta viene stimata con la varianza campionaria e la deviazione standard viene utilizzata per la standardizzazione: Che distribuzione ha la variabile casuale ? Dividiamo sia il numeratore che il denominatore con e trasformiamo un po’ il risultato: Il numeratore corrisponde alla variabile casuale che ha una distribuzione normale standardizzata. La variabile casuale al denominatore ha una distribuzione di Chi-quadrato con gradi di libertà come già illustrato nella sezione Distributione della varianza campionaria. La variabile casuale consiste quindi nel rapporto di una variabile casuale normale standardizzata e la radice quadrata di una variabile casuale con una distribuzione di chi-quadrato divisa per la radice quadrata dei suoi gradi di libertà. Una tale variabile ha una distribuzione t di Student. Conclusioni:
La variabile casuale in un campione casuale di dimensione ha una distribuzione di t di Student con gradi di libertà: La distribuzione di non dipende da e .