Intervallo di confidenza per la differenza di due medie

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Ci sono diversi modi per costruire intervalli di confidenza per la differenza di due medie , noi considereremo solo quello che soddisfa le seguenti condizioni:

  • Abbiamo due popolazioni nelle quali le due variabili casuali e sono distribuite normalmente con i parametri e , e e , ovvero e .
  • Da ogni popolazione estraiamo un campione casuale semplice e supponiamo che la dimensione delle due popolazioni sia sufficientemente grande per convalidare l’uso di campioni casuali semplici. Le dimensioni campionarie sono e .
  • I campioni casuali sono estratti indipendentemente.

Nel calcolo di intervalli di confidenza per la differenza di due medie à di particolare interesse osservare se il valore à incluso nell’intervallo o meno. Se l’intervallo di confidenza calcolato sulla base dei dati campionari non include il valore , la differenza tra e à significativa. Dato che le variabili casuali e sono distribuite normalmente, cià vale anche per le medie campionarie e (vedi capitolo Distribuzione della media campionaria). Inoltre abbiamo:

.

Riassumendo possiamo scrivere: In base alle proprietà della distribuzione normale (somma di variabili normali) anche la differenza di due variabili normali ha una distribuzione normale con speranza matematica e varianza La variabile casuale standardizzata à quindi anche normale . Considerando il denominatore diventa chiaro che per la determinazione dell’intervallo di confidenza per dobbiamo distinguere tra i casi:

  • le varianze delle due popolazioni e sono conosciute
  • le varianze delle due popolazioni e sono sconosciute

1. Caso: le varianze e della popolazione sono conosciute. Se le condizioni date sono soddisfatte ed entrambe le varianze e sono conosciute, l’intervallo di confidenza per la differenza di due medie à con coefficiente di confidenza Data la probabilità troviamo nelle tavole della distribuzione normale standardizzata. Si puà calcolare l’intervallo dati i valori osservati nei due campioni.

  • L’intervallo di confidenza à simmetrico rispetto alla probabilità in quanto:
  • L’intervallo di confidenza à simmetrico rispetto alla stima puntuale. Gli estremi hanno la stessa distanza da .
  • La lunghezza degli intervalli di confidenza non dipende dai valori compionari ma dalle numerosità campionarie e , dalle varianze e della popolazione e dal coefficiente di confidenza .
se non sappiamo con certezza che la popolazione à distribuita normalmente ma le due dimensioni campionarie sono e , possiamo ugualmente utilizzare l’intervallo di confidenza grazie al teorema del limite centrale. Il coefficiente di confidenza à approssimativamente .

2. Caso: le varianze e della popolazione sono incognite. In questo caso e sono stimate con gli stimatori corretti e consistenti Se le varianze sono omogenee, ovvero entrambe le popolazioni hanno la stessa varianza , possiamo ottenere una stima per la varianza comune come media aritmetica ponderata delle due varianze campionarie: viene anche indicata come varianza pooled. Lo stimatore per à quindi: La deviazione standard , la radice quadrata di , viene usata per la standardizzazione. La variabile casuale che ne risulta ha una distribuzione t-di Student con gradi di libertà. Con questi risultati possiamo determinare un intervallo di confidenza:
Se le condizioni discusse pià sopra sono soddisfatte e abbiamo varianze incognite , otteniamo il seguente intervallo di confidenza per la differenza con coefficiente di confidenza Per una data probabilità troviamo nelle tavole della distribuzione t di Student. se entrambi i campioni sono sufficientemente grandi (regola approssimativa: e ), possiamo sostituire con della distribuzione normale. Il coefficiente di confidenza à approssimativamente . Se le varianze sono eterogenee, ovvero le due popolazioni hanno varianze differenti , abbiamo lo stimatore per . Se i due campioni sono sufficientemente grandi ( e ), possiamo affermare che:
Alle condizioni prima discusse e con varianze incognite e diverse abbiamo il seguente intervallo approssimativo per la differenza con coefficiente di confidenza approssiamtivo Per una data probabilità troviamo nelle tavole della distribuzione normale standardizzata.
Per piccoli campioni e possiamo utilizzare la distribuzione t di Student per ottenere intervalli di confidenza per .

  • Gli intervalli di confidenza sono simmetrici rispetto alla probabilità.
  • Gli intervalli di confidenza sono simmetrici rispetto alla stima puntuale. Gli estremi dell’intervallo hanno la stessa distanza da .
  • La lunghezza degli intervalli di confidenza e il margine d’errore sono variabili casuali in quanto dipendono attraverso e dai valori osservati nel campione.
  • Gli intervalli di confidenza dipendono dalle dimensioni campionaria e e dal coefficiente di confidenza .

Abbiamo una popolazione di macchine prodotte da Speed, Eco, Space e Run. Sulle macchine osserviamo le seguenti variabili:
= consumo di benzina per 100 km della macchina prodotta da Speed
= consumo di benzina per 100 km della macchina prodotta da Eco
= consumo di benzina per 100 km della macchina prodotta da Space
= consumo di benzina per 100 km della macchina prodotta da Run
Medie e varianze sono incognite. Vorremmo sapere la differenza tra consumo di benzina medio per 100 km di due tipi di macchine. Per un dato campione casuale si determini la stima puntuale e per intervallo per la differenza delle due medie e . Supponiamo che le due varianze siano eterogenee e che le popolazioni siano distribuite normalmente. In questo esempio diamo l’opportunità di analizzare l’effetto del coefficiente di confidenza e della dimensione campionaria sulla lunghezza dell’intervallo di confidenza. Consigliamo di non modificare le due variabili contemporaneamente. Si prega di determinare i seguenti punti

  • le variabili da analizzare
  • la dimensione campionaria e
  • il coefficiente di confidenza (come numero decimale, per esempio 0,95)

Suggerimento: verificate di quali informazioni disponete sulla popolazione. Risultati:
Come risultato dell’esempio interattivo otteniamo

  1. l’intervallo di confidenza dato il coefficiente di confidenza scelto

Utilizzando sempre le stesse variabili ma un diverso coefficiente di confidenza o dimensione campionaria, si possono confrontare i risultati ottenuti con quelli precedenti.

En s2 47 e 17.gif

La X-Spa vuole analizzare l’andamento delle sue azioni su due borse (Francoforte e Berlino). Nell’analisi vengono considerati i due prezzi spot rilevati giornalmente alle 12.00. In particolare la X-Spa vuole analizzare la differenza tra le quotazioni medie sulle due borse. Determiniamo quindi una stima puntuale e per intervallo della differenza tra le quotazioni medie con coefficiente di confidenza . Le variabili casuali delle due popolazioni sono
- il prezzo spot sulla borsa di Francoforte
- il prezzo spot sulla borsa di Berlino
con medie incognite e e varianze incognite e . Supponiamo che

  • le quotazioni sulle due borse sono indipendenti l’una dall’altra
  • le varianze sono uguali

Estraiamo un campione da ciascuna popolazione di numerosità a Francoforte e a Berlino. Per evitare che una quotazione giornaliera venga estratta due volte utilizziamo un’estrazione in blocco. La X-Spa à quotata in entrambe le borse da lungo tempo e quindi possiamo considerare la popolazione come molto grande e possiamo considerare di avere un campione casuale semplice. Possiamo inoltre supporre l’indipendenza dei due campioni. Per illustrare i due metodi di determinare l’intervallo di confidenza per la differenza di due medie modifichiamo le ipotesi formulate su e come segue:

  • e sono distribuite normalmente (ipotesi non molto realistica)
  • le distribuzioni di e sono conosciute

1. Caso:
date le ipotesi formulate abbiamo e . La variabile casuale standardizzata ha una distribuzione di t di Student con gradi di libertà. Se le ipotesi menzionate sono valide e le varianze sono uguali e incognite , l’intervallo di confidenza per la differenza delle medie e con un coefficiente di confidenza Dato il coefficiente di confidenza troviamo nelle tavole della distribuzione t di Student. Da entrambe le popolazioni estraiamo lo stesso giorno un campione casuale di numerosità dei prezzi spot con i seguenti valori (colonne 2 e 3).

prezzo spot alla borsa di Francoforte () prezzo spot alla borsa di Berlino ()
1 18,50 18,45 0,0841 0,1296
2 19,00 18,90 0,0441 0,0081
3 18,70 18,80 0,0081 0,0001
4 19,30 19,50 0,2601 0,4761
5 17,10 17,30 2,8561 2,2801
6 18,30 18,10 0,2401 0,5041
7 18,60 18,80 0,0361 0,0001
8 19,00 18,85 0,0441 0,0016
9 19,40 19,50 0,3721 0,4761
10 20,00 19,90 1,4641 1,1881

Con le formule otteniamo le stime puntuali per e : e con le formule le stime puntuali per e : Dato che abbiamo ipotizzato varianze omogenee, la stima puntuale per la varianza comune (varianza pooled) data dalla media aritmetica ponderata delle varianze campionarie à: La stima puntuale di , la varianza della differenza di due medie campionarie risulta La deviazione standard à . Con i risultati ottenuti possiamo determinare un intervallo per la differenza delle due medie: Avendo scelto un coefficiente di confidenza piuttosto alto possiamo supporre che abbiamo ottenuto un intervallo di confidenza che include la differenza effettiva . Il nostro intervallo di confidenza include il valore 0, possiamo quindi concludere che la differenza tra i prezzi spot medi di Francoforte e di Berlino non à statisticamente significativa.
2. Caso:
Abbandoniamo ora l’ipotesi della distribuzione normale per e . Di conseguenza non conosciamo la distribuzione delle due medie campionarie e e della loro differenza . Per determinare un intervallo di confidenza dei due prezzi spot medi, dobbiamo avere dimensioni campionarie e e poter applicare il teorema del limite centrale. La variabile casuale standardizzata converge verso una distribuzione normale. Se le ipotesi prima formulate sono valide e le due varianze incognite sono uguali , abbiamo l’intervallo di confidenza per la differenza dei prezzi spot medi seguente al coefficiente di confidenza approssimativo Dato un certo coefficiente di confidenza troviamo nelle tavole della distribuzione normale standardizzata (N(0,1)) i valori . Estraiamo un campione casuale di prezzi spot giornalieri (in DM) di numerosità . Come stime puntuali otteniamo: Avendo ipotizzato varianze omogenee, otteniamo la seguente stima puntuale della varianza comune Come stima puntuale di , la varianza della differenza di due medie otteniamo La deviazione standard à quindi . L’intervallo di confidenza per la differenza dei due prezzi spot medi à: L’interpretazione à la stessa del caso 1. Confrontando i due casi possiamo concludere:

  • Nel caso 1 avevamo pià informazioni sulla popolazione che nel caso 2.
  • In entrambi i casi la differenza tra le due medie e la varianza comune sono nello stesso ordine di grandezza.
  • La varianza e la deviazione standard della differenza delle due medie campionarie nel secondo caso à piu piccola che nel primo caso. Cià puà essere ricondotto alla dimensione campionaria maggiore.
  • La lunghezza dell’intervallo nel caso 2 à molto pià piccola che nel caso 1.

La mancanza di informazioni nel secondo caso si rispecchia nel fatto che il coefficiente di confidenza à solo approssimativo e non puà essere determinato di quanto questo coefficiente si scosti da quello effettivo.

En s2 47 f 6.gif

Il club automobilistico ADAC vuole poter confrontare il consumo di benzina per 100 km su autostrada di due macchine simili ma prodotte da due case automobilistiche (A e B) diverse. Vogliamo quindi determinare un intervallo di confidenza per la differenza tra due medie con un coefficiente di confidenza . Prima di estrarre i campioni dobbiamo considerare i seguenti punti:

  • Sappiamo che le variabili casuali = consumo di benzina per 100 km della macchina prodotta da A

    = consumo di benzina per 100 km della macchina prodotta da B
    sono distribuite normalmente con media incongita e e incognite varianze e .

  • Inoltre non possiamo supporre che le due varianze siano uguali. Per poter lavorare con la distribuzione normale dobbiamo estrarre campioni con numerosità e .

  • Dato che la produzione di ciascun tipo di macchina à piuttosto grande non fa differenza se estraiamo con reinserimento o in blocco. Possiamo supporre di disporre di un campione casuale semplice.

  • Date le condizioni descritte possiamo supporre che i due campioni siano indipendenti.

Possiamo quindi determinare l’intervallo di confidenza per come segue con il coefficiente di confidenza approssimativo Dalle tavole della distribuzione normale standardizzata troviamo . Il club ADAC sottopone a test (alle stesse condizioni) 36 macchine prodotte da A e 40 macchine prodotte da B. Osserva i seguenti valori:

= 9,2 l/100 km = 0,6 l/100 km
= 8,4 l/100 km = 0,4 l/100 km

L’intervallo di confidenza à: Dato che abbiamo usato un coefficiente di confidenza piuttosto alto possiamo supporre di aver determinato un intervallo di confidenza che include la vera differenza . L’intervallo non include lo 0, possiamo quindi dedurre una differenza statisticamente significativa nel consumo medio di benzina.