Ci sono diversi modi per costruire intervalli di confidenza per la differenza di due medie
, noi considereremo solo quello che soddisfa le seguenti condizioni:
- Abbiamo due popolazioni nelle quali le due variabili casuali
e
sono distribuite normalmente con i parametri
e
, e
e
, ovvero
e
.
- Da ogni popolazione estraiamo un campione casuale semplice e supponiamo che la dimensione delle due popolazioni sia sufficientemente grande per convalidare l’uso di campioni casuali semplici. Le dimensioni campionarie sono
e
.
- I campioni casuali sono estratti indipendentemente.
Nel calcolo di intervalli di confidenza per la differenza
di due medie à di particolare interesse osservare se il valore
à incluso nell’intervallo o meno. Se l’intervallo di confidenza calcolato sulla base dei dati campionari non include il valore
, la differenza tra
e
à significativa.
Dato che le variabili casuali
e
sono distribuite normalmente, cià vale anche per le medie campionarie
e
(vedi capitolo Distribuzione della media campionaria). Inoltre abbiamo:
|
|
|
.
|
Riassumendo possiamo scrivere:
In base alle proprietà della distribuzione normale (somma di variabili normali) anche la differenza di due variabili normali
ha una distribuzione normale con speranza matematica
e varianza
La variabile casuale standardizzata
à quindi anche normale
.
Considerando il denominatore
diventa chiaro che per la determinazione dell’intervallo di confidenza per
dobbiamo distinguere tra i casi:
- le varianze delle due popolazioni
e
sono conosciute
- le varianze delle due popolazioni
e
sono sconosciute
1. Caso: le varianze
e
della popolazione sono conosciute.
Se le condizioni date sono soddisfatte ed entrambe le varianze
e
sono conosciute, l’intervallo di confidenza per la differenza di due medie
à
con coefficiente di confidenza
Data la probabilità
troviamo
nelle tavole della distribuzione normale standardizzata.
Si puà calcolare l’intervallo dati i valori osservati nei due campioni.
- L’intervallo di confidenza à simmetrico rispetto alla probabilità in quanto:
- L’intervallo di confidenza à simmetrico rispetto alla stima puntuale. Gli estremi hanno la stessa distanza da
.
- La lunghezza degli intervalli di confidenza non dipende dai valori compionari ma dalle numerosità campionarie
e
, dalle varianze
e
della popolazione e dal coefficiente di confidenza
.
- se non sappiamo con certezza che la popolazione à distribuita normalmente ma le due dimensioni campionarie sono
e
, possiamo ugualmente utilizzare l’intervallo di confidenza grazie al teorema del limite centrale. Il coefficiente di confidenza à approssimativamente
.
2. Caso: le varianze
e
della popolazione sono incognite.
In questo caso
e
sono stimate con gli stimatori corretti e consistenti
Se le varianze sono omogenee, ovvero entrambe le popolazioni hanno la stessa varianza
, possiamo ottenere una stima
per la varianza comune
come media aritmetica ponderata delle due varianze campionarie:
viene anche indicata come varianza pooled.
Lo stimatore
per
à quindi:
La deviazione standard
, la radice quadrata di
, viene usata per la standardizzazione. La variabile casuale che ne risulta
ha una distribuzione t-di Student con
gradi di libertà.
Con questi risultati possiamo determinare un intervallo di confidenza:
Se le condizioni discusse pià sopra sono soddisfatte e abbiamo varianze incognite
, otteniamo il seguente intervallo di confidenza per la differenza
con coefficiente di confidenza
Per una data probabilità
troviamo
nelle tavole della distribuzione t di Student.
se entrambi i campioni sono sufficientemente grandi (regola approssimativa:
e
), possiamo sostituire
con
della distribuzione normale. Il coefficiente di confidenza à approssimativamente
.
Se le varianze sono eterogenee, ovvero le due popolazioni hanno varianze differenti
, abbiamo lo stimatore
per
.
Se i due campioni sono sufficientemente grandi (
e
), possiamo affermare che:
Alle condizioni prima discusse e con varianze incognite e diverse abbiamo il seguente intervallo approssimativo per la differenza
con coefficiente di confidenza approssiamtivo
Per una data probabilità
troviamo
nelle tavole della distribuzione normale standardizzata.
Per piccoli campioni
e
possiamo utilizzare la distribuzione t di Student per ottenere intervalli di confidenza per
.
- Gli intervalli di confidenza sono simmetrici rispetto alla probabilità.
- Gli intervalli di confidenza sono simmetrici rispetto alla stima puntuale. Gli estremi dell’intervallo hanno la stessa distanza da
.
- La lunghezza degli intervalli di confidenza e il margine d’errore sono variabili casuali in quanto dipendono attraverso
e
dai valori osservati nel campione.
- Gli intervalli di confidenza dipendono dalle dimensioni campionaria
e
e dal coefficiente di confidenza
.
Abbiamo una popolazione di
macchine prodotte da Speed, Eco, Space e Run. Sulle macchine osserviamo le seguenti variabili:
= consumo di benzina per 100 km della macchina prodotta da Speed
= consumo di benzina per 100 km della macchina prodotta da Eco
= consumo di benzina per 100 km della macchina prodotta da Space
= consumo di benzina per 100 km della macchina prodotta da Run
Medie e varianze sono incognite. Vorremmo sapere la differenza tra consumo di benzina medio per 100 km di due tipi di macchine.
Per un dato campione casuale si determini la stima puntuale e per intervallo per la differenza delle due medie
e
. Supponiamo che le due varianze siano eterogenee e che le popolazioni siano distribuite normalmente.
In questo esempio diamo l’opportunità di analizzare l’effetto del coefficiente di confidenza e della dimensione campionaria sulla lunghezza dell’intervallo di confidenza. Consigliamo di non modificare le due variabili contemporaneamente.
Si prega di determinare i seguenti punti
- le variabili da analizzare
- la dimensione campionaria
e 
- il coefficiente di confidenza
(come numero decimale, per esempio 0,95)
Suggerimento: verificate di quali informazioni disponete sulla popolazione.
Risultati:
Come risultato dell’esempio interattivo otteniamo
- l’intervallo di confidenza dato il coefficiente di confidenza scelto
Utilizzando sempre le stesse variabili ma un diverso coefficiente di confidenza o dimensione campionaria, si possono confrontare i risultati ottenuti con quelli precedenti.
La X-Spa vuole analizzare l’andamento delle sue azioni su due borse (Francoforte e Berlino). Nell’analisi vengono considerati i due prezzi spot rilevati giornalmente alle 12.00. In particolare la X-Spa vuole analizzare la differenza tra le quotazioni medie sulle due borse. Determiniamo quindi una stima puntuale e per intervallo della differenza tra le quotazioni medie con coefficiente di confidenza
.
Le variabili casuali delle due popolazioni sono
- il prezzo spot sulla borsa di Francoforte
- il prezzo spot sulla borsa di Berlino
con medie incognite
e
e varianze incognite
e
.
Supponiamo che
- le quotazioni sulle due borse sono indipendenti l’una dall’altra
- le varianze sono uguali
Estraiamo un campione da ciascuna popolazione di numerosità
a Francoforte e
a Berlino. Per evitare che una quotazione giornaliera venga estratta due volte utilizziamo un’estrazione in blocco. La X-Spa à quotata in entrambe le borse da lungo tempo e quindi possiamo considerare la popolazione come molto grande e possiamo considerare di avere un campione casuale semplice. Possiamo inoltre supporre l’indipendenza dei due campioni.
Per illustrare i due metodi di determinare l’intervallo di confidenza per la differenza di due medie
modifichiamo le ipotesi formulate su
e
come segue:
e
sono distribuite normalmente (ipotesi non molto realistica)
- le distribuzioni di
e
sono conosciute
1. Caso:
date le ipotesi formulate abbiamo
e
. La variabile casuale standardizzata
ha una distribuzione di t di Student con
gradi di libertà.
Se le ipotesi menzionate sono valide e le varianze sono uguali e incognite
, l’intervallo di confidenza per la differenza delle medie
e
con un coefficiente di confidenza
Dato il coefficiente di confidenza
troviamo
nelle tavole della distribuzione t di Student.
Da entrambe le popolazioni estraiamo lo stesso giorno un campione casuale di numerosità
dei prezzi spot con i seguenti valori (colonne 2 e 3).
|
prezzo spot alla borsa di Francoforte ( )
|
prezzo spot alla borsa di Berlino ( )
|
|
|
1
|
18,50
|
18,45
|
0,0841
|
0,1296
|
2
|
19,00
|
18,90
|
0,0441
|
0,0081
|
3
|
18,70
|
18,80
|
0,0081
|
0,0001
|
4
|
19,30
|
19,50
|
0,2601
|
0,4761
|
5
|
17,10
|
17,30
|
2,8561
|
2,2801
|
6
|
18,30
|
18,10
|
0,2401
|
0,5041
|
7
|
18,60
|
18,80
|
0,0361
|
0,0001
|
8
|
19,00
|
18,85
|
0,0441
|
0,0016
|
9
|
19,40
|
19,50
|
0,3721
|
0,4761
|
10
|
20,00
|
19,90
|
1,4641
|
1,1881
|
Con le formule
otteniamo le stime puntuali per
e
:
e con le formule
le stime puntuali per
e
:
Dato che abbiamo ipotizzato varianze omogenee, la stima puntuale
per la varianza comune (varianza pooled)
data dalla media aritmetica ponderata delle varianze campionarie à:
La stima puntuale
di
, la varianza della differenza di due medie campionarie risulta
La deviazione standard à
.
Con i risultati ottenuti possiamo determinare un intervallo per la differenza delle due medie:
Avendo scelto un coefficiente di confidenza piuttosto alto possiamo supporre che abbiamo ottenuto un intervallo di confidenza che include la differenza effettiva
.
Il nostro intervallo di confidenza include il valore 0, possiamo quindi concludere che la differenza tra i prezzi spot medi
di Francoforte e
di Berlino non à statisticamente significativa.
2. Caso:
Abbandoniamo ora l’ipotesi della distribuzione normale per
e
. Di conseguenza non conosciamo la distribuzione delle due medie campionarie
e
e della loro differenza
. Per determinare un intervallo di confidenza
dei due prezzi spot medi, dobbiamo avere dimensioni campionarie
e
e poter applicare il teorema del limite centrale. La variabile casuale standardizzata
converge verso una distribuzione normale. Se le ipotesi prima formulate sono valide e le due varianze incognite sono uguali
, abbiamo l’intervallo di confidenza per la differenza dei prezzi spot medi
seguente
al coefficiente di confidenza approssimativo
Dato un certo coefficiente di confidenza
troviamo nelle tavole della distribuzione normale standardizzata (N(0,1)) i valori
.
Estraiamo un campione casuale di prezzi spot giornalieri (in DM) di numerosità
.
Come stime puntuali otteniamo:
Avendo ipotizzato varianze omogenee, otteniamo la seguente stima puntuale
della varianza comune
Come stima puntuale
di
, la varianza della differenza di due medie otteniamo
La deviazione standard à quindi
.
L’intervallo di confidenza per la differenza dei due prezzi spot medi à:
L’interpretazione à la stessa del caso 1.
Confrontando i due casi possiamo concludere:
- Nel caso 1 avevamo pià informazioni sulla popolazione che nel caso 2.
- In entrambi i casi la differenza tra le due medie e la varianza comune sono nello stesso ordine di grandezza.
- La varianza
e la deviazione standard
della differenza delle due medie campionarie nel secondo caso à piu piccola che nel primo caso. Cià puà essere ricondotto alla dimensione campionaria maggiore.
- La lunghezza dell’intervallo nel caso 2 à molto pià piccola che nel caso 1.
La mancanza di informazioni nel secondo caso si rispecchia nel fatto che il coefficiente di confidenza à solo approssimativo e non puà essere determinato di quanto questo coefficiente si scosti da quello effettivo.
Il club automobilistico ADAC vuole poter confrontare il consumo di benzina per 100 km su autostrada di due macchine simili ma prodotte da due case automobilistiche (A e B) diverse. Vogliamo quindi determinare un intervallo di confidenza per la differenza tra due medie
con un coefficiente di confidenza
.
Prima di estrarre i campioni dobbiamo considerare i seguenti punti:
Possiamo quindi determinare l’intervallo di confidenza per
come segue
con il coefficiente di confidenza approssimativo
Dalle tavole della distribuzione normale standardizzata troviamo
.
Il club ADAC sottopone a test (alle stesse condizioni) 36 macchine prodotte da A e 40 macchine prodotte da B. Osserva i seguenti valori:
= 9,2 l/100 km
|
= 0,6 l/100 km
|
= 8,4 l/100 km
|
= 0,4 l/100 km
|
L’intervallo di confidenza à:
Dato che abbiamo usato un coefficiente di confidenza piuttosto alto possiamo supporre di aver determinato un intervallo di confidenza che include la vera differenza
. L’intervallo non include lo 0, possiamo quindi dedurre una differenza statisticamente significativa nel consumo medio di benzina.