Test sulla differenza di due medie

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Anche in questo caso si tratta di un test parametrico in quanto verifichiamo un’ipotesi su un parametro incognito, la differenza tra due medie . Il test si basa sui risultati di due campioni casuali e viene quindi indicato come test bicampionario. Ci sono diverse possibilità di effettuare un test sulla differenza tra due medie, noi considereremo solo i metodi che soddisfano le seguenti condizioni:

  • date due popolazioni, la prima presenta la variabile casuale con valore atteso e varianza ; i parametri della variabile casuale osservata nella seconda popolazione , sono e . e sono incognite.
  • da ogni popolazione estraiamo un campione casuale semplice o comunque le popolazioni e , sono sufficientemente grandi da poter estrarre senza reiserimento e continuare ad avere un campione semplice. Le numerosità dei due campioni sono rispettivamente e .
  • i due campioni sono indipendenti l’uno dall’altro.
  • le due variabili casuali e sono distribuite normalmente ( e ), o in ogni caso i campioni sono abbastanza grandi perchà queste convergano verso una distribuzione normale in base al teorema del limite centrale.

Ipotizziamo un valore sulla differenza tra le due medie . In pratica abbiamo spesso un interesse per l’ipotesi di uguaglianza delle due medie e quindi . Il test viene effettuato con un di .

Formulazione delle ipotesi

In base al problema posto possiamo utilizzare i diversi tipi di test: 1) Test bilaterale 2) Test destro 3) Test sinistro La scelta del test appropriato dovrebbe essere basata sulle considerazioni fatte in occasione del test sulla media .

Test statistico e sua distribuzione; regioni di decisione

Abbiamo già illustrato (see ???), che lo stimatore della differenza tra due medie dove e sono le medie campionarie ha una distribuzione normale con valore atteso . Data l’indipendenza delle variabili campionarie la varianza della differenza à: Supponiamo che à il vero valore atteso, ovvero: . Ne segue che in presenza dell’ipotesi nulla, ha una distribuzione normale con valore atteso e varianza . Per costruire un test statistico appropriato dobbiamo fare le stesse distinzioni che abbiamo fatto per il test sulla media riguardo alle deviazioni standard e . Per semplicità analizziamo inizialmente il caso in cui le due deviazioni standard sono conosciute. Se conosciamo e , in presenza dell’ipotesi nulla, la distribuzione di à pienamente specificata e per poterla trovare sulle tavole della distribuzione normale standardizzata la standardizziamo: In presenza di , ha (almeno approssimativamente) una distribuzion normale standardizzata. Possiamo quindi trovare le soglie discriminati sulle tavole. Nella seguente tabella sono contenute le zone di decisione per i diversi test in presenza dell’ipotesi nulla e dato il livello di significatività :

Test Regione critica di Zona di accettazione di
Test bilaterale
Test destro
Test sinistro

Dobbiamo stimare le due varianze e come segue: In caso di omogeineità delle varianze, ovvero le due popolazioni hanno la stessa varianza , effettuiamo una stima congiunta per la varianza come media aritmetica ponderata degli stimatori delle due varianze e : Possiamo quindi riscrivere lo stimatore di come Il test statistico risulta quindi essere e ha una distribuzione con gradi di libertà. In caso di varianze eterogenee, , lo stimatore puà essere solo approssimato come Il test statistico à in questo caso: In presenza dell’ipotesi nulla, converge verso una distribuzione di Student con gradi di libertà: In entrambi i casi possiamo trovare le soglie discriminanti nella tavole della distribuzione t di Student dato il livello di significatività scelto. Nella seguetne tabella troviamo le zone di decisione per i diversi test in presenza dell’ipotesi nulla.

Test Regione critica di Zona di accettazione di
Test bilaterale
Test destro
Test sinistro

Si noti che la distribuzione di t di Student converge verso una distribuzione normale se entrambi i campioni hanno e abbastanza grandi da giustificare l’applicazione del teorema del limite centrale ( e ). In questo caso possiamo utilizzare le tavole della distribuzione normale standardizzata e le zone di decisione della variante A.

Estrazione del campione e calcolo del test statistico

Sulla base di un campione concreto possiamo trovare le due medie camionarie e e se necessario le stime delle deviazioni standard e . Inserendo tali valori nella formula del test statistico otteniamo il valore del test .

Decisione e interpretazione

La decisione e l’interpretazione sono analoghe a quelle illustrate nel test sulla media. Consideriamo una popolazione di 3100 supermarket con all’interno sia un banco dei formaggi che uno della carne serviti da diverso personale. Definiamo
‘tempo di attesa in minuti al banco dei formaggi’ e
‘tempo di attesa in minuti al banco della carne’. Supponiamo che e siano distribuite normalmente con speranze matematiche incognite e e varianze omogenee ma incognite (omogeneità delle varianze). Vogliamo verificare ad un livello di significatività sulla base di due campioni casuali di numerosità e , se il tempo di attesa medio ai due banconi à uguale ovvero se à pari a : Con questo esempio interattivo si ha la possibilità di ripetere il test a piacere estraendo ogni volta due nuovi campioni e . Cià offre diverse possibilità:

  • matenere il livello di significatività e le numerosità campionarie e costanti,
  • modificare tenendo costanti e ,
  • modificare e , tenendo constante,
  • modificare , e simultaneamente.

En s2 53 e 4.gif

Due dirigenti di una grossa banca, il signor Schmidt e il signor Maier, discutono sull’età media dei loro colleghi. 1ma variante
Il signor Schmidt sostiene che c’à una differenza sostanziale tra l’età media delle donne e quella degli uomini mentre il signor Maier non vede alcuna differenza. 2nda variante
Il signor Schmidt sostiene che le donne sono in media pià anziane degli uomini. 3rza variante
Il signor Schmidt afferma che le college sono in media 5 anni pià vecchie degli uomini. Il signor Maier ammette che in generale nella banca, gli uomini sono pià giovani delle donne ma non nei termini descritti dal signor Schmidt. Per ogni variante: i due signori decidono di effettuare un test sulla differenza tra le due medie con livello di significatività . La variabile casuale descrive l’età degli impiegati donna, l’età degli uomini. Il valore atteso , e le varianze , sono incognite. Non possiamo ipotizzare omogeneità delle varianze e non conosciamo la distribuzione di e . Di conseguenza i campioni e dovranno essere sufficientemente grandi per poter usare il teorema del limite centrale. Il numero degli impiegati uomini e donne nella banca à uguale e quindi decidiamo di estrarre due campioni con la stessa numerosità . I due campioni vengono estratti con reinserimento cosà che possiamo contare su due campioni semplici casuali indipendenti. Per entrambi i campioni viene calcolata la media e la varianza.

Test statistico e sua distribuzione; zone di decisione

Dato che e sono incognite e supponiamo di avere eterogeinetà delle varianze, utilizziamo il test statistico dove sono le medie campionarie e sono gli stimatori delle varianze e . Dato che la numerosità campionaria à sufficientemente grande e , possiamo applicare il teorema del limite cantrale e possiamo approssimare sotto la distribuzione di con una distribuzione normale standardizzata. Utilizziamo quindi un test approssimativo per .

1ma variante

Formulazione delle ipotesi

Il signor Schmidt afferma che le due età medie sono differenti ma non specifica la direzione o la grandezza della differenza e quindi utilizziamo un test bilaterale con il valore ipotetico : o in modo equivalente,

Zone di decisione di

La soglia discriminante superiore che soddisfa puà essere trovata nelle tavole della distribuzione normale standardizzata in corrispondenza del percentile: . Data la simmetria della distribuzione normale abbiamo una soglia discriminante inferiore , tale che . Abbiamo quindi le seguenti zone di decisone: Zona di accettazione approssimativa di :
. Regione critica approssimativa di :
.

Estrazione di un campione e calcolo del test statistico

L’amministrazione del personale fornisce i seguenti dati sui due campioni: Impiegate donne: Impiegati uomini: Utilizzando , otteniamo un test statistico di .

Decisione e interpretazione

ricade nella zona di accettazione di , e quindi accettiamo l’ipotesi nulla. Sulla base di due campioni casuali indipendenti non possiamo dimostrare statisticamente che esista una differenza significativa tra le due medie, ovvero tra l’età media degli uomini e delle donne e . Accettando l’ipotesi nulla esiste tuttavia la probabilità di commettere un errore di seconda specie () nel caso in cui in realtà sia vera l’ipotesi alternativa. Tale probabilità puà essere calcolata solo se si dispone di un valore del parametro in presenza dell’ipotesi alternativa.

2nda variante

Formulazione delle ipotesi

Il signor Schmidt ha trovato nuovi argomenti per sostenere la sua affermazione e vuole verificare la sua tesi ponendola come ipotesi alternativa. Nel caso in cui rifiutiamo l’ipotesi nulla sa che à stato commesso un errore di prima specie con probabilità massima pari a ; ne risulta quindi un test destro. Nella sua affermazione non à tuttavia contenuta alcuna indicazione rispetto alla dimensione di questa differenza e quindi poniamo ancora : o in modo equivalente,

Zone di decisione di

La soglia discriminante che soddisfa puà essere trovata nelle tavole della distribuzione normale ed à . Le zone di decisione sono: Zona di accettazione approssimativa di :
. Regione critica approssimativa di :
.

Estrazione di un campione e calcolo del test statistico

L’amministrazione del personale fornisce ai signori Maier e Schmidt i seguenti dati: Impiegate donne: Impiegati uomini: Inserendo , otteniamo il test .

Decisione e interpretazione

ricade nella zona critica di e quindi rifiutiamo l’ipotesi nulla. Possiamo quindi in questo caso dimostrare statisticamente sulla base di due campioni indipendenti , che la differenza à significativa ad un livello di significatività . Il signor Schmidt puà quindi continuare a sostenere che in media le impiegate donne sono pià anziane dei colleghi maschi. La probabilità di aver commesso un errore di prima specie , corrisponde al lilvello di significatività . Confrontando questo test con il test bilaterale à evidente che la regione critica di non consiste pià di due segmenti ma à data dall’area a destra di . L’area sottesa alla distribuzione normale standardizzata corrispondente alla regione critica à pari al livello di significatività e quindi la soglia discriminante in questo caso à inferiore a quella nel test bilaterale. In tale modo rifiutiamo l’ipotesi nulla pià facilemtne nel test destro che in un test bilaterale (a parità di livello di significatività e numerosità campionaria e ).

3rza variante

Formulazione delle ipotesi

In questa variante il signor Schmidt ha anche quantificato la differenza tra le due medie, ha quindi ipotizzato . Il signor Maier accetta di porre la tesi del signor Schmidt come ipotesi alternativa. Abbiamo quindi un test destro:

Zone di decisione di

La soglia discriminante che soddisfa si puà trovare nelle tavole della distribuzione normale standardizzata ed à: . Le zone di decisione approssimative sono le stesse che nella seconda variante: Zona di accettazione approssimativa di :
. Regione critica approssimativa di :
.

Estrazione di un campione e calcolo di del test statistico

L’amministrazione del personale fornisce i seguenti dati: Impiegate donne: Impiegati uomini: Utilizzando otteniamo .

Decisione e interpretazione

ricade nella zona di accettazione di e quindi accettiamo l’ipotesi nulla. Sulla base dei due campioni indipendenti , non possiamo dimostrare statisticamente che la differenza à significativamente maggiore di . Le donne impiegate nella banca non sono in media pià di 5 anni pià anziane degli uomini. Con questo test tuttavia non possiamo rifiutare la tesi che in generale le donne impiegate in banca sono pià anziane degli uomini ma solo che l’ipotesi formulata dal signor Schmidt à troppo grande. In ogni caso incorriamo il rischio di commettere un errore di seconda specie , se in realtà vale l’ipotesi alternativa. La probabilità di commetter tale errore puà essere calcolata solo se specifichiamo valori alternativi per la differenza tra le due medie. La studentessa Sabine compra uova fresche da due fattorie che si diversificano per la razza dei polli. Sabine sceglie casualmente uova nella prima fattoria e nella seconda. Ritornata a casa ha l’impressione che le uova di una razza siano pià pesanti di quelle dell’altra. Per verificare tale ipotesi effettua un test con livello di significatività . Sabine confronta le medie di due popolazioni, si tratta quindi di un test sulla differenza di due medie .

Formulazione delle ipotesi

Sabine pensa che le uova di una razza 1 siano pià pesanti di quelle della razza 2, ha quindi una ipotesi della direzione del test e ci troviamo di fronte ad un test unilaterale. La sua tesi viene posta come ipotesi alternativa. Nel caso di rifiuto dell’ipotesi nulla, sa che ha commesso un errore di prima specie con una probabilità massima pari a . Tuttavia Sabine non saprebbe dire di quanto si differenziano i pesi medi e quindi poniamo il valore ipotetico pari a zero: . Il test diviene quindi o, in modo equivalente,

Test statistico e sua distribuzione, zone di decisione

Sabine ha estratto le uova in modo casuale ma senza reinserimento, cià nonostante le popolazioni da cui sono state estratte le uova sono abbastanza grandi da considerare il campione come casuale semplice. I due campioni sono indipendenti l’uno dall’altro in quanto le uova provengono da due fattorie diverse. Le variabili casuali ‘peso delle uova della prima fattoria’ e ‘peso delle uova della seconda fattoria’ sono distribuite normalmente: e con valori attesi e e varianze e incogniti. Per semplificare il problema supponiamo che le varianze delle due popolazioni siano omogenee: . Otteniamo quindi il test statistico dove e sono le dimensioni campionarie, e sono le medie campionarie e e sono gli stimatori di e . Sotto , ha una distribuzione di Student con gradi di livertà. Nelle tavole della distribuzione t di Student troviamo la soglia discriminante che soddisfa e otteniamo le seguenti zone di decisione: Zona di accettazione di : . Regione critica di : .

Estrazione del campione e calcolo del test statistico

Sabine pesa le uova e calcola la media e la varianza: 1ma fattoria: 2nda fattoria: Usando otteniamo un valore del test di .

Decisione e interpretazione

ricade nella regione critica di e quindi rifiutiamo l’ipotesi nulla. Sabine puà quindi dimostrare statisticamente sulla base di due campioni indipendenti di numerosità e e con un livello di significatività di , che la differenza à significativamente diversa da zero. Le uova della prima fattoria sono significativamente pià pesanti di quelle della seconda fattoria. La probabilità di commettere un errore di prima specie corrisponde al livello di significatività .