Test di omogeneità

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Con questo test possiamo verificare una ipotesi sulla distribuzione incognita della variabile casuale da cui anche il nome del test. Questo tipo di test non appartiene ai test parametrici. Esistono diversi test di omogeneità, in questa sede tratteremo solo quello di Chi-quadrato. Il test si basa su un campione casuale semplice di numerosità data . Il livello di significatività deve essere scelto prima dell’esecuzione del test. La variabile casuale ha la distribuzione di probabilità incognita . Non sono imposte alcun tipo di restrizioni riguardo alla modalità di misurazione della variabile casuale . Formuliamo un’ipotesi sulla distribuzione della variabile indicata con . Se à una variabile casuale discreta (per discreta intendiamo variabili ordinate sulla scala nominale, ordinale o variabili discrete con poche osservazioni) indichiamo i possibili valori che puà assumere con . Definiamo inoltre:

  • la frequenza assoluta osservata del valore nel campione ,
  • la probabilità che assuma il valore , .

Se à una variabile casuale continua (tra le quali includiamo anche variabili quasi continue, ovvero variabili discrete con infinite osservazioni), dobbiamo creare degli intervalli di possibili valori osservati suddivisi in classi disgiunte. indica il numero delle classi () possiamo quindi descrivere le classi come secuenza di intervalli: Definiamo:

  • à la frequenza assoluta osservata per la esima classe nel campione, ,
  • à la probabilità che assuma valori che ricadono nella esima classe, , .

Formulazione delle ipotesi

L’ipotesi nulla in un test di omogeneità consiste sempre nell’affermazione che la variabile casuale presenta la distribuzione ipotizzata. L’ afferma chiaramente il contrario. Utilizzando un test di Chi-quadrato abbiamo le seguenti ipotesi:
contro contro In entrambi i casi indica la probabilità che assuma il valore (o ricada nella esima classe, ), se l’ipotesi nulla à vera e quindi à la vera distribuzione di probabilità: Come possiamo determinare ? possono essere determinate senza grossi problemi. Esempio: ha una distribuzione di Poisson con il parametro . In questo caso i parametri della distribuzione devono essere stimati prima di poter calcolare le probabilità . Esempio: In base alle nostre ipotesi ha una distribuzione normale , con speranza matematica e varianza incognite. In questo caso dobbiamo prima stimare questi due parametri sulla base dei dati campionari. L’ipotesi nulla puà ipotizzare una distribuzione di frequenze. Esempio: la variabile casuale puà assumere possibili valori con associate le probabilità , , e .

Test statistico e sua distribuzione; zone di decisione

Il test confronta la distribuzione osservata nel campione con quella ipotizzata nell’ipotesi nulla. Per determinare il test statistico osserviamo le frequenze assolute. Osserviamo quindi nel campione il numero di volte in cui l’evento rispettivamente si verifica. L’insieme di tutte le frequenze assolute per costituisce la distribuzione del campione. Dato che le frequenze assolute sono il risultato di un posssono assumere valori diversi da campione a campione, sono quindi i valori assunti dalle variabili casuali . Se l’ipotesi nulla à vera, i valori attesi delle frequenze relative campionarie corrispondono a . I valori attesi delle frequenze assolute sono quindi . Il confronto tra la distribuzione osservata e quella teorica si basa sulle differenze per . Se tali differenze sono grandi abbiamo formulato un’ipotesi nulla non verosimile e possiamo quindi rigettarla. Una grandezza che misura la deviazione dall’ipotesi nulla à il test statistico: In presenza di , ha approssimativamente una distribuzione di chi-quadrato con gradi di libertà. Cià vale indipendentemente dalla distribuzione ipotizzata nell’ipotesi nulla. L’approssimazione à abbastanza accurata se

  • per ogni e
  • per almeno l’ di tutti valori attesi delle frequenze assolute.

Se queste condizioni non sono soddisfatte dobbiamo riunire classi confinanti in classi pià grandi prima di poter eseguire il test. Dato che in presenza dell’ipotesi nulla disponiamo delle , segue dalle condizioni per l’approssimazione che questa migliora per campioni pià numerosi. Determinando i gradi di libertà dobbiamo considerare che:

  • à il numero delle classi dopo aver eventualmente unito pià classi,
  • à il numero dei parametri incogniti e da stimare sulla base dei dati campionari. Se la distribuzione proposta in à completamente specificata à uguale a zero.

Si noti che puà assumere solo valori positivi e quindi anche il test statistico come somma di tali valori sarà strettamente positivo. Grandi scostamenti tra la distribuzione osservata e quella ipotizzata portano ad un valore del test statistico elevato e quindi al rifiuto di . Se il test statistico assume valori piccoli la distribuzione ipotizzata à verosimile. Il test di Chi-quadrato à quindi un test destro. La che soddisfa per i dati gradi di libertà si trova nelle tavole della funzione di ripartizione della distribuzione di chi-quadrato. Le zone di decisone sono: Regione critica di : . Zona di accettazione di : . La probabilità che assuma un valore che ricade nella regione critica di , in presenza di , à pari al livello di significatività: . la probabilità che ricada nella zona di accettazione in presenza di à .

En s2 54 2.gif

Zona di accettazione | Regione critica di

Estrazione di un campione e calcolo del test statistico

Estraendo un campione casuale di numerosità di possiamo calcolare le frequenze assolute . Se necessario stimiamo i parametri incogniti della distribuzione teorica e determiniamo il valore atteso delle frequenze assolute . Inserendo tali valori nella formula otteniamo il valore del test statistico.

Decisione e interpretazione

Se appartiene alla regione critica di , rigettiamo l’ipotesi nulla sulla base di un campione casuale ad un livello di significatività , (). Abbiamo in questo caso dimostrato statisticamente che la distribuzione della variabile casuale non corrisponde alla nostra ipotesi . In questo caso sussiste la possibilità di commettere un errore di prima specie: se in realtà la nostra ipotesi à vera. La probabilità di un tale errore corrisponde al livello di significatività . Se ricade nella zona di accettazione accettiamo l’ipotesi nulla sulla base dei dati estratti da un campione dinumerosità e dato il livello di significatività : . In questo caso non possiamo dimostrare statisticamente che la vera distribuzione della variabile casuale si discosta sostanzialmente da . Cià non significa comunque che la vera distribuzione di corrisponde effettivamente alla distribuzione teorica ; il risulatato del test ci impedisce solo di rigettare . In questo caso sussiste la possibilità di commettere un errore di seconda specie: se in realtà vale l’ipotesi alternativa.

En s2 54 e 4.gif

Un rivenditore analizza la sua ditta e in particolare la domanda giornaliera per alcuni prodotti e la sua distribuzione. La domanda di un determinato prodotto à un evento che si ripete in modo indipendente e casuale in un determinato periodo di tempo (in questo caso il giorno). La variabile casuale discreta indica il numero dei prodotti richiesti in un giorno. Il rivenditore ipotizza che la distribuzione di Poisson possa essere un buon modello per la domanda: . Il test ha un livello di significatività . I dati si riferiscono ad un campione casuale semplice di e sono riassunti nelle colonne 2 e 3 della tabella .

1ma versione

Formulazione delle ipotesi

Lavorando da anni nel settore, il nostro rivenditore crede che il numero medio di prodotti venduti nei giorni della settimana lavorativa sia . Dato che il valore atteso della distribuzione di Poisson à e che noi osserviamo un intervallo di tempo di giorno, dobbiamo modificare l’ipotesi proposta dal rivenditore su una settimana per adeguarla al singolo giorno . Le ipotesi divengono contro Le colonne e della Tabella contengono le probabilità in presenza di , (trovate nella Tabella di ) e le frequenze assolute attese .

Domanda Frequenze osservate

Test statistico, sua distribuzione in presenza dell’ipotesi nulla e determinazione delle zone di decisione

Il test statistico di omogeneità à: In presenza di , ha asintoticamente una distribuzione di chi-quadrato con gradi di libertà. Verifica delle condizioni di approssimatzione:
Come si puà vedere nella quinta colonna della Tabella , i valori e non soddisfano . Il valore non soddisfa nemmeno . Di conseguenza combiniamo questi tre valori in una classe. Determinazione dei gradi di libertà:
Sono rimaste classi. La distribuzione ipotetica di Poisson à stata pienamente specificata; il parametro dato non à stato stimato, quindi: . Abbiamo di conseguenza , e ha approssimativamente una distribuzione di chi-quadrato con gradi di libertà. Nelle tavole della distribuzione di Chi-quadrato con gradi di libertà troviamo il valore che soddisfa : . Le zone di decisione sono quindi: Regione critica di :
. Zona di accettazione di :
.

Determinazione del valore del test statistico

La Tabella contiene tutti i dati per la determinazione del test statistico.

Il valore del test statistico à dato dalla somma dei valori indicati nell’ultima colonna: .

Decisione e interpretazione

ricade nella regione critica di e quindi rifiutiamo l’ipotesi nulla (). Sulla base dei dati campionari estratti da un campione di numerosità e con un livello di significatività di , possiamo dimostrare statisticamente che la distribuzione della variabile casuale ‘Domanda giornaliera di prodotti’ non ha un distribuzione di Poisson con parametro . Cià tuttavia non significa che rifiutiamo l’ipotesi di una distribuzione di Poisson ma solo che la specifica distribuzione di Poisson con à giudicata non adatta. Accettando l’ipotesi alternativa possiamo commettere un errore di prima specie: . Cià si verifica se in realtà à la vera distribuzione di . La probabilità di commettere un errore di prima specie à data dal livello di significatività .

2nda versione

Formulazione delle ipotesi

Anche in questa versione supponiamo che la distribuzione di Poisson à una distribuzione adeguata per la nostra variabile casuale: . Non disponiamo perà di informazioni sul parametro e lo dobbiamo quindi stimare sulla base dei dati campionari. Utilizziamo il campione di numerosità estratto nella prima versione. Dato che utilizziamo la media campionaria come stimatore. La media aritmetica del campione à . La coppia di ipotesi à quindi: contro Nelle colonne e della Tabella troviamo le probabilità in presenza di : (prese dalle Tavole di ) e le corrispondenti frequenze assolute .

Domanda Frequenze osservate

Test statistico, sua distribuzione in presenza dell’ipotesi nulla e determinazione delle zone di decisione

Utilizziamo il test statistico che in presenza dell’ipotesi nulla ha approssimativamente una distribuzione di Chi-quadrato con gradi di libertà. Verifica delle condizioni di approssimazione:
Come possiamo leggere nella quinta colonna della Tabella , il valore non soddisfa la condizione , lo combiniamo quindi con il secondo valore . I valori e e superiori non soddisfano la condizione per l’approssimazione e vengono raggruppati nella stessa classe. Determiniamo i gradi di libertà:
Dopo aver effettuato i raggruppamenti abbiamo classi. Il parametro deve essere stimato dai dati campionari e quindi . I gradi di libertà sono . ha approssimativamente una distribuzione di Chi-quiadrato con gradi di libertà. Il valore che soddisfa puà essere trovato nelle tavole della distribuzione di Poisson con gradi di libertà: . Le zone di decisione sono: Regione critica di :
. Zona di accettazione di :
.

Determinazione del test statistico

La Tabella contiene i dati necessari al calcolo del test statistico.

Il valore del test statistico à determinato sommando i valori dell’ultima colonna: .

Decisione e interpretazione

Il valore del test appartiene alla zona di accettazione di e quindi accettiamo l’ipotesi nulla (). Sulla base di un campione casuale di numerosità e un livello di significatività , non possiamo provare statisticamente che la variabile casuale ‘Domanda giornaliera per il prodotto considerato’ non ha una distribuzione di Poisson con il parametro , . Se la vera distribuzione non à e quindi l’ipotesi nulla à falsa abbiamo commesso un errore di seconda specie: . La probabilità di commettere tale errore , à sconosciuta.

En s2 54 f 2.gif

Supponiamo di voler verificare che un dado non sia truccato utilizzando un test di omogeneità con livello di significatività . La numarosità campionaria à .

Formulazione delle ipotesi

Abbiamo quindi la variabile casuale discreta ‘Numero che compare sulla faccia del dado’, che puà assumere i valori , , , , e . La ripartizione à incognita in quanto non sappiamo nulla sul dado. L’ipotesi che si tratti di un dado non truccato implica tuttavia che tutti i valori possibili hanno la stessa probabilità di verificarsi. Quindi l’ipotesi nulla afferma che ha una distribuzione discreta uniforme: contro

Test statistico e sua distribuzione; zone di decisione

Utilizziamo il test di omogeneità: Sotto , ha approssimativamente una distribuzione di Chi-quadrato. Le condizioni per l’approssimazione sono soddisfatte in quanto per ogni . La distribuzione discreta uniforme à poienamente specificata in quanto non abbiamo parametri da stimare (). Abbiamo quindi gradi di libertà. Troviamo i valori di per i quali nelle tavole della distribuzione di Chi-quadrato con gradi di libertà . Le zone di decisione sono: Regione critica di :
. Zona di accettazione di :
.

Estrazione del campione e determinazione del test statistico

Il dado viene lanciato volte. La sequenza di valori ottenuti costituisce un campione casuale semplice in quanto i lanci sono indipendenti li uni dagli altri. I dati ottenuti sono contenuti nella seguente Tabella.

Frequenze osservate Frequenze attese

Nella Tabella abbiamo anche gli scostamenti tra i valori osservati e quelli attesi sotto l’ipotesi nulla. Possiamo considerare tali scostamenti come accidentali se si tratta di un dado non truccato? Il test statistico à dato dalla somma dei valori dell’ultima colonna: .

Decisione e interpretazione

Il valore del test ricade nella regione critica di , e quindi rifiutiamo l’ipotesi nulla (). Sulla base di un campione casuale semplice di numerosità con livello di significatività , possiamo dimostrare statisticamente che la distribuzione della variabile casuale ‘Numero che compare sulla faccia del dado’ non ha una distribuzione discreta uniforme e quindi il dado à truccato. La probabilità di commettere un errore di prima specie , corrisponde al livello di significatività . Il modo di procedere in un test di omogeneità à uguale a quello dei test parametrici. Costruiamo un test statistico che contiene le informazioni sia sulla distribuzione ipotetica che sulla distribuzione campionaria e sulla base di questo possiamo trarre conclusioni sull’ipotesi nulla. La distribuzione del test statistico deve essere conosciuta in presenza dell’ipotesi nulla (almeno approssimativamente). Anche nel test di omogenenità verifichiamo statisticamente l’ipotesi nulla e in base alla decisione presa sussiste la possibilità di commettere un errore di prima specie con probabilità , o relativamente un errore di seconda specie con probabilità . Con il dato livello di significatività possiamo controllare la probabilità di commettere un errore di prima specie; la probabilità di un errore di seconda specie à solitamente sconosciuta. Cerchiamo quindi di rifiutare l’ipotesi nulla in quanto in questo caso conosciamo la probabilità di commettere un errore.

Formulazione delle ipotesi

Se la distribuzione ipotetica à quella vera nella realtà ci aspettiamo in linea di principio di osservare la stessa distribuzione anche nel campione. In linea di principio significa che normalmente osserviamo scostamenti tra la distribuzione osservata nel campione e la distribuzione attesa in base alla nostra ipotesi. Dobbiamo quindi decidere se questi scostamenti sono accidentali oppure se si tratta di scostamenti significativi. Per poter determinare la distribuzione attesa campionaria dobbiamo supporre che la distribuzione dell’ipotesi nulla sia vera nella realtà. La coppia di ipotesi à quindi data da: La variabile casuale nella popolazione ha la distribuzione ipotizzata. La distribuzione della variabile casuale nella popolazione ha una distribuzione diversa da quella ipotizzata. Grossi scostamenti tra la distribuzione osservata e la distribuzione attesa nel campione indicano che l’ipotesi formulata à falsa e dobbiamo rifiutare l’ipotesi nulla. La coppia di ipotesi formulata nel test di omogeneità contiene le probabilità , che sono calcolate in base alla distribuzione ipotetica. Se à una variabile casuale discreta le probabilità sono date dalla funzione di probabilità. Nel caso in cui sia una variabile continua, la probabilità che assuma un determinato valore à chiaramente nulla (see ???). Dobbiamo quindi determinare un intervallo dei valori osservati. La probabilità , che la variabile casuale continua assuma valori nell’intervallo puà essere calcolata con la funzione di ripartizione data. Si noti che anche nel caso di varibili discrete si possono creare delle classi nel caso sia necessario per rispettare i criteri di approssimazione.

Il test statistico

Il fatto che le frequenze assolute osservate sono variabili casuali puà essere dimostrato come segue (in tale caso non à importante se à discreta o continua e quindi facciamo riferimento solo ad una variabile discreta). Estraiamo casualmente dalla popolazione un elemento e determinniamo se assume il valore , ovvero se si à verificato l’evento { }. Abbiamo quindi solo due possibili risultati dell’esperimento. La probabilità che l’evento { } si verifichi à pari, in presenza dell’ipotesi nulla, a , mentre la probabilità che tale evento non si verifichi à pari a . L’esperimento casuale viene ripetuto volte, mantenendo ciascuna prova indipendente dalle altre (campione casuale semplice) abbiamo probabilità costanti. Abbiamo quindi un esperimento bernoulliano. Ripetendo l’esperimento volte rileviamo il numero complessivo di volte in cui { } si à verificato, ovvero la frequenza assoluta campionaria di . Tale frequenza puà differire da campione a campione e quindi ‘Numero di osservazioni in un campione casuale semplice di numerosità ’ à una variabile casuale discreta con possibili valori . In presenza di la variabile casuale ha una distribuzione Binomiale con parametri e : . Il suo valore atteso à dato da , la frequenza assoluta attesa sotto l’ipotesi nulla à . La varianza descrive la variabilità delle frequenze assolute osservate di . Il test statistico si costruisce sulla base degli scostamenti delle variabili casuali dal loro valore atteso: . Per evitare che i valori positivi compensino quelli negativi eleviamo al quadrato: . Dividiamo poi per la frequenza attesa per tener conto dell’influenza della numerosità campionaria e delle probabilità nonchà del diverso significato degli scostamenti. Una differenza riceve un peso superiore per che per . Cià vale per ogni . Sommando le deviazioni normalizzate per tutte le otteniamo un valore che rappresenta le deviazioni totali tra le frequenze osservate e quelle attese contenute nel campione che corrisponde al nostro test statistico: Dato che per sono varibili casuali, à a sua volta una variabile casuale. In presenza dell’ipotesi nulla, per campioni abbastanza grandi e soddisfando le regole di approssimazione, il test statistico ha approssimativamente una distribuzione di Chi-quadrato con gradi di libertà. Cià vale indipendentemente dalla distribuzione ipotizzata nell’ipotesi nulla. Se le regole per l’approssimazione non sono rispettate dobbiamo prima di poter utilizzare il test raggruppare valori vicini in classi pià grandi. Per le varibili discrete cià puà richiedere la formazioni di classi. Per determinare i gradi di libertà dobbiamo considerare che perdiamo un grado di libertà a causa del fatto che le frequenze assolute osservate non sono indipendenti le une dalle altre. Data la numerosità campionaria e data la condizione ne segue che ogni frequenza à determinata dalle altre frequenze. Perdiamo altri gradi di libertà per ogni parametro che dobbiamo stimare dal campione. Dato come numero di parametri da stimare otteniamo i gradi di libertà pari a .