Il test di indipendenza-

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Il test di independenza ci permette di verificare se due varibili casuali sono stocasticamente indipendenti. Il test di indipendenza à un test non parametrico applicabile a tutte le scale di misurazione. Supponiamo di osservare contemporaneamene due variabili casuali e su unità statistiche, estratte in modo indipendente (campione casuale semplice). Se e sono variabili casuali discrete (consideriamo in questo caso variabili nominali, ordinali e discrete con poche osservazioni) possono assumere i valori e . Se e sono variabili casuali continue (consideriamo in questa categoria anche variabili discrete con molte osservazioni, ovvero le variabili quasi continue), dobbiamo suddividere i valori osservati in classi disgiunte. In questo caso e indicano valori rappresentativi della classe (normalmente i valori centrali) e e indicano il numero delle classi. Una rappresentazione adeguata della congiunta à la tabella a doppia entrata detta anche tabella di contingenza bivariata. Tabella di contingenza bivariata

dm

indica la frequenza assoluta per la coppia di valori osservata , in altre parole assume il valore o un valore della esima classe e assume o un valore della esima classe: L’ultima colonna contiene le (dm) osservate di , composte dalle frequenze assolute marginali, , indica quante volte ha assunto il valore (variabili discrete o valore centrale della classe) indipendentemente dai valori assunti da . Nell’ultima riga si trovano le distribuzion marginali osservate di , date dalle frequenze marginali assolute, , indica quante volte ha assunto il valore (o un valore nella classe J) indipendentemente dai valori assunti da . Per la tabella a doppia entrata valgono le seguenti definizioni:

Formulazione delle ipotesi

L’ipotesi nulla in un test di indipendenza ipotizza che e siano stocasticamente indipendenti; l’ipotesi alternativa nega chiaramente quella nulla.
contro
Se l’ipotesi nulla à vera abbiamo, applicando la regola moltiplicativa di eventi indipendenti: Nella formula, indica la probabilità che la variabile casuale assuma il valore (o un valore appartenente alla classe rappresentata da ) e assuma contemporaneamente il valore (o un valore nella esima classe), à la probabilità che assuma il valore o una valore nella esima classe (probabilità marginale di ), à la probabilità che assuma il valore o un valore della esima classe (probabilità marginale di ). La coppia di ipotesi puà quindi essere scritta come
contro
Il livello di signififcatività e la numerosità campionaria devono essere stabiliti prima di effettuare il test.

Test statistico e sua distribuzione; zone di decisione

Il test si basa su un confronto delle frequenze congiunte assolute osservate nel campione e quelle teoriche in base all’ipotesi nulla. Di conseguenza il test statistico si avvale delle frequenze assolute. Estraiamo un campione e rappresentiamo le frequenze assolute () in una tabella a doppia entrata. Le frequenze assolute sono il risultato di un esperimento aleatorio e possono quindi cambiare da campione a campione. In altre parole sono i valori assunti dalle variabili casuali . Se l’ipotesi nulla à vera le frequenze assolute congiunte attese sono date da . Le probabilità congiunte e le probabilità marginali e sono sconosciute e devono essere stimate dai dati campionari. Stime puntuali e consistenti per e sono le frequenze relative marginali e . Supponiamo quindi di avere frequenze marginali fisse. Otteniamo quindi le stime in presenza dell’ipotesi nulla per le frequenze assolute congiunte: Il confronto tra le frequenze assolute congiunte osservate nel campione e quelle attese in presenza dell’ipotesi nulla si basa sulle differenze (). Il test statistico à una grandezza che ci dà la somma ponderata di queste differenze dall’ipotesi nulla Sotto , il test statistico ha approssimativamente una con gradi di libertà. Le regole di approssimazione sono soddisfatte se per ogni coppia . Se queste condizioni non sono soddisfatte bisogna raggruppare valori o classi adiacenti. e indicano il numero di classi delle due variabili dopo aver effettuato i necessari raggruppamenti. La soglia discriminante che soddisfa si trova sulle tavole della distribuzione di chi-quadrato per gradi di libertà. Le zone di decisione sono Regione critica di :
. Zona di accettazione di :
. La probabilità che il test statistico assuma un valore nella regione critica di à pari al livello di significatività . La probabilità che il test statistico ricada nella zona di accettazione di à .

En s2 55 7.gif

Estrazione di un campione e determinazione del test statistico

Dopo aver estratto un campione di numerosità possiamo determinare le frequenze assolute di tutte le coppie di valori osservate . Abbiamo quindi le frequenze marginali osservate di e e possiamo calcolare le frequenze assolute attese . Se le regole di approssimazione non sono rispettate dobbiamo procedere ad un raggruppamento e determinare nuovamente , , e . Inserendo e nella formula del test statistico otteniamo il valore .

Decisione e interpretazione

Se ricade nella regione critica di , dobbiamo rifiutare l’ipotesi nulla sulla base del campione di numerosità estratto e con un livello di significatività (). In questo caso possiamo dimostrare statisticamente che le variabili casuali e non sono stocasticamente indipendenti. Se queste in realtà sono indipendenti commettiamo un (), con una probabilità pari al livello di significatività: . Se appartiene alla zona di accettazione di , non rigettiamo l’ipotesi nulla sulla base del campione di numerosità estratto e con un livello di significatività (). I risultati campionari non ci permettono di rifiutare l’ipotesi di indipendenza delle due variabili. Se l’ipotesi alternativa à vera commettiamo un errore di seconda specie ().

En s2 55 e 3.gif

Nel 1991 e nel 1996, à stato fatto un sondaggio su cittadini tedeschi estratti casualmente di età maggiore a anni. Le domande poste sono state: 1) Come giudica la situazione attuale economica tedesca? 2) Quali saranno le prospettive economiche tra un anno? Le possibili risposte erano: 1) 1 molto buona, 2 buona, 3 soddisfacente, 4 cattiva, 5 molto cattiva 2) 1 significativamente migliore di quella attuale, 2 migliore, 3 invariata, 4 peggiorata, 5 Significativamente peggiore. Le domande sono tradotte nella variabile casuale ‘Situazione economica attuale’ e ‘Situazione economica futura’, con i possibili risultati dati sopra. à stata inoltre rilevata una terza variabile ‘Regione di provenienza’ con i possibili risultati ‘Germania dell’Ovest’ e ‘Germania dell’Est’. Verifichiamo con un livello di significatività di , se le varibili casuali e e rispettivamente e negli anni 1991 e 1996 sono stocasticamente indipendenti.

Formulazione delle ipotesi; determinazione del test statistico e sua distribuzione

Dato che normalmente verifichiamo l’ipotesi nulla, formuliamo l’indipendenza delle varibili casuali in per facilitare il calcolo delle frequenze assolute congiunte attese: contro e contro Utilizziamo il test di indipendeza, che sotto ha approssimativamente una distribuzione di chi-quadrato con gradi di libertà. Le zone di decisione non possono essere determinate prima di aver estratto il campione in quanto

  • dobbiamo prima stimare le frequenze assolute congiunte attese dai dati campionari.
  • Sulla base di queste possiamo controllare se le regole di approssimazione sono soddisfatte e nel caso non lo siano dobbiamo procedere a eventuali raggruppamenti.
  • Quando abbiamo effettuato i raggruppamenti e conosciamo i gradi di libertà possiamo cercare la soglia discriminante.

Estrazione del campione; determinazione delle zone di decisione; determinazione del valore del test e decisione

Le Tabelle da a contengono le frequenze assolute congiunte campionarire degli anni e , le frequenze assolute congiunte attese nel caso in cui l’ipotesi nulla sia vera sono calcolate come segue e le differenze . Situazione economica attuale () e Regione di provenienza (), 1991

Ovest Est
Molto buona osservate
attese
differenza
Buona osservate
attese
differenza
Soddisfacente osservate
attese
differenza
Cattiva osservate
attese
differenza
Molto cattiva osservate
attese
differenza

Situazione economica attuale () e Regione di provenienza (), 1996

Ovest Est
Molto buona osservate
attese
differenza
Buona osservate
attese
differenza
Soddisfacente osservate
attese
differenza
Cattiva osservate
attese
differenza
Cattiva osservate
attese
differenza

Situazione economica futura () e Regione di provenienza (), 1991

Ovest Est
Significativamente migliorata osservate
attese
differenza
Migliorata osservate
attese
differenza
Invariata osservate
attese
differenza
Peggiorata osservate
attese
differenza
Significativamente peggiorata osservate
attese
differenza

Situazione economica futura () e Regione di provenienza (), 1996

Ovest Est
Significativamente migliorata osservate
attese
differenza
Migliorata osservate
attese
differenza
Invariata osservate
attese
differenza
Peggiorata osservate
attese
differenza
Significativamente peggiorata osservate
attese
differenza

Per tutti e i test vale: per ogni coppia . La soglia discriminante che soddisfa per gradi di libertà à . Le zone di decisione sono quindi Regione critica di :
. Zona di accettazione di :
. I valori dei test e le corrispondenti decisioni sono

Anno Variabili casuali valore del test statistico Decisione
,
,
,
,

Interpretazione

Nel i dati raccolti ad un livello di significatività di ci portano a rifiutare l’ipotesi nulla, ovvero rileviamo una dipendenza tra le variabili casuali ‘Situazione economica attuale’ e ‘Regione di provenienza’, mentre nel accettiamo l’ipotesi nulla di indipendenza. Nel le risposte degli intervistati della Germania dell’Ovest sono state pià positive di quelle dei tedeschi dell’Est come si puà notare dalle grosse differenze per le risposte Molto buona e Buona nella colonna Ovest della Tabella . Nel , ci sono ancora differenze positive , ma la loro somma non à pià significativa. Assistiamo quindi ad un avvicinamento delle valutazioni dei cittadini dell’Ovest e quelli dell’Est sulla situazione economica attuale. Per quanto riguarda le variabili casuali ‘Situazione economica futura’ e ‘Regione di provenienza’ rifiutiamo l’ipotesi di indipendenza ad un livello di significatività dello in entrambi gli anni considerati. In questo caso sono i cittadini dell’Est che valutano le prospettive economiche pià positivamente. Se confrontiamo i due anni le differenza nel sono inferiori a quelle del , cià indica anche in questo caso un avvicinamento nella valutazione delle prospettive future. Tuttavia la differenza rimane statisticamente significativa anche nel .

En s2 55 f 4.gif

Si suppone che il numero di difetti verificati su un’auto e l’età dell’auto siano stocasticamente dipendenti. Per verificare questa ipotesi effettuiamo un test di significatività ad livello di significatività del . La variabile casuale ‘numero di difetti’ assume i valori ‘nessuno’, difetto’ e o pià difetti’; la variabile casuale ‘età dell’auto’ assume i valori anno’, anno’ e anni’ e anni’.

Formulazione delle ipotesi

Nei test verifichiamo sempre l’ipotesi nulla, ovvero che le variabili e siano indipendenti per poter determinare le frequenze assolute congiunte attese. Le ipotesi sono quindi: contro o contro

Determinazione del test statistico e sua distribuzione

Utilizziamo il test di indipendenza: che sotto , ha approssimativamente una distribuzione di chi-quadrato con gradi di libertà. Le zone di decisione possono essere determinate solo dopo aver estratto il campione in quanto:

  • prima dobbiamo stimare le frequenze assolute congiunte attese;
  • dobbiamo poi verificare le regole di approssimazione ed eventualmente raggruppare le classi;
  • solo dopo i precedenti passi conosciamo i gradi di libertà e quindi possiamo trovare la soglia discriminante.

Estrazione del campione; zone di decisione e deteminazione del valore del test

In un controllo stradale effettuato dai vigili vengono fermate casualmente auto delle quali si registra l’età e i difetti. Nella Tabella seguente sono riassunte le frequenze assolute congiunte osservate nel campione e le frequenze marginali. Contemporaneamnete sono state calcolate le frequenze assolute attese in presenza dell’ipotesi nulla con la formula

osservate
attese
osservate
attese
osservate
attese

Le regole di approssimazione sono soddisfatte in quanto per tutte le frequenze attese vale: . Abbiamo e classi e quindi gradi di libertà. La soglia discriminante che soddisfa si trova nelle tavole della distribuzione di chi-quadrato ed à . Le zone di decisione sono: Regione critica di :
. Zona di accettazione di :
. Il valore del test à

Decisione e interpretazione

ricade nella regione critica e quindi rifiutiamo l’ipotesi nulla. Dati i nostri parametri del test (numerosità campionaria e livello di significatività ), possiamo dimostrare statisticamente che le variabili casuali ‘numero di difetti’ e ‘età dell’auto’ sono stocasticamente dipendenti. Se cià non à vero in realtà abbiamo commesso un errore di prima specie (). La probabilità di un tale errore corrisponde al livello di significatività Il procedimento per effettuare un test di indipendenza à uguale a quello dei test parametrici. Costruiamo un test statistico che contiene le informazioni teoriche e quelle campionarie e su tale base verifichiamo l’ipotesi nulla. La distribuzione del test deve essere (almeno approssimativamente) nota in presenza dell’ipotesi nulla. Anche in questo tipo di test verifichiamo l’ipotesi nulla e in base ai risultati ottenuti possiamo commettere un errore di prima specie con probabilità pari a , oppure un errore di seconda specie con probabilità pari a . Possiamo controllare la probabilità dell’errore di prima specie determinando il livello di significatività, mentre la probabilità di un errore di seconda specie non à solitamente conosciuta. Di conseguenza cerchiamo sempre di rifiutare l’ipotesi nulla in modo tale che conosciamo la probabilità di commettere un errore.

Formulazione delle ipotesi

Se le variabili casuali nella realtà sono indipendenti, supponiamo che cià si verifichi in linea di principio anche nel campione. In linea di principio significa che in generale ci sono sempre scostamenti tra le frequenze assolute congiunte osservate e le frequenze teoriche in caso di indipendenza . Dobbiamo quindi decidere se le deviazioni rilevate sono accidentali o se sono significative e quindi rifiutiamo l’ipotesi di indipendenza. Dato che dobbiamo verificare l’ipotesi nulla, l’indipendenza tra e deve sempre essere formulata come per poter determinare le frequenze assolute attese. Grosse deviazioni tra le frequenze osservate e quelle teoriche ci portano quindi a rifiutare l’ipotesi nulla ossia l’ipotesi di indipendenza delle variabili. Il test statisico à calcolato utilizzando le probabilità , , e (). Se e sono varibili casuali discrete, le probabilità congiunte si riferisono esattamente ad una coppia di valori: La probabilità che variabili casuali continue assumano un determinato valore à pari a zero (see ???). Dobbiamo quindi suddividere i valori osservati in intervalli. Cià significa: à la probabilità che la variabile casuale assuma un valore che appartiene alla classe e assuma un valore che appartiene alla classe , à la probabilità che assuma un valore della esima classe (probabilità marginali di ), à la probabilità che assuma valori della esima classe (probabilità marginali di ). Per semplificare utilizziamo sia per variabili discrete che continue invece che classi i valori centrali delle classi, e . e indicano il numero delle classi per e . Si noti che anche per variabili discrete si puà procedere ad un raggruppamento per classi se le regole di approssimazione lo richiedono.

Il test statistico

Possiamo dimostrare che le frequenze assolute congiunte osservate sono variabili casuali (il fatto che e siano continue o discrete non à importante). Supponiamo di estrarre casualmente dalla popolazione un elemento statistico e osserviamo se si à verificata la coppia di valori , ovvero se si à verificato l’evento . Ci sono solo due possibili risultati di questo esperimento aleatorio. La probabilità che si verifichi l’evento à , mentre la probabilità che tale evento non si verifichi à . L’esperimento viene ripetuto volte, con prove indipendenti (campione casuale semplice) e quindi le probabilità sono costanti. In altre parole siamo presenza di un esperimanto bernouliano con ripetizioni. Ripetendo volte l’esperimento ci interessa il numero totale delle volte in cui si manifesta l’evento , ovvero la frequenza assoluta della coppia di valori nel campione. Questa frequenza puà cambiare da campione a campione e quindi ‘Numero di volte in cui si verifica in un campione casuale semplice di numerosità ’ à una variabile casuale discreta che puà assumere i possibili valori . La variabile casuale ha una distribuzione Binomiale con i parametri e : . Il valore atteso di à . Se l’ipotesi nulla à vera, ovvero e sono stocasticamente indipendenti, la probabilità congiunta à data dal prodotto delle probabilità marginali e : . Le frequenze assolute congiunte attese in caso di indipendenza sono quindi: . Cià vale per ogni e . Il test statistico si basa sul confronto delle frequenze assolute congiunte teoriche e quelle osservate. Le frequenze teoriche in presenza dell’ipotesi di indipendenza sono da stimare dai dati campionari a causa delle probabilità incognite. Il confronto risulta quindi nella differenza: . Per evitare che scostamenti positivi e negativi si compensino eleviamo al quadrato: . Dividiamo poi per per tener conto dei diversi scostamenti: la differenza ottiene un peso maggiore se che se . Sommiamo poi per tutte le coppie ottenendo il test statistico: Dato che à una variabile casuale, anche lo à. In presenza dell’ipotesi nulla, per campioni abbastanza grandi e rispettando le regole di approssimazione, ha approssimativamente una distribuzione di chi-quadrato con gradi di libertà. Se le condizioni di approssimazione non sono soddisfatte, prima di utilizzare il test dobbiamo raggruppare valori o classi adiacenti (in caso di variabili discrete cià puà portare alla creazione di classi). e sono i numeri delle classi dopo aver effettuato il necessario raggruppamento. Determinazione dei gradi di libertà: Nella distribuzione bivariata delle variabili casuali e , abbiamo un totale di probabilità . Perdiamo un grado di libertà in quanto le probabilità non sono indipendenti tra di loro: implica che ogni probabilità à determinata dalle altre probabilità. Avremmo quindi gradi di libertà se in presenza dell’ipotesi nulla potessimo determinare tutte le probabilità in base alle probabilità marginali note usando . Sfortunatamente perà non conosciamo le probabilità marginali e e devono essere stimate dai dati campionari e quindi riduciamo ulteriormente i gradi di libertà. La distribuzione marginale di contiene probabilità marginali , di cui solo devono essere stimate in quanto . Cià vale anche per : dato che , dobbiamo stimare solo probabilità marginali . In totale dobbiamo stimare probabilità marginali, e il totale dei gradi di libertà à: Il termine assume solo valori positivi per ogni coppia , e quindi anche il test statistico à sempre positivo. Grosse deviazioni portano a grossi valori di e quindi al rifiuto dell’ipotesi nulla. Di conseguenza il test di indipendeneza à un test destro.