Relazione tra caratteri misurati su una scala nominale (contingenza)

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Per poter analizzare la relazione tra due caratteri e misurati sulla scala nominale dobbiamo costruire una tabella di contingenza per la distribuzione di frequenze congiunta di e che indichi le frequenze assolute o le frequenze relative . Come già dimostrato nel Capitolo “Parametri di una distribuzione bidimensionale”, la frequenza relativa congiunta delle osservazioni e , data l’indipendenza dei caratteri e corrisponde al prodotto delle frequenze relative delle distribuzioni marginali di questi due caratteri: e Possiamo quindi calcolare una grandezza ausiliaria - la contingenza quadrata, rappresentata da : Il numeratore dell’espressione indica le deviazioni quadratiche delle frequenze osservate assolute (relative) dalle frequenze assolute (relative) attese. Dividendo con le frequenze assolute (relative) attese per caratteri indipendenti, otteniamo una standardizzazione. Utilizzando la contingenza quadrata possiamo calcolare il coefficiente di contingenza come misura dell’intensità della relazione tra caratteri misurati sulla scala nominale:  ; . Il coefficiente di contingenza assume il valore 0 se abbiamo indipendenza statistica. In pratica il coefficiente non raggiunge mai il valore di 1; anche se esistesse una perfetta relazione tra i due caratteri, la dimensione campionaria à sempre maggiore di zero e quindi anche il denominatore à sempre maggiore del numeratore. Per risolvere questo problema e ottenere un coefficiente di 1 se abbiamo una perfetta relazione utilizziamo spesso il coefficiente di contingenza corretto che puà essere calcolato come segue:

Esempio:

Esaminiamo se esiste una relazione tra il fatto di essere fumatori e il verificarsi del cancro ai polmoni, utilizzando la seguente tabella di contingenza:

cancro ai polmoni cancro ai polmoni DM
sà() no()
fumatore sà () 10 15 25
fumatore no () 5 70 75
DM 15 85 100

Il coefficiente di contingenza corretto à di 0.53 e indica che c’à una relazione tra il fatto di fumare e avere il cancro ai polmoni. Nell’esempio si dà la possibilità di creare una distribuzione di frequenze duedimensionale dai seguenti dati:

Studenti

Su 107 studenti sono state rilevate le seguenti variabili: facoltà, sesso, età, numero di semestri, cittadinanza, situazione sociale (molto buona/buona, discreta, cattiva), situazione psicologica (molto instabile, instabile, stabile, molto stabile) e il giudizio sui propri studi (molto buono/buono, soddisfacente, cattivo).

Informazioni

941 persone sono state intervistate per sapere se sono abbonate a un giornale o meno; se hanno un lavoro o meno (occupato, disoccupato), l’età (con le classi 18 - 29, 30 - 39, 40 - 49) e il grado di istruzione (scuole elementari, medie, superiori/università)

Stazioni di servizio

Sono state osservate 700 stazioni di servizio. I caratteri rilevati sono: la località dove si trovano (“piccola” se ha meno di 100000 abitanti, “grande” se ha almeno 100000 abitanti) il tipo di strada (autostrada/nazionale, di campagna, strada principale), il tipo di servizio offerto (self-service o normale servizio) e le vendite (basse, medie, elevate). Innanzitutto bisogna scegliere i dati da analizzare. Per i dati scelti vengono poi preparate le tabelle di distribuzione di frequenze duedimensionali e calcolati il coefficiente e il coefficietne di coefficienza. Dai dati rilevati in un supermercato estraiamo casualmente clienti sui quali investighiamo i seguenti caratteri: lcl Variabile& & possibili osservazioni

sesso & &- maschio
& &- femmina

modo di pagamento & &- contanti
& &- bancomat
& &- carta di credito

residenza & &- Berlino
& &- fuori Berlino
Nel seguito mostriamo le tre possibili distribuzioni di frequenza che possono essere formate con le date variabili, calcoliamo inoltre il coefficiente di contingenza. La distribuzione duedimensionale per le varibili sesso e modo di pagamento à una tabella di contingenza 23.

sesso DM
maschio 31 (0,188) 32(0,194) 23(0,139 86 (0,521)
femmina 30 (0,182) 29(0,176) 20 (0,121) 79 (0,479)
DM 61 (0,370) 61(0,370) 43 (0,260) 165
: 0,08
coefficiente di contingenza 0,02
coefficiente di contingenza corretto 0,03

Il coefficiente di contingenza corretto di 0,03 indica che esiste una connessione molto debole tra sesso e modo di pagamento. La distribuzione di frequenze duedimensionale per le varibili sesso e residenza à una tabella di contingenza 22.

sesso DM
Berlino fuori Berlino
maschio 50 (0,303) 36 (0,218) 86 (0,521)
femmina 37 (0,224) 42 (0,255) 79(0,429)
DM 87 (0,527) 78 (0,473) 165 (1,00)
2,11
coefficiente di contingenza 0,11
coefficiente di contingenza corretto 0,16

Il coefficiente di contingenza corretto di 0,16 indica anche in questo caso una connessione tra le due varibili sesso e residenza molto debole. La distribuzione di frequenze duedimensionale per le variabili residenza e modo di pagamento à una tabella di contingenza 23.

residenza DM
Berlino 44 (0,267) 22(0,133) 21(0,127) 87(0,527)
fuori Berlino 17(0,103) 39(0,237) 22(0,133) 78(0,473)
DM 62(0,370) 61(0,370) 43(0,260) 165(1,00)
16,27
coefficiente di contingenza 0,30
coefficiente di contingenza corretto 0,42

Il coefficiente di contingenza corretto di 0,42 à chiaramante pià grande che negli altri due casi e indica che la connessione tra le due varibili metodo di pagamento e residenza à pià significativa.