Test sulla proporzione di una popolazione dicotomica

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Ipotizziamo di avere una popolazione dicotomica nella quale una proporzione incognita di elementi presenta una certa caratteristica mentre la restante parte della popolazione ne à priva. Sul valore di abbiamo formulato delle ipotesi (valore ipotetico ) e le vogliamo verificare con un test statistico e pià precisamente con un . Nel seguito supponiamo che il test viene eseguito sulla base di un campione casuale semplice di numerosità . Cià assicura che le variabili campionarie , che assumono solo i valori e , siano variabili bernoulliane indipendenti a identicamente distribuite. Il livello di significatività viene indicato con .

Formulazione delle ipotesi

A seconda del problema potremmo utilizzare un test bilaterale o unilaterale: 1) 2) 3) Per la scelta del tipo di test si rileggano le considerazioni effettuate per il test sulla media.

Test statistico, sua distribuzione e zone di decisione

La frequenza relativa campionaria costituisce il nostro stimatore per il parametro incognito della popolazione . Lo stimatore à la somma degli elementi che presentano il carattere di interesse ed à una variabile casuale che puà essere considerata come corrispondente alla frequenza campionaria in quanto si differenzia da essa solo per un fattore costante pur contenendo tutte le informazioni interessanti del campione. Come già illustrato nei precedenti capitoli (see ???), ha una distribuzione bernoulliana con parametri e : . Dato che la numerosità à già stata fissata dobbiamo solo determinare . L’unica informazione disponibile su à il suo valore ipotetico . Supponiamo che sia la vera frequenza relativa nella popolazione ovvero: . Di conseguenza lo stimatore diventa il nostro test statistico, che in presenza dell’ipotesi nulla , ha una distribuzione di Bernoulli con parametri e : La regione critica dell’ contiene tutti valori di per i quali la probabilità cumulata à al massimo pari a . I valori critici possono essere trovati dalle tavole della funzione di ripartizione di , come segue: 1) Il valore critico inferiore à il valore di , per il quale la funzione di ripartizione eccede appena il valore di : e . Il valore critico superiore à il valore per il quale la funzione di ripartizione raggiunge o eccede appena il valore : e . La regione critica di à data da
, tale che
. La zona di accettazione di à data da
, tale che
. 2) Il valore critico à il valore assunto dal test per il quale la funzione di ripartizione raggiunge appena o eccede di poco il valore : e . La regione critica di à
, tale che
. La zona di accettazione di à
, tale che
. 3) Il valore critico à quel valore assunto da per il quale la funzione di ripartizione eccede appena il valore : e . La regione critica di à
, tale che
. La zona di accettazione di à
, tale che
. Dato che à una variabile casuale discreta, il livello di significatività non sarà normalmente esattamente raggiunto (in generale si tende a essere piuttosto prudenti e a considerare un valore pià piccolo). Scegliendo una numerosità campionaria abbastanza grande, possiamo standardizzare lo stimatore e ottenere il test statistico dove à la deviazione standard dello stimatore in presenza di . In presenza di , converge verso una distribuzione normale standardizzata (see ???). dato il livello di significatività possiamo trovare le soglie discriminanti nelle tavole della distribuzione normale standardizzata. Per i diversi test possiamo determianre le zone di decisione in modo analogo a quello visto nei test sulla media con varianza incognita. Abbiamo e quindi un’ipotesi sulla proporzione corrisponde ad un’ipotesi sul valore atteso.

Estrazione di un campione e calcolo del test statistico

Estraendo un campione casuale semplice di numerosità otteniamo i valori delle variabili casuali , e possiamo calcolare il valore del test statistico .

Decisione e interpretazione

La decisione e l’interpretazione sono analoghe a quelle effettuate per il test su .

Potenza

La potenza di un test basato su un campione abbastanza grande puà essere calcolata per tutti i tipi di test nello stesso modo che per il test sulla media della popolazione. Se il test statistico à dobbiamo utilizzare anche per il calcolo della funzione di potenza la per tutti i valori possibili data una numerosità campionaria fissa . Per abbiamo 1) per il test bilaterale 2) per il test destro 3) per il test sinistro Le probabilità possono essere trovate nelle tavole della funzione di ripartizione della distribuzione binomiale. Per , la potenza corrisponde al livello di significatività effettivo . Supponiamo di aver una popolazione dicotomica di studenti di economia nella quale una parte à entusiasta per la statistica mentre la restante parte non la sopporta. La variabile casuale = {entusiasmo per la statistica} puà assumere solo i valori per si e per no. Supponiamo che la metà degli studenti sia entusiasta per la statistica, ovvero ipotizziamo . Dato il livello di significatività e un campione casuale semplice di vogliamo verificare se la vera proporzione di entusiasti nella popolazione corrisponde al nostro valore ipotetico: In questo esempio interattivo si puà ripetere il test a piacere estraendo ogni volta un nuovo campione. In particolare si puà:

  • mantenere il livello di significatività e la numerosità campionaria constanti,
  • cambiare il livello di significatività e lasciare la numerosità invariata,
  • cambiare e mantenere costante,
  • cambiare sia che .

En s2 52 e 5.gif

Uno dei compiti pià importanti di una banca à quello della valutazione della credibilità dei possibili creditori per evitare le perdite sui crediti emessi. Gli amministratori della banca ABC vogliono restringere le condizioni di concessione dei crediti nel caso in cui la proporzione dei clienti finanziati che hanno difficoltà nel servizio dei crediti non si attesti al di sotto del %. Il dipartimento di statistica della banca deve quindi effettuare un test. In questo contesto la banca vuole minimizzare il rischio di modificare la sua politica di concessione crediti nel caso in cui la proporzione dei crediti a rischio sia effettivamente sopra al %. La variabile casuale ‘difficoltà nel rimborso crediti’ assume solo i valori 0 (no) o 1 (sà). La proporzione dei creditori che hanno difficoltà nel rimborso à sconosciuta. La verifica viene effettuata con un test sulla proporzione di una popolazione dicotomica con valore ipotetico .

Formulazione dell’ipotesi

In questo caso sono rilevanti le deviazioni dal valore ipotetico solo in una direzione e quindi effettuiamo un test unilaterale. Dato che la banca ABC vuole dimostrare che la sua attuale politica di concessione crediti à abbastanza severa, ovvero la proporzione di clienti con problemi di pagamento à inferiore al 20%, prendiamo questa ipotesi come ipotesi alternativa e otteniamo un test sinistro: Nel considerare i possibili errori dobbiamo verificare che le nostre ipotesi corrispondano alle intenzioni degli amministratori della banca. Se rifutiamo l’ipotesi nulla incorriamo nell’errore di prima specie: Se in base ai risultati del test accettiamo l’ipotesi nulla possiamo incorrere nell’errore di seconda specie: L’errore di prima specie à il tipo di errore che gli amministratori vogliono ridurre. Cià avviene ponendo il livello di significatività pari a . L’errore di seconda specie non à molto grave per gli amministratori in quanto una revisione della politica creditizia anche se non necessaria non ha gravi ripercussioni sulla banca. In base a queste ipotesi e dato il livello di significatività pari a elaboriamo le seguenti due varianti del test. Per l’esecuzione dei test estraiamo un campione casuale semplice di numerosità da una popolazione di pià di debitori. Non à ragionevole considerare l’estrazione con reinserimento: mantenedo un tasso di campionamento pari a , possiamo considerare il campione come semplice anche senza effettuare il reinserimento.

1ma alternativa

Per tagliare i costi scegliamo di estrarre debitori. La condizione à comunque rispettata.

Test statistico e sua distribuzione; zone di decisione

Lo stimatore ‘Numero di clienti con difficoltà di rimborso in un campione di numerosità pari a 30’ puà essere direttamente utilizzato come test statistico . In presenza di , ha una distribuzione Binomiale . Un valore di piccolo ci porta a rifiutare l’ipotesi nulla. La soglia discriminante à il valore assunto da , per il quale à uguale o maggiore di , ovvero: e . Nelle tavole della funzione di ripartizione di troviamo , e otteniamo le seguenti zone di decisione: Regione critica di :
, con
. Zona di accettazione di :
, con
. Dato che à una variabile casuale discreta, non raggiungiamo effettivamente il dato livello di significatività ma solo: .

Estrazione di un campione e calcolo del test statistico

Estraiamo debitori e verifichiamo le loro caratteristiche. Abbiamo che hanno dimostrato di non essere affidabili e quindi il valore del test à: .

Decisione e interpretazione

appartiene alla zona di accettazione di , e quindi accettiamo l’ipotesi nulla. La proporzione osservata nel campione à inferiore al nostro valore ipotetico , ma la differenza tra i due valori non à interpretata come significativa dato . Si ricordi che nel verificare un’ipotesi dato un determinato livello di significatività consideriamo aree (zone di accettazione e regione critica di ) e non la stima puntuale. Sulla base del nostro campione casuale di non possiamo dimostrare statisticamente che la proporzione di debitori con difficoltà nel rimborso fosse inferiore al 20%. La banca ABC deve rivedere la sua politica creditizia.

Potenza

Avendo accettato l’ipotesi nulla possiamo commettere un errore di seconda specie nel caso in cui in realtà valga l’ipotesi alternativa: . Calcoliamo ora la probabilità che in questo test sinistro (con , , e ) non venga rifiutata l’ipotesi nulla nel caso in cui nella popolazione si abbia . Per à vera l’ipotesi alternativa e quindi la probabilità di un errore di seconda specie à: Abbiamo dove si trova nelle tavole della funzione di ripartizione di per , ovvero . Nel caso in cui la vera proporzione sia , l’ di tutti i campioni di numerosità non rileveranno la differenza tra il vero parametro e il valore ipotetico , inducendo la banca a rivedere la sua politica creditizia. La banca deve quindi effettuare modifiche non necessarie nella sua politica creditizia con una probabilità dello . Anche se la probabilità di un errore à piuttosto alta non à da considerarsi un grosso problema per la banca in considerazione delle conseguenze di un errore di prima specie. Accettando l’ipotesi nulla possiamo perà anche effettuare una scelta corretta se in realtà l’ipotesi nulla à vera . Supponiamo per esempio che la vera proporzione dei debitori inaffidabili sia . Il test utilizzato non viene modificato :, , e . In questo caso à vera l’ipotesi nulla e quindi la probabilità cercata diventa Abbiamo dove puà essere trovato sulle tavole della funzione di ripartizione di . Possiamo ripetere entrambi i calcoli per diversi valori di in base a quale ipotesi à vera per il singolo parametro abbiamo la probabilità o di fare una scelta giusta o piuttosto un errore.

Ipotesi vera

Nel seguente grafico troviamo la funzione di potenza per il test sinistro con , , e .

En s2 52 e 4.gif

2nda alternativa

Tentiamo ora non solo di mantenere la probabilità di un errore di prima specie limtata a ma cerchiamo anche di ridurre il rischio di commettere un errore di seconda specie. Sappiamo che dato il livello di significatività possiamo ridurre la probabilità di un errore di seconda specie aumentando la numerosità campionaria e quindi decidiamo di estrarre un campione di , comunque piccolo abbastanza per soddisfare la condizione .

Test statistico e sua distribuzione; zone di decisione

Utilizziamo il test statistico che sotto l’ipotesi nulla converge verso una distribuzione normale standardizzata data la grandezza del campione. Per troviamo nelle tavole della distribuzione normale standardizzata la soglia determinante . Data la simmetria della distribuzione abbiamo , quindi la nostra regione critica approssimativa di à e la zona di accettazione approssimativa di à .

Estrazione del campione e calcolo del test statistico

Estraiamo da una popolazione di , debitori e ne analizziamo le caratteristiche: hanno avuto problemi di solvenza almeno una volta e quindi la nostra proporzione campionaria à . Inserendo tale risultato nel test statistico abbiamo

Decisione e interpretazione

ricade nella zona di accettazione di , e quindi accettiamo l’ipotesi nulla. In base al campione casuale estratto di , non possiamo dimostrare statisticamente che la proporzione dei debitori con problemi nel rimborso à inferiore al 20%. La banca ABC dovrà quindi rivedere la sua politica creditizia.

La probabilità di commettere un errore di seconda specie

Accettando l’ipotesi nulla possiamo commettere un errore di secodna specie se in realtà l’ipotesi alternativa à vera: . Dobbiamo quindi chiederci quale sarebbe la probabilità che con questo test sinistro (invariato nei parametri) non accetteremmo l’ipotesi nulla nel caso in cui la proporzione nella popolazione fosse , e quindi commettessimo un errore di seconda specie: . Dobbiamo innanzi tutto trovare la proporzione critica corrispondente al valore critico calcolato utilizzando l’approssiamzione verso una distribuzione normale. Dato ne deriva che à la probabilità che lo stimatore assuma un valore che ricade nella zona di accettazione dell’ipotesi nulla quando il vero parametro appartiene all’ipotesi alternativa: Per determinare tale probabilità dobbiamo effettuare una standardizzazione per poter utilizzare le tavole della distribuzione normale standardizzata sapendo che e : Nelle tavole della distribuzione normale standardizzata troviamo e quindi abbiamo Questa probabilità di un errore di seconda specie à molto inferiore a quella trovata nella prima alternativa grazie all’incremento della numerosità campionaria.

En s2 52 f 2.gif

Un professore di statistica ha l’impressione che l’anno scorso, la biblioteca abbia acquistato molti meno libri di stastistica che negli anni precedenti. Negli anni passati la proporzione di libri di statistica era pià del 10%. Gli assistenti del professore devono quindi verificare tale impressione. Nell’interesse degli studenti il professore vuole limitare il rischio di non avere le prove per protestare nei confronti dell’amministrazione bibliotecaria. La verifica avviene con un test sulla proporzione della popolazione avendo come valore ipotetico . La popolazione à dicotomica nel senso che i libri nuovi sono di statistica oppure no. Il livello di significatività à dello e il campione estratto à di numerosità pari a .

Formulazione delle ipotesi

In questo caso siamo interessati solo agli scostamenti della vera proporzione da quella ipotetica in una direzione e quindi utilizziamo un test unilaterale. L’affermazione del professore che la proporzione di libri di statistica à al massimo del 10% viene utilizzata come ipotesi nulla con l’obiettivo se possibile di rifiutarla. Abbiamo quindi il seguente test: Per quanto riguarda gli errori bisogna considerare se la formulazione proposta corrisponde alle intenzioni del professore. Se rifiutiamo l’ipotesi nulla il possibile errore di prima specie ha il seguetne contenuto: La probabilità massima di tale errore , à data dal livello di signficatività , che à stato posto pari a . Quindi il rischio che il professore voleva minimizzare à stato limitato. Se non rifiutiamo l’ipotesi nulla il contenuto del possibile errore di seconda specie à: La probabilità che cià accada , à sconsociuta in quanto la vera proporzione (che à elemento dell’ipotesi alternativa) à a sua volta incognita. La probabilità che il professore vada a protestare in biblioteca senza averne ragione puà essere piuttosto alta ma puà essere ridotta a parità di condizioni solo aumentando la numerosità campionaria.

Test statistico e sua distribuzione, zone di decisione

Lo stimatore ‘numero dei libri di statistica in un campione di libri’ puà essere usato come test statistico . In presenza di , ha una distribuzione Binomiale con parametri e : . Un numero di libri di statistica elevato ci porta a concludere che la proporzione non à diminuita. La soglia discriminante à il valore di , per il quale à uguale o eccede , cià significa che necessitiamo di e . Nelle tavole della funzione di ripartizione di troviamo . La regione critica di à quindi
, tale che
. à una variabile casuale discreta e quindi non raggiungiamo effettivamente il livello di significatività ma solo: . La zona di accettazione di à data da
, tale che
.

Estrazione di un campione e calcolo del test statistico

Estraiamo libri da quelli acquistati lo scorso anno e verifichiamo se si tratta di libri di statistica o no. Il numero di libri acquistati dall’università in un anno à piuttosto grande possiamo quindi estrarre in blocco e continuare a considerare il campione come casuale semplice. Nel nostro campione abbiamo libri di statistica che sarà contemporamente il nostro test statistico .

Decisione e interpretazione

ricade nella zona di accettazione di e quindi accettiamo l’ipotesi nulla. Sulla base del campione di numerosità e di un livello di significatività non possiamo dimostrare statisticamente che la proporzione di libri di statistica à ancora sopra al 10%. Il professore si puà lamentare presso l’amministrazione della biblioteca.

Potenza

Dati parametri del nostro test (, , e ), quale sarebbe la probabilità di non rifiutare l’ipotesi nulla se la vera proporzione di libri di statistica nella popolazione à ? Cerchiamo quindi la probabilità di commettere un errore di seconda specie sotto la condizione che : Nelle tavole della funzione di ripartizione per troviamo la probabilità . Nel caso in cui la proporzione salga al 20%, il test basato su un campione di , non rileva nel dei casi la differenza tra il vero valore e il valore ipotetico . Il professore ha un grosso rischio di andare a protestare senza averne ragione. La probabilità di un errore di seconda specie puà anche essere calcolcata con la funzione di potenza. Nella seguente tabella sono contenute le probailità e per diversi valori di nel test destro appena eseguito.

Ipotesi vera

Se per esempio la vera proporzione dei libri di statistica à pari a , non possono essere presenti libri di statistica nel campione, avvremmo quindi e accetteremmo l’ipotesi nulla. Il rifiuto dell’ipotesi nulla () à un evento impossibile. Avremmo quindi la seguente funzione di potenza (probabilità di un errore di prima specie): Se d’altra parte la vera proporzione dei libri di statistica à di , la potenza à calcolata come dove puà essere trovata nelle tavole della funzione di ripartizione come valore di per . à la probabilità di rifiutare correttamente l’ipotesi nulla, . La probabilità di un errore di seconda specie nel caso in cui à In questo caso l’ % di tutti i campioni di numerosità ci porteranno ad accettare l’ipotesi nulla e non rileveranno la differenza tra e . Nel seguente grafico mostriamo la funzione di potenza per il test destro utilizzato: , , e .

En s2 52 f 1.gif