Test sulla proporzione di una popolazione dicotomica
From MM*Stat International
English |
Português |
Français |
Español |
Italiano |
Nederlands |
Ipotizziamo di avere una popolazione dicotomica nella quale una proporzione incognita di elementi presenta una certa caratteristica mentre la restante parte della popolazione
ne à priva. Sul valore di
abbiamo formulato delle ipotesi (valore ipotetico
) e le vogliamo verificare con un test statistico e pià precisamente con un .
Nel seguito supponiamo che il test viene eseguito sulla base di un campione casuale semplice di numerosità
. Cià assicura che le variabili campionarie
, che assumono solo i valori
e
, siano variabili bernoulliane indipendenti a identicamente distribuite. Il livello di significatività viene indicato con
.
Contents
- 1 Formulazione delle ipotesi
- 2 Test statistico, sua distribuzione e zone di decisione
- 3 Estrazione di un campione e calcolo del test statistico
- 4 Decisione e interpretazione
- 5 Potenza
- 6 Formulazione dell’ipotesi
- 7 1ma alternativa
- 8 Test statistico e sua distribuzione; zone di decisione
- 9 Estrazione di un campione e calcolo del test statistico
- 10 Decisione e interpretazione
- 11 Potenza
- 12 2nda alternativa
- 13 Test statistico e sua distribuzione; zone di decisione
- 14 Estrazione del campione e calcolo del test statistico
- 15 Decisione e interpretazione
- 16 La probabilità di commettere un errore di seconda specie
- 17 Formulazione delle ipotesi
- 18 Test statistico e sua distribuzione, zone di decisione
- 19 Estrazione di un campione e calcolo del test statistico
- 20 Decisione e interpretazione
- 21 Potenza
Formulazione delle ipotesi
A seconda del problema potremmo utilizzare un test bilaterale o unilaterale:
1)
2)
3)
Per la scelta del tipo di test si rileggano le considerazioni effettuate per il test sulla media.
Test statistico, sua distribuzione e zone di decisione
La frequenza relativa campionaria costituisce il nostro stimatore per il parametro incognito della popolazione
. Lo stimatore
à la somma degli elementi che presentano il carattere di interesse ed à una variabile casuale che puà essere considerata come corrispondente alla frequenza campionaria in quanto si differenzia da essa solo per un fattore costante
pur contenendo tutte le informazioni interessanti del campione. Come già illustrato nei precedenti capitoli (see ???),
ha una distribuzione bernoulliana con parametri
e
:
. Dato che la numerosità
à già stata fissata dobbiamo solo determinare
. L’unica informazione disponibile su
à il suo valore ipotetico
. Supponiamo che
sia la vera frequenza relativa nella popolazione ovvero:
. Di conseguenza lo stimatore
diventa il nostro test statistico, che in presenza dell’ipotesi nulla
, ha una distribuzione di Bernoulli con parametri
e
:
La regione critica dell’ contiene tutti valori di
per i quali la probabilità cumulata à al massimo pari a
. I valori critici possono essere trovati dalle tavole della funzione di ripartizione
di
, come segue:
1)
Il valore critico inferiore
à il valore
di
, per il quale la funzione di ripartizione eccede appena il valore di
:
e
.
Il valore critico superiore
à il valore
per il quale la funzione di ripartizione raggiunge o eccede appena il valore
:
e
.
La regione critica di
à data da
, tale che
.
La zona di accettazione di
à data da
, tale che
.
2)
Il valore critico
à il valore assunto dal test per il quale la funzione di ripartizione raggiunge appena o eccede di poco il valore
:
e
.
La regione critica di
à
, tale che
.
La zona di accettazione di
à
, tale che
.
3)
Il valore critico
à quel valore assunto da
per il quale la funzione di ripartizione eccede appena il valore
:
e
.
La regione critica di
à
, tale che
.
La zona di accettazione di
à
, tale che
.
Dato che
à una variabile casuale discreta, il livello di significatività
non sarà normalmente esattamente raggiunto (in generale si tende a essere piuttosto prudenti e a considerare un valore pià piccolo).
Scegliendo una numerosità campionaria
abbastanza grande, possiamo standardizzare lo stimatore
e ottenere il test statistico
dove
à la deviazione standard dello stimatore
in presenza di
.
In presenza di
,
converge verso una distribuzione normale standardizzata (see ???). dato il livello di significatività possiamo trovare le soglie discriminanti nelle tavole della distribuzione normale standardizzata. Per i diversi test possiamo determianre le zone di decisione in modo analogo a quello visto nei test sulla media con varianza
incognita. Abbiamo
e quindi un’ipotesi sulla proporzione
corrisponde ad un’ipotesi sul valore atteso.
Estrazione di un campione e calcolo del test statistico
Estraendo un campione casuale semplice di numerosità otteniamo i valori
delle variabili casuali
, e possiamo calcolare il valore
del test statistico
.
Decisione e interpretazione
La decisione e l’interpretazione sono analoghe a quelle effettuate per il test su .
Potenza 
La potenza di un test basato su un campione abbastanza grande puà essere calcolata per tutti i tipi di test nello stesso modo che per il test sulla media della popolazione.
Se il test statistico à
dobbiamo utilizzare anche per il calcolo della funzione di potenza la per tutti i valori possibili
data una numerosità campionaria fissa
.
Per
abbiamo
1) per il test bilaterale
2) per il test destro
3) per il test sinistro
Le probabilità possono essere trovate nelle tavole della funzione di ripartizione della distribuzione binomiale.
Per
, la potenza corrisponde al livello di significatività effettivo
.
Supponiamo di aver una popolazione dicotomica di
studenti di economia nella quale una parte
à entusiasta per la statistica mentre la restante parte
non la sopporta. La variabile casuale
= {entusiasmo per la statistica} puà assumere solo i valori
per si e
per no.
Supponiamo che la metà degli studenti sia entusiasta per la statistica, ovvero ipotizziamo
. Dato il livello di significatività
e un campione casuale semplice di
vogliamo verificare se la vera proporzione di entusiasti nella popolazione corrisponde al nostro valore ipotetico:
In questo esempio interattivo si puà ripetere il test a piacere estraendo ogni volta un nuovo campione. In particolare si puà:
- mantenere il livello di significatività
e la numerosità campionaria
constanti,
- cambiare il livello di significatività
e lasciare la numerosità
invariata,
- cambiare
e mantenere
costante,
- cambiare sia
che
.
Uno dei compiti pià importanti di una banca à quello della valutazione della credibilità dei possibili creditori per evitare le perdite sui crediti emessi.
Gli amministratori della banca ABC vogliono restringere le condizioni di concessione dei crediti nel caso in cui la proporzione dei clienti finanziati che hanno difficoltà nel servizio dei crediti non si attesti al di sotto del %. Il dipartimento di statistica della banca deve quindi effettuare un test. In questo contesto la banca vuole minimizzare il rischio di modificare la sua politica di concessione crediti nel caso in cui la proporzione dei crediti a rischio sia effettivamente sopra al
%.
La variabile casuale
‘difficoltà nel rimborso crediti’ assume solo i valori 0 (no) o 1 (sà). La proporzione
dei creditori che hanno difficoltà nel rimborso à sconosciuta. La verifica viene effettuata con un test sulla proporzione di una popolazione dicotomica con valore ipotetico
.
Formulazione dell’ipotesi
In questo caso sono rilevanti le deviazioni dal valore ipotetico solo in una direzione e quindi effettuiamo un test unilaterale. Dato che la banca ABC vuole dimostrare che la sua attuale politica di concessione crediti à abbastanza severa, ovvero la proporzione di clienti con problemi di pagamento à inferiore al 20%, prendiamo questa ipotesi come ipotesi alternativa e otteniamo un test sinistro:
Nel considerare i possibili errori dobbiamo verificare che le nostre ipotesi corrispondano alle intenzioni degli amministratori della banca. Se rifutiamo l’ipotesi nulla incorriamo nell’errore di prima specie:
Se in base ai risultati del test accettiamo l’ipotesi nulla possiamo incorrere nell’errore di seconda specie:
L’errore di prima specie à il tipo di errore che gli amministratori vogliono ridurre. Cià avviene ponendo il livello di significatività pari a
.
L’errore di seconda specie non à molto grave per gli amministratori in quanto una revisione della politica creditizia anche se non necessaria non ha gravi ripercussioni sulla banca.
In base a queste ipotesi e dato il livello di significatività pari a
elaboriamo le seguenti due varianti del test.
Per l’esecuzione dei test estraiamo un campione casuale semplice di numerosità
da una popolazione di pià di
debitori. Non à ragionevole considerare l’estrazione con reinserimento: mantenedo un tasso di campionamento pari a
, possiamo considerare il campione come semplice anche senza effettuare il reinserimento.
1ma alternativa
Per tagliare i costi scegliamo di estrarre debitori. La condizione
à comunque rispettata.
Test statistico e sua distribuzione; zone di decisione
Lo stimatore ‘Numero di clienti con difficoltà di rimborso in un campione di numerosità pari a 30’ puà essere direttamente utilizzato come test statistico
. In presenza di
,
ha una distribuzione Binomiale
. Un valore di
piccolo ci porta a rifiutare l’ipotesi nulla. La soglia discriminante
à il valore assunto da
, per il quale
à uguale o maggiore di
, ovvero:
e
. Nelle tavole della funzione di ripartizione di
troviamo
, e otteniamo le seguenti zone di decisione:
Regione critica di
:
, con
.
Zona di accettazione di
:
, con
.
Dato che
à una variabile casuale discreta, non raggiungiamo effettivamente il dato livello di significatività ma solo:
.
Estrazione di un campione e calcolo del test statistico
Estraiamo debitori e verifichiamo le loro caratteristiche. Abbiamo che
hanno dimostrato di non essere affidabili e quindi il valore del test à:
.
Decisione e interpretazione
appartiene alla zona di accettazione di
, e quindi accettiamo l’ipotesi nulla. La proporzione osservata nel campione
à inferiore al nostro valore ipotetico
, ma la differenza tra i due valori non à interpretata come significativa dato
. Si ricordi che nel verificare un’ipotesi dato un determinato livello di significatività consideriamo aree (zone di accettazione e regione critica di
) e non la stima puntuale. Sulla base del nostro campione casuale di
non possiamo dimostrare statisticamente che la proporzione di debitori con difficoltà nel rimborso fosse inferiore al 20%. La banca ABC deve rivedere la sua politica creditizia.
Potenza
Avendo accettato l’ipotesi nulla possiamo commettere un errore di seconda specie nel caso in cui in realtà valga l’ipotesi alternativa: .
Calcoliamo ora la probabilità che in questo test sinistro (con
,
,
e
) non venga rifiutata l’ipotesi nulla nel caso in cui nella popolazione si abbia
. Per
à vera l’ipotesi alternativa e quindi la probabilità di un errore di seconda specie à:
Abbiamo
dove
si trova nelle tavole della funzione di ripartizione di
per
, ovvero
.
Nel caso in cui la vera proporzione sia
, l’
di tutti i campioni di numerosità
non rileveranno la differenza tra il vero parametro e il valore ipotetico
, inducendo la banca a rivedere la sua politica creditizia. La banca deve quindi effettuare modifiche non necessarie nella sua politica creditizia con una probabilità dello
. Anche se la probabilità di un errore à piuttosto alta non à da considerarsi un grosso problema per la banca in considerazione delle conseguenze di un errore di prima specie.
Accettando l’ipotesi nulla possiamo perà anche effettuare una scelta corretta se in realtà l’ipotesi nulla à vera
. Supponiamo per esempio che la vera proporzione dei debitori inaffidabili sia
. Il test utilizzato non viene modificato :
,
,
e
. In questo caso à vera l’ipotesi nulla e quindi la probabilità cercata diventa
Abbiamo
dove
puà essere trovato sulle tavole della funzione di ripartizione di
.
Possiamo ripetere entrambi i calcoli per diversi valori di
in base a quale ipotesi à vera per il singolo parametro abbiamo la probabilità
o
di fare una scelta giusta o piuttosto un errore.
![]() |
Ipotesi vera | ![]() |
![]() |
---|---|---|---|
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Nel seguente grafico troviamo la funzione di potenza per il test sinistro con ,
,
e
.
2nda alternativa
Tentiamo ora non solo di mantenere la probabilità di un errore di prima specie limtata a ma cerchiamo anche di ridurre il rischio di commettere un errore di seconda specie. Sappiamo che dato il livello di significatività possiamo ridurre la probabilità
di un errore di seconda specie aumentando la numerosità campionaria
e quindi decidiamo di estrarre un campione di
, comunque piccolo abbastanza per soddisfare la condizione
.
Test statistico e sua distribuzione; zone di decisione
Utilizziamo il test statistico che sotto l’ipotesi nulla converge verso una distribuzione normale standardizzata data la grandezza del campione. Per
troviamo nelle tavole della distribuzione normale standardizzata la soglia determinante
. Data la simmetria della distribuzione abbiamo
, quindi la nostra regione critica approssimativa di
à
e la zona di accettazione approssimativa di
à
.
Estrazione del campione e calcolo del test statistico
Estraiamo da una popolazione di ,
debitori e ne analizziamo le caratteristiche:
hanno avuto problemi di solvenza almeno una volta e quindi la nostra proporzione campionaria à
. Inserendo tale risultato nel test statistico abbiamo
Decisione e interpretazione
ricade nella zona di accettazione di
, e quindi accettiamo l’ipotesi nulla. In base al campione casuale estratto di
, non possiamo dimostrare statisticamente che la proporzione dei debitori con problemi nel rimborso à inferiore al 20%. La banca ABC dovrà quindi rivedere la sua politica creditizia.
La probabilità di commettere un errore di seconda specie
Accettando l’ipotesi nulla possiamo commettere un errore di secodna specie se in realtà l’ipotesi alternativa à vera: . Dobbiamo quindi chiederci quale sarebbe la probabilità che con questo test sinistro (invariato nei parametri) non accetteremmo l’ipotesi nulla nel caso in cui la proporzione nella popolazione fosse
, e quindi commettessimo un errore di seconda specie:
.
Dobbiamo innanzi tutto trovare la proporzione critica
corrispondente al valore critico calcolato utilizzando l’approssiamzione verso una distribuzione normale. Dato
ne deriva che
à la probabilità che lo stimatore
assuma un valore che ricade nella zona di accettazione dell’ipotesi nulla quando il vero parametro
appartiene all’ipotesi alternativa:
Per determinare tale probabilità dobbiamo effettuare una standardizzazione per poter utilizzare le tavole della distribuzione normale standardizzata sapendo che
e
:
Nelle tavole della distribuzione normale standardizzata troviamo
e quindi abbiamo
Questa probabilità di un errore di seconda specie
à molto inferiore a quella trovata nella prima alternativa grazie all’incremento della numerosità campionaria.
Un professore di statistica ha l’impressione che l’anno scorso, la biblioteca abbia acquistato molti meno libri di stastistica che negli anni precedenti. Negli anni passati la proporzione di libri di statistica era pià del 10%. Gli assistenti del professore devono quindi verificare tale impressione. Nell’interesse degli studenti il professore vuole limitare il rischio di non avere le prove per protestare nei confronti dell’amministrazione bibliotecaria.
La verifica avviene con un test sulla proporzione della popolazione avendo come valore ipotetico . La popolazione à dicotomica nel senso che i libri nuovi sono di statistica oppure no. Il livello di significatività à dello
e il campione estratto à di numerosità pari a
.
Formulazione delle ipotesi
In questo caso siamo interessati solo agli scostamenti della vera proporzione da quella ipotetica in una direzione e quindi utilizziamo un test unilaterale. L’affermazione del professore che la proporzione di libri di statistica à al massimo del 10% viene utilizzata come ipotesi nulla con l’obiettivo se possibile di rifiutarla. Abbiamo quindi il seguente test:
Per quanto riguarda gli errori bisogna considerare se la formulazione proposta corrisponde alle intenzioni del professore. Se rifiutiamo l’ipotesi nulla il possibile errore di prima specie ha il seguetne contenuto:
La probabilità massima di tale errore
, à data dal livello di signficatività
, che à stato posto pari a
. Quindi il rischio che il professore voleva minimizzare à stato limitato.
Se non rifiutiamo l’ipotesi nulla il contenuto del possibile errore di seconda specie à:
La probabilità che cià accada
, à sconsociuta in quanto la vera proporzione
(che à elemento dell’ipotesi alternativa) à a sua volta incognita. La probabilità che il professore vada a protestare in biblioteca senza averne ragione puà essere piuttosto alta ma puà essere ridotta a parità di condizioni solo aumentando la numerosità campionaria.
Test statistico e sua distribuzione, zone di decisione
Lo stimatore ‘numero dei libri di statistica in un campione di
libri’ puà essere usato come test statistico
. In presenza di
,
ha una distribuzione Binomiale con parametri
e
:
. Un numero di libri di statistica elevato ci porta a concludere che la proporzione non à diminuita. La soglia discriminante
à il valore di
, per il quale
à uguale o eccede
, cià significa che necessitiamo di
e
.
Nelle tavole della funzione di ripartizione di
troviamo
.
La regione critica di
à quindi
, tale che
.
à una variabile casuale discreta e quindi non raggiungiamo effettivamente il livello di significatività ma solo:
.
La zona di accettazione di
à data da
, tale che
.
Estrazione di un campione e calcolo del test statistico
Estraiamo libri da quelli acquistati lo scorso anno e verifichiamo se si tratta di libri di statistica o no. Il numero di libri acquistati dall’università in un anno à piuttosto grande possiamo quindi estrarre in blocco e continuare a considerare il campione come casuale semplice. Nel nostro campione abbiamo
libri di statistica che sarà contemporamente il nostro test statistico
.
Decisione e interpretazione
ricade nella zona di accettazione di
e quindi accettiamo l’ipotesi nulla. Sulla base del campione di numerosità
e di un livello di significatività
non possiamo dimostrare statisticamente che la proporzione di libri di statistica à ancora sopra al 10%. Il professore si puà lamentare presso l’amministrazione della biblioteca.
Potenza
Dati parametri del nostro test (,
,
e
), quale sarebbe la probabilità di non rifiutare l’ipotesi nulla se la vera proporzione di libri di statistica nella popolazione à
? Cerchiamo quindi la probabilità di commettere un errore di seconda specie sotto la condizione che
:
Nelle tavole della funzione di ripartizione per
troviamo la probabilità
. Nel caso in cui la proporzione salga al 20%, il test basato su un campione di
, non rileva nel
dei casi la differenza tra il vero valore
e il valore ipotetico
. Il professore ha un grosso rischio di andare a protestare senza averne ragione.
La probabilità di un errore di seconda specie puà anche essere calcolcata con la funzione di potenza. Nella seguente tabella sono contenute le probailità
e
per diversi valori di
nel test destro appena eseguito.
![]() |
Ipotesi vera | ![]() |
![]() |
---|---|---|---|
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Se per esempio la vera proporzione dei libri di statistica à pari a , non possono essere presenti libri di statistica nel campione, avvremmo quindi
e accetteremmo l’ipotesi nulla. Il rifiuto dell’ipotesi nulla (
) à un evento impossibile. Avremmo quindi la seguente funzione di potenza (probabilità di un errore di prima specie):
Se d’altra parte la vera proporzione dei libri di statistica à di
, la potenza à calcolata come
dove
puà essere trovata nelle tavole della funzione di ripartizione come valore di
per
.
à la probabilità di rifiutare correttamente l’ipotesi nulla,
. La probabilità di un errore di seconda specie nel caso in cui
à
In questo caso l’
% di tutti i campioni di numerosità
ci porteranno ad accettare l’ipotesi nulla e non rileveranno la differenza tra
e
.
Nel seguente grafico mostriamo la funzione di potenza per il test destro utilizzato:
,
,
e
.