Test sulla proporzione di una popolazione dicotomica

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Ipotizziamo di avere una popolazione dicotomica nella quale una proporzione incognita \pi di elementi presenta una certa caratteristica mentre la restante parte della popolazione 1-\pi ne à priva. Sul valore di \pi abbiamo formulato delle ipotesi (valore ipotetico \pi_0) e le vogliamo verificare con un test statistico e pià precisamente con un . Nel seguito supponiamo che il test viene eseguito sulla base di un campione casuale semplice di numerosità n. Cià assicura che le variabili campionarie X_{1}, \ldots ,
X_{n}, che assumono solo i valori 0 e 1, siano variabili bernoulliane indipendenti a identicamente distribuite. Il livello di significatività viene indicato con \alpha.

Formulazione delle ipotesi

A seconda del problema potremmo utilizzare un test bilaterale o unilaterale: 1) \text{H}_{0}: \pi = \pi_{0},
 \pi \neq \pi_{0}. 2) \text{H}_{0}: \pi \leq \pi_{0},
 \pi
> \pi_{0}. 3) \text{H}_{0}: \pi \geq \pi_{0},
 \pi < \pi_{0}. Per la scelta del tipo di test si rileggano le considerazioni effettuate per il test sulla media.

Test statistico, sua distribuzione e zone di decisione

La frequenza relativa campionaria \widehat{\pi}=\frac{X}{n}=\frac{1}{n}\sum_{i=1}^{n}\, X_{i} costituisce il nostro stimatore per il parametro incognito della popolazione \pi. Lo stimatoreX=\sum_{i=1}^{n}\, X_{i}, à la somma degli elementi che presentano il carattere di interesse ed à una variabile casuale che puà essere considerata come corrispondente alla frequenza campionaria in quanto si differenzia da essa solo per un fattore costante 1/n pur contenendo tutte le informazioni interessanti del campione. Come già illustrato nei precedenti capitoli (see ???), X ha una distribuzione bernoulliana con parametri n e \pi: X\thicksim B \left( n ;
\, \pi \right). Dato che la numerosità n à già stata fissata dobbiamo solo determinare \pi. L’unica informazione disponibile su \pi à il suo valore ipotetico \pi_{0}. Supponiamo che \pi_{0} sia la vera frequenza relativa nella popolazione ovvero: \pi=\pi_{0}. Di conseguenza lo stimatore X diventa il nostro test statistico, che in presenza dell’ipotesi nulla \text{H}_{0}, ha una distribuzione di Bernoulli con parametri n e \pi_{0}: V=X\overset{\text{H}_{0}}{\thicksim} B \left( n ;
\, \pi_{0} \right). La regione critica dell’ contiene tutti valori di V per i quali la probabilità cumulata à al massimo pari a \alpha. I valori critici possono essere trovati dalle tavole della funzione di ripartizione F_{B}\left( x \right) di B \left( n ; \, \pi_{0} \right), come segue: 1) Il valore critico inferiore c_{l} à il valore x di X, per il quale la funzione di ripartizione eccede appena il valore di \alpha /2: F_{B}\left( c_{l}-1\right)\leq\alpha /2 e F_{B}\left( c_{l}\right)>\alpha /2. Il valore critico superiore c_{u} à il valore x per il quale la funzione di ripartizione raggiunge o eccede appena il valore 1-\alpha /2: F_{B}\left( c_{u}-1\right)<1-\alpha /2 e F_{B}\left( c_{u}\right)\geq 1-\alpha /2. La regione critica di \text{H}_{0} à data da
\left\{ v \, | \, v < c_{l} \, \text{ o } \, v >
c_{u}\right\}, tale che
P\left( V<c_{l}|\pi_{0}\right)+P\left(
V>c_{u}|\pi_{0}\right)\leq\alpha. La zona di accettazione di \text{H}_{0} à data da
\left\{ v \, | \, c_{l}\leq v \leq c_{u} \right\}, tale che
P\left( c_{l} \leq V \leq c_{u}|\pi_{0}\right)\geq 1-\alpha. 2) Il valore critico c à il valore assunto dal test per il quale la funzione di ripartizione raggiunge appena o eccede di poco il valore 1-\alpha: F_{B}\left( c-1\right)<1-\alpha e F_{B}\left( c\right)\geq 1-\alpha. La regione critica di \text{H}_{0} à
\left\{ v \, | \,
v
> c\right\}, tale che
P\left( V>c|\pi_{0}\right)\leq\alpha. La zona di accettazione di \text{H}_{0} à
\left\{ v \,
| \, v \leq c\right\}, tale che
P\left( V\leq c|\pi_{0}\right)\geq 1-\alpha. 3) Il valore critico c à quel valore assunto da X per il quale la funzione di ripartizione eccede appena il valore \alpha: F_{B}\left( c-1\right)\leq \alpha e F_{B}\left( c\right)>
\alpha. La regione critica di \text{H}_{0} à
\left\{ v \, | \, v < c\right\}, tale che
P\left( V<c|\pi_{0}\right)\leq\alpha. La zona di accettazione di \text{H}_{0} à
\left\{ v \,
| \, v \geq c\right\}, tale che
P\left( V\geq c|\pi_{0}\right)\geq 1-\alpha. Dato che V=X à una variabile casuale discreta, il livello di significatività \alpha non sarà normalmente esattamente raggiunto (in generale si tende a essere piuttosto prudenti e a considerare un valore pià piccolo). Scegliendo una numerosità campionaria n abbastanza grande, possiamo standardizzare lo stimatore \widehat{\pi} e ottenere il test statistico V=\frac{\widehat{\pi}-\pi_{0}}{\sigma_{0}\left(
\widehat{\pi}\right)}=\frac{\widehat{\pi}-\pi_{0}}{\sqrt{\frac{\pi_{0}\,\left(
1-\pi_{0}\right)}{n}}}. dove \sigma_{0}\left( \widehat{\pi}\right) à la deviazione standard dello stimatore \widehat{\pi} in presenza di \text{H}_{0}. In presenza di \text{H}_{0}, V converge verso una distribuzione normale standardizzata (see ???). dato il livello di significatività possiamo trovare le soglie discriminanti nelle tavole della distribuzione normale standardizzata. Per i diversi test possiamo determianre le zone di decisione in modo analogo a quello visto nei test sulla media con varianza \sigma incognita. Abbiamo E\left( \widehat{\pi}\right)=\pi e quindi un’ipotesi sulla proporzione \pi corrisponde ad un’ipotesi sul valore atteso.

Estrazione di un campione e calcolo del test statistico

Estraendo un campione casuale semplice di numerosità n otteniamo i valori x_{1}, \ldots , x_{n} delle variabili casuali X_{1},
\ldots , X_{n}, e possiamo calcolare il valore v del test statistico V.

Decisione e interpretazione

La decisione e l’interpretazione sono analoghe a quelle effettuate per il test su \mu.

Potenza P\left( \pi\right)

La potenza di un test basato su un campione abbastanza grande V=\frac{\widehat{\pi}-\pi_{0}}{\sigma_{0}\left(
\widehat{\pi}\right)}=\frac{\widehat{\pi}-\pi_{0}}{\sqrt{\frac{\pi_{0}\,\left(
1-\pi_{0}\right)}{n}}} puà essere calcolata per tutti i tipi di test nello stesso modo che per il test sulla media della popolazione. Se il test statistico à V=X dobbiamo utilizzare anche per il calcolo della funzione di potenza la per tutti i valori possibili 0\leq\pi\leq 1 data una numerosità campionaria fissa n. Per P\left( \pi\right)=P\left( V=X\in \, \text{regione critica di H}_{0}\,|\,\pi \right) abbiamo 1) per il test bilaterale P\left( \pi\right)=P\left(
V<c_{l}\,|\,\pi \right)+P\left( V>c_{u}\,|\,\pi
\right)=P\left( V\leq c_{l}-1\,|\,\pi \right)+\left[1-
P\left( V\leq c_{u}\,|\,\pi \right)\right], 2) per il test destro P\left( \pi\right)=P\left( V>c\,|\,\pi
\right)=1- P\left( V\leq c\,|\,\pi \right), 3) per il test sinistro P\left( \pi\right)=P\left(
V<c\,|\,\pi \right)=P\left( V\leq c-1\,|\,\pi \right). Le probabilità possono essere trovate nelle tavole della funzione di ripartizione della distribuzione binomiale. Per \pi=\pi_{0}, la potenza corrisponde al livello di significatività effettivo \alpha_{a}. Supponiamo di aver una popolazione dicotomica di N=3\,250 studenti di economia nella quale una parte \pi à entusiasta per la statistica mentre la restante parte 1-\pi non la sopporta. La variabile casuale X = {entusiasmo per la statistica} puà assumere solo i valori X=1 per si e X=0 per no. Supponiamo che la metà degli studenti sia entusiasta per la statistica, ovvero ipotizziamo \pi_{0}=0.5. Dato il livello di significatività \alpha e un campione casuale semplice di n vogliamo verificare se la vera proporzione di entusiasti nella popolazione corrisponde al nostro valore ipotetico: \text{H}_{0}:
\pi = \pi_{0} = 0.5 \quad \text{ contro } \quad \text{H}_{1}: \pi
\neq \pi_{0}=0.5. In questo esempio interattivo si puà ripetere il test a piacere estraendo ogni volta un nuovo campione. In particolare si puà:

  • mantenere il livello di significatività \alpha e la numerosità campionaria n constanti,
  • cambiare il livello di significatività \alpha e lasciare la numerosità n invariata,
  • cambiare n e mantenere \alpha costante,
  • cambiare sia \alpha che n.

En s2 52 e 5.gif

Uno dei compiti pià importanti di una banca à quello della valutazione della credibilità dei possibili creditori per evitare le perdite sui crediti emessi. Gli amministratori della banca ABC vogliono restringere le condizioni di concessione dei crediti nel caso in cui la proporzione dei clienti finanziati che hanno difficoltà nel servizio dei crediti non si attesti al di sotto del 20%. Il dipartimento di statistica della banca deve quindi effettuare un test. In questo contesto la banca vuole minimizzare il rischio di modificare la sua politica di concessione crediti nel caso in cui la proporzione dei crediti a rischio sia effettivamente sopra al 20%. La variabile casuale X: ‘difficoltà nel rimborso crediti’ assume solo i valori 0 (no) o 1 (sà). La proporzione \pi dei creditori che hanno difficoltà nel rimborso à sconosciuta. La verifica viene effettuata con un test sulla proporzione di una popolazione dicotomica con valore ipotetico \pi_{0}=0.2.

Formulazione dell’ipotesi

In questo caso sono rilevanti le deviazioni dal valore ipotetico solo in una direzione e quindi effettuiamo un test unilaterale. Dato che la banca ABC vuole dimostrare che la sua attuale politica di concessione crediti à abbastanza severa, ovvero la proporzione di clienti con problemi di pagamento à inferiore al 20%, prendiamo questa ipotesi come ipotesi alternativa e otteniamo un test sinistro: \text{H}_{0}: \pi \geq \pi_{0}=0.2 \quad \text{contro } \quad \text{H}_{1}: \pi < \pi_{0}=0.2 Nel considerare i possibili errori dobbiamo verificare che le nostre ipotesi corrispondano alle intenzioni degli amministratori della banca. Se rifutiamo l’ipotesi nulla incorriamo nell’errore di prima specie: '\text{H}_{1}'|\text{H}_{0}=
\text{'la proporzione di clienti con difficoltà nel rimborso à }<0.2\text{; politica dei crediti invariata}\,|\,
\text{in realtà, i creditori inaffidabili sono }\geq 20
\text{ per cent; la politica creditizia deve essere modificata}. Se in base ai risultati del test accettiamo l’ipotesi nulla possiamo incorrere nell’errore di seconda specie: '\text{H}_{0}'|\text{H}_{1}=
\text{'la proporzione dei debitori co difficoltà di rimborso à }\geq 0.2
\text{; politica creditizia deve essere modificata}
\,|\,\text{in realtà i debitori problematici sono }\leq 20\%
\text{; non c'à bisogno di cambiare la politica della banca}. L’errore di prima specie à il tipo di errore che gli amministratori vogliono ridurre. Cià avviene ponendo il livello di significatività pari a 0.05. L’errore di seconda specie non à molto grave per gli amministratori in quanto una revisione della politica creditizia anche se non necessaria non ha gravi ripercussioni sulla banca. In base a queste ipotesi e dato il livello di significatività pari a \alpha=0,05 elaboriamo le seguenti due varianti del test. Per l’esecuzione dei test estraiamo un campione casuale semplice di numerosità n da una popolazione di pià di 10\,000 debitori. Non à ragionevole considerare l’estrazione con reinserimento: mantenedo un tasso di campionamento pari a n/N\leq 0.05, possiamo considerare il campione come semplice anche senza effettuare il reinserimento.

1ma alternativa

Per tagliare i costi scegliamo di estrarre n=30 debitori. La condizione n/N\leq 0.05 à comunque rispettata.

Test statistico e sua distribuzione; zone di decisione

Lo stimatore X: ‘Numero di clienti con difficoltà di rimborso in un campione di numerosità pari a 30’ puà essere direttamente utilizzato come test statistico V. In presenza di \text{H}_{0}, V=X ha una distribuzione Binomiale B\left(
30;\,0.2\right). Un valore di V piccolo ci porta a rifiutare l’ipotesi nulla. La soglia discriminante c à il valore assunto da X, per il quale F_{B}\left( x\right) à uguale o maggiore di \alpha, ovvero: F_{B}\left( c-1\right)\leq \alpha =0.05 e F_{B}\left( c\right)> \alpha =0.05. Nelle tavole della funzione di ripartizione di B\left( 30;\,0.2\right) troviamo c=3, e otteniamo le seguenti zone di decisione: Regione critica di \text{H}_{0}:
\left\{ v \, | \, v <
3\right\}=\left\{ 0,1,2\right\}, con
P\left( V<5|0.2\right)=0.0442. Zona di accettazione di \text{H}_{0}:
\left\{ v \, | \, v \geq
3\right\}=\left\{ 3,4,\ldots , 30\right\}, con
P\left( V\geq 3|0.02\right)=0.9558. Dato che V=X à una variabile casuale discreta, non raggiungiamo effettivamente il dato livello di significatività ma solo: \alpha_{a}=0.0442.

Estrazione di un campione e calcolo del test statistico

Estraiamo 30 debitori e verifichiamo le loro caratteristiche. Abbiamo che 5 hanno dimostrato di non essere affidabili e quindi il valore del test à: v=5.

Decisione e interpretazione

v=5 appartiene alla zona di accettazione di \text{H}_{0}, e quindi accettiamo l’ipotesi nulla. La proporzione osservata nel campione x/n=5/30=0.167 à inferiore al nostro valore ipotetico \pi_{0}=0.2, ma la differenza tra i due valori non à interpretata come significativa dato \alpha = 0.05. Si ricordi che nel verificare un’ipotesi dato un determinato livello di significatività consideriamo aree (zone di accettazione e regione critica di \text{H}_{0}) e non la stima puntuale. Sulla base del nostro campione casuale di n=30 non possiamo dimostrare statisticamente che la proporzione di debitori con difficoltà nel rimborso fosse inferiore al 20%. La banca ABC deve rivedere la sua politica creditizia.

Potenza

Avendo accettato l’ipotesi nulla possiamo commettere un errore di seconda specie nel caso in cui in realtà valga l’ipotesi alternativa: '\text{H}_{0}'|\text{H}_{1}. Calcoliamo ora la probabilità che in questo test sinistro (con \pi_{0}=0.2, n=30, \alpha=0.05 e c=3) non venga rifiutata l’ipotesi nulla nel caso in cui nella popolazione si abbia \pi=0.15. Per \pi=0.15 à vera l’ipotesi alternativa e quindi la probabilità di un errore di seconda specie à: \beta\left(
0.15\right)=P\left('\text{H}_{0}'|\text{H}_{1}\right)=P\left(
V=X\in \, \text{zona di accettazione di H}_{0}\,|\,
\pi=0.15\right)=P\left( V\geq3 \,|\, \pi=0.15\right). Abbiamo P\left( V\geq 3\,|\,\pi=0.15\right)=1-P\left(
V<3\,|\,\pi=0.15\right)=1-P\left( V\leq 2
\,|\,\pi=0.15\right)=1-0.1514=0.8486, dove P\left( V\leq
2\,|\,\pi=0.15\right) si trova nelle tavole della funzione di ripartizione di B\left( 30; \, 0.15\right) per c=2, ovvero F_{B}\left( 2\right). Nel caso in cui la vera proporzione sia \pi=0.15, l’84.86 \% di tutti i campioni di numerosità n=30 non rileveranno la differenza tra il vero parametro e il valore ipotetico \pi_{0}=0.20, inducendo la banca a rivedere la sua politica creditizia. La banca deve quindi effettuare modifiche non necessarie nella sua politica creditizia con una probabilità dello 0.8486. Anche se la probabilità di un errore à piuttosto alta non à da considerarsi un grosso problema per la banca in considerazione delle conseguenze di un errore di prima specie. Accettando l’ipotesi nulla possiamo perà anche effettuare una scelta corretta se in realtà l’ipotesi nulla à vera '\text{H}_{0}'|\text{H}_{0}. Supponiamo per esempio che la vera proporzione dei debitori inaffidabili sia \pi=0.25. Il test utilizzato non viene modificato :\pi_{0}=0.20, n=30, \alpha=0l05 e c=3. In questo caso à vera l’ipotesi nulla e quindi la probabilità cercata diventa P\left( V=X\in \,
\text{zona di accettazione di H}_{0}\,|\,
\pi=0.25\right)=P\left( V\geq3 \,|\,
\pi=0.25\right)=P\left(
'\text{H}_{0}'|\text{H}_{1}\right)=1-\alpha. Abbiamo P\left( V\geq 3\,|\,\pi=0.25\right)=1-P\left(
V<3\,|\,\pi=0.25\right)=1-P\left( V\leq 2
\,|\,\pi=0.25\right)=1-0.0106=0.9894, dove P\left( V\leq
2\,|\,\pi=0.25\right) puà essere trovato sulle tavole della funzione di ripartizione di B\left( 30; \, 0.25\right). Possiamo ripetere entrambi i calcoli per diversi valori di \pi in base a quale ipotesi à vera per il singolo parametro abbiamo la probabilità P\left( \pi\right) o P1-\left( \pi\right) di fare una scelta giusta o piuttosto un errore.

\pi Ipotesi vera P\left( \pi\right) 1-P\left(
\pi\right)
0 \text{H}_{1} 1=1-\beta 0=\beta
0.05 \text{H}_{1} 0.8122=1-\beta 0.1878=\beta
0.10 \text{H}_{1} 0.4114=1-\beta 0.5886=\beta
0.15 \text{H}_{1} 0.1514=1-\beta 0.8486=\beta
0.20 \text{H}_{0} 0.0442=\alpha_{a} 0.9558=1-\alpha_{a}
0.25 \text{H}_{0} 0.0106=\alpha 0.9894=1-\alpha
0.30 \text{H}_{0} 0.0021=\alpha 0.9979=1-\alpha
0.35 \text{H}_{0} 0.0003=\alpha 0.9997=1-\alpha
0.40 \text{H}_{0} 0=\alpha 1=1-\alpha

Nel seguente grafico troviamo la funzione di potenza per il test sinistro con \pi_{0}=0.20, n=30, \alpha=0l05 e c=3.

En s2 52 e 4.gif

2nda alternativa

Tentiamo ora non solo di mantenere la probabilità di un errore di prima specie limtata a \alpha=0.05 ma cerchiamo anche di ridurre il rischio di commettere un errore di seconda specie. Sappiamo che dato il livello di significatività possiamo ridurre la probabilità \beta di un errore di seconda specie aumentando la numerosità campionaria n e quindi decidiamo di estrarre un campione di n=350, comunque piccolo abbastanza per soddisfare la condizione n/N\leq 0.05.

Test statistico e sua distribuzione; zone di decisione

Utilizziamo il test statistico V=\frac{\widehat{\pi}-\pi_{0}}{\sigma_{0}\left(
\widehat{\pi}\right)}=\frac{\widehat{\pi}-\pi_{0}}{\sqrt{\frac{\pi_{0}\,\left(
1-\pi_{0}\right)}{n}}} che sotto l’ipotesi nulla converge verso una distribuzione normale standardizzata data la grandezza del campione. Per P\left( V\leq c\right)=1-\alpha=0.95 troviamo nelle tavole della distribuzione normale standardizzata la soglia determinante c=z_{0.95}=1.645. Data la simmetria della distribuzione abbiamo -c=-1.645, quindi la nostra regione critica approssimativa di \text{H}_{0} à \left\{ v \,|\, v < -1.645 \right\} e la zona di accettazione approssimativa di \text{H}_{0} à \left\{ v
\,|\, v \geq -1.645 \right\}.

Estrazione del campione e calcolo del test statistico

Estraiamo da una popolazione di 10\,000, 350 debitori e ne analizziamo le caratteristiche: 63 hanno avuto problemi di solvenza almeno una volta e quindi la nostra proporzione campionaria à 0.18. Inserendo tale risultato nel test statistico abbiamo v=\frac{0.18-0.2}{\sqrt{\frac{0.2\,\cdot\, 0.8
}{350}}}=-0.935.

Decisione e interpretazione

v=-.0935 ricade nella zona di accettazione di \text{H}_{0}, e quindi accettiamo l’ipotesi nulla. In base al campione casuale estratto di n=350, non possiamo dimostrare statisticamente che la proporzione dei debitori con problemi nel rimborso à inferiore al 20%. La banca ABC dovrà quindi rivedere la sua politica creditizia.

La probabilità di commettere un errore di seconda specie

Accettando l’ipotesi nulla possiamo commettere un errore di secodna specie se in realtà l’ipotesi alternativa à vera: '\text{H}_{0}'|\text{H}_{1}. Dobbiamo quindi chiederci quale sarebbe la probabilità che con questo test sinistro (invariato nei parametri) non accetteremmo l’ipotesi nulla nel caso in cui la proporzione nella popolazione fosse \pi=0.15, e quindi commettessimo un errore di seconda specie: P\left('\text{H}_{0}'|\text{H}_{1}\right)=\beta\left(
\pi=0.15\right). Dobbiamo innanzi tutto trovare la proporzione critica p_{c} corrispondente al valore critico calcolato utilizzando l’approssiamzione verso una distribuzione normale. Dato -c=\left( p_{c}-\pi_{0}\right)/\sigma\left(
\hat{\pi}\right) ne deriva che p_{c}=\pi_{0}-c \cdot
\sigma\left( \hat{\pi}\right)=0.2 - 1.645 \,\left(0.2 \cdot
0.8/350 \right)=0.1648. \beta\left( \pi=0.15\right) à la probabilità che lo stimatore \widehat{\pi} assuma un valore che ricade nella zona di accettazione dell’ipotesi nulla quando il vero parametro \pi appartiene all’ipotesi alternativa:\beta\left(
\pi=0.15\right)=P\left( \widehat{\pi}\geq p_{c}
\,|\,\pi=0.15\right)=P\left( \widehat{\pi}\geq 0.1648
\,|\,\pi=0.15\right). Per determinare tale probabilità dobbiamo effettuare una standardizzazione per poter utilizzare le tavole della distribuzione normale standardizzata sapendo che E\left(
\widehat{\pi}\right)=\pi=0.15 e Var\left(
\widehat{\pi}\right)=\pi\left( 1-\pi\right)/n=0.15 \cdot
0.85/350:\begin{align}
\beta\left( \pi=0.15\right)&=P\left(
\widehat{\pi}\geq p_{c} \,|\,\pi=0.15\right)=P\left(
\frac{\widehat{\pi}-\pi_{0}}{\sqrt{\frac{\pi_{0}\,\left(
1-\pi_{0}\right)}{n}}}\geq
\frac{p_{c}-\pi_{0}}{\sqrt{\frac{\pi_{0}\,\left(
1-\pi_{0}\right)}{n}}}\,|\,\pi=0.15 \right)\\&=P\left(
\frac{0.1648-0.15}{\sqrt{\frac{0.15\cdot 0.85}{350}}}
\,|\,\pi=0.15 \right)=P\left( V\geq0.775 \,|\,\pi=0.15\right).\end{align} Nelle tavole della distribuzione normale standardizzata troviamo P\left( V\leq 0.775 \right)=0.7808 e quindi abbiamo \beta\left( \pi=0.15\right)=1-P\left( V\leq 0.775
\right)=1-0.7808=0.2192. Questa probabilità di un errore di seconda specie \beta\left(
\pi=0.15\right) à molto inferiore a quella trovata nella prima alternativa grazie all’incremento della numerosità campionaria.

En s2 52 f 2.gif

Un professore di statistica ha l’impressione che l’anno scorso, la biblioteca abbia acquistato molti meno libri di stastistica che negli anni precedenti. Negli anni passati la proporzione di libri di statistica era pià del 10%. Gli assistenti del professore devono quindi verificare tale impressione. Nell’interesse degli studenti il professore vuole limitare il rischio di non avere le prove per protestare nei confronti dell’amministrazione bibliotecaria. La verifica avviene con un test sulla proporzione della popolazione avendo come valore ipotetico \pi_0 = 0,1. La popolazione à dicotomica nel senso che i libri nuovi sono di statistica oppure no. Il livello di significatività à dello 0.05 e il campione estratto à di numerosità pari a n=25 .

Formulazione delle ipotesi

In questo caso siamo interessati solo agli scostamenti della vera proporzione da quella ipotetica in una direzione e quindi utilizziamo un test unilaterale. L’affermazione del professore che la proporzione di libri di statistica à al massimo del 10% viene utilizzata come ipotesi nulla con l’obiettivo se possibile di rifiutarla. Abbiamo quindi il seguente test: \text{H}_{0}: \pi
\leq \pi_{0}=0.1 \quad \text{ contro } \quad\text{H}_{1}: \pi
> \pi_{0}=0.1. Per quanto riguarda gli errori bisogna considerare se la formulazione proposta corrisponde alle intenzioni del professore. Se rifiutiamo l’ipotesi nulla il possibile errore di prima specie ha il seguetne contenuto:'\text{H}_{1}'|\text{H}_{0}=\text{'la proporzione di libri di statistica non à diminuita'}|
\text{in realtà la proporzione à diminuita}. La probabilità massima di tale errore P\left(
'\text{H}_{1}'|\text{H}_{0}\right), à data dal livello di signficatività \alpha, che à stato posto pari a 0.05. Quindi il rischio che il professore voleva minimizzare à stato limitato. Se non rifiutiamo l’ipotesi nulla il contenuto del possibile errore di seconda specie à: '\text{H}_{0}'|\text{H}_{1}=\text{'la proporzione dei libri di statistica à diminuita'}|
\text{in realtà, la proporzione non à diminuita}. La probabilità che cià accada P\left( '\text{H}_{1}'|\text{H}_{0}\right)=\beta, à sconsociuta in quanto la vera proporzione \pi (che à elemento dell’ipotesi alternativa) à a sua volta incognita. La probabilità che il professore vada a protestare in biblioteca senza averne ragione puà essere piuttosto alta ma puà essere ridotta a parità di condizioni solo aumentando la numerosità campionaria.

Test statistico e sua distribuzione, zone di decisione

Lo stimatore X: ‘numero dei libri di statistica in un campione di 25 libri’ puà essere usato come test statistico V. In presenza di \text{H}_{0}, V=X ha una distribuzione Binomiale con parametri n=25 e \pi=0.1: V\thicksim
B\left( 25; \, 0.1\right). Un numero di libri di statistica elevato ci porta a concludere che la proporzione non à diminuita. La soglia discriminante c à il valore di X, per il quale F_{B}\left( c\right) à uguale o eccede 1-\alpha = 0.05, cià significa che necessitiamo di F_{B}\left( c-1\right)< 1-\alpha
=0.95 e F_{B}\left( c\right)\geq 1-\alpha =0.95. Nelle tavole della funzione di ripartizione di B\left( 25; \,
0.1\right) troviamo c=5. La regione critica di \text{H}_{0} à quindi
\left\{ v
\, | \, v
> 5\right\}=\left\{ 6,7,\ldots , 25\right\}, tale che
P\left( V>5|0.1\right)=0.0334=\alpha_{a}<\alpha. V=X à una variabile casuale discreta e quindi non raggiungiamo effettivamente il livello di significatività ma solo: \alpha_{a}=0.0334. La zona di accettazione di \text{H}_{0} à data da
\left\{ v \, | \, v \leq 5\right\}=\left\{
0,1,2,3,4,5\right\}, tale che
P\left( V\leq 5|0.01\right)=0.9666.

Estrazione di un campione e calcolo del test statistico

Estraiamo 25 libri da quelli acquistati lo scorso anno e verifichiamo se si tratta di libri di statistica o no. Il numero di libri acquistati dall’università in un anno à piuttosto grande possiamo quindi estrarre in blocco e continuare a considerare il campione come casuale semplice. Nel nostro campione abbiamo x=3 libri di statistica che sarà contemporamente il nostro test statistico v.

Decisione e interpretazione

v=3 ricade nella zona di accettazione di \text{H}_{0} e quindi accettiamo l’ipotesi nulla. Sulla base del campione di numerosità n=25 e di un livello di significatività \alpha=0.05 non possiamo dimostrare statisticamente che la proporzione di libri di statistica à ancora sopra al 10%. Il professore si puà lamentare presso l’amministrazione della biblioteca.

Potenza

Dati parametri del nostro test (\pi_{0}=0.1, n=25, \alpha=0.05 e c=5), quale sarebbe la probabilità di non rifiutare l’ipotesi nulla se la vera proporzione di libri di statistica nella popolazione à \pi=0.2? Cerchiamo quindi la probabilità di commettere un errore di seconda specie sotto la condizione che \pi=0.2: \beta\left(
0.2\right)=P\left('\text{H}_{0}'|\text{H}_{1}\right)=P\left(
V=X\in \, \text{zona di accettazione di H}_{0}\,|\,
\pi=0.2\right)=P\left( V\leq 5 \,|\, \pi=0.2\right). Nelle tavole della funzione di ripartizione per B\left( 25; \,
0.2\right) troviamo la probabilità 0.6167. Nel caso in cui la proporzione salga al 20%, il test basato su un campione di n=25, non rileva nel 61.67\% dei casi la differenza tra il vero valore \pi=0.2 e il valore ipotetico \pi_{0}=0.1. Il professore ha un grosso rischio di andare a protestare senza averne ragione. La probabilità di un errore di seconda specie puà anche essere calcolcata con la funzione di potenza. Nella seguente tabella sono contenute le probailità P\left( \pi\right) e 1-P\left(
\pi\right) per diversi valori di \pi nel test destro appena eseguito.

\pi Ipotesi vera P\left( \pi\right) 1-P\left(
\pi\right)
0 \text{H}_{0} 0=\alpha 1=1-\alpha
0.05 \text{H}_{0} 0.0012=\alpha 0.9988=1-\alpha
0.1 \text{H}_{0} 0.0334=\alpha_{a} 0.9666=1-\alpha_{a}
0.15 \text{H}_{1} 0.1615=1-\beta 0.8385=\beta
0.20 \text{H}_{1} 0.3833=1-\beta 0.6167=\beta
0.25 \text{H}_{1} 0.6217=1-\beta 0.3783=\beta
0.30 \text{H}_{1} 0.8065=1-\beta 0.1935=\beta
0.35 \text{H}_{1} 0.9174=1-\beta 0.0826=\beta
0.40 \text{H}_{1} 0.9706=1-\beta 0.0294=\beta
0.45 \text{H}_{1} 0.9914=1-\beta 0.0086=\beta
0.50 \text{H}_{1} 0.9980=1-\beta 0.0020=\beta
0.60 \text{H}_{1} 0.9999=1-\beta 0.0001=\beta
0.70 \text{H}_{1} 1=1-\beta 0=\beta

Se per esempio la vera proporzione dei libri di statistica à pari a \pi=0, non possono essere presenti libri di statistica nel campione, avvremmo quindi x=0 e accetteremmo l’ipotesi nulla. Il rifiuto dell’ipotesi nulla ('\text{H}_{1}') à un evento impossibile. Avremmo quindi la seguente funzione di potenza (probabilità di un errore di prima specie): P\left(0\right)=P\left( V=X\in \, 
\text{regione critica di H}_{0}\,|\,\pi=0\right)=P\left('\text{H}_{1}'\,|\,0\right)=0. Se d’altra parte la vera proporzione dei libri di statistica à di \pi=0.35, la potenza à calcolata come P\left(
0.35\right)=P\left( V>5\,|\,\pi=0.35\right)=1-P\left(
V\leq5\,|\,\pi=0.35\right)=1-0.0826=0.9174, dove P\left(
V\leq5\,|\,\pi=0.35\right) puà essere trovata nelle tavole della funzione di ripartizione come valore di B\left( 25; \,
0.2\right) per c=5. P\left( 0.35\right) à la probabilità di rifiutare correttamente l’ipotesi nulla, P\left('\text{H}_{1}'|\text{H}_{1}\right). La probabilità di un errore di seconda specie nel caso in cui \pi=0.35 à \beta\left( 0.35\right)=1-P\left(
0.35\right)=0.0826. In questo caso l’8.26 % di tutti i campioni di numerosità n=25 ci porteranno ad accettare l’ipotesi nulla e non rileveranno la differenza tra \pi=0.35 e \pi_{0}=0.10. Nel seguente grafico mostriamo la funzione di potenza per il test destro utilizzato: \pi_{0}=0.10, n=25, \alpha=0.05 e c=5.

En s2 52 f 1.gif