Intervallo di confidenza per la proporzione.

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Supponiamo di avere una popolazione dicotomica, nella quale la proporzione dei suoi elementi presenta il carattere A e la proporzione no. Vogliamo stimare un intervallo per , ovvero un intervallo di confidenza per il parametro incognito . Estraiamo un campione casuale di dimensione in modo tale che le variabili casuali siano indipendenti e identicamente distribuite con distribuzione bernoulliana (vedi il capitolo La distribuzione binomiale). à stato già dimostrato che la proporzione campionaria con speranza matematica e varianza à uno stimatore corretto e consistente di (vedi il capitolo proprietà degli stimatori). Dato che à piuttosto difficile costruire un intervallo di confidenza per campioni piccoli, consideriamo solo il caso in cui la dimensione campionaria à abbastanza grande in modo tale che la variabile casuale standardizzata converga verso una distribuzione standardizzata normale in base al teorema del limite centrale . Possiamo quindi concludere che vale dove à la probabilità della distribuzione normale standardizzata dato il coefficiente di confidenza . Essendo sconosciuta, anche la varianza dello stimatore à sconosciuta e quindi non possiamo costruire un intervallo di confidenza adatto per . Con i dati del campione dobbiamo stimare la varianza; inserendo in al posto del parametro sconosciuto , lo stimatore , otteniamo uno stimatore consistente per la varianza di : Da possiamo derivare il coefficiente di confidenza: Quindi per grandi campioni possiamo ottenere un intervallo di confidenza approssimativo: Per una buona approssimazione della distribuzione normale, la dimensione campionaria dev’essere , in ogni caso bisognerebbe sceglierla il pià grande possibile ovvero . Per un determinato campione otteniamo l’intervallo di stima dove à la frequenza relativa degli elementi con il carattere A e il loro numero assoluto nel campione.

  • Relativamente alla probabilità, l’intervallo di confidenza à simmetrico.
  • L’intervallo di confidenza à simmetrico rispetto alla stima puntuale. Gli estremi dell’intervallo hanno la stessa distanza da .
  • La lunghezza dell’intervallo e il margine d’errore sono variabili casuali, in quanto dipendono attraverso dai valori estratti nel campione.
  • La lunghezza dell’intervallo di confidenza e il margine d’errore dipendono dal coefficiente di confidenza e da .

Disponiamo di una popolazione di impiegati di una compagnia assicurativa. Su questa popolazione osserviamo le seguenti variabili dicotomiche:
= l’impiegato à a sua volta assicurato presso la Rischio-Spa
= appartiene all’organico impiegato sul campo
= ha una macchina di servizio
= à competente
Si tratta di variabili dicotomiche che possono solo assumere i valori 1 o 0. 1 significa “sà” e 0 significa “no”. La proporzione degli elementi che presentano tali caratteri nella popolazione à per tutte le variabili sconosciuta. Stimare sulla base di un campione casuale semplice una stima puntuale e per intervallo di . Si consideri solo il caso della determinazione di un intervallo approssimativo per utilizzando una distribuzione normale. Con questo esempio si offre la possibilità di analizzare i cambiamenti nella lunghezza dell’intervallo di confidenza dovuti al coefficiente di confidenza e alla dimensione del campione. Si suggerisce di cambiare solo una grandezza alla volta mantenendo l’altra costante. Si prega di stabilire i seguenti punti

  • la variabile da analizzare
  • la dimensione campionaria
  • il coefficiente di confidenza (come numero decimale, per esempio 0,95)

Risultati:
Come risultato di questo esempio interattivo otteniamo

  1. l’intervallo di confidenza in corrispondenza del coefficiente di confidenza scelto

Utilizzando la stessa variabile una seconda volta con un altro coefficiente di confidenza o dimensione campionaria, vengono mostrati nel grafico anche i risultati precedenti come confronto.

En s2 45 f 4.gif

Il cosidetto “problema della domenica”
Il segretario generale del partito F vuol sapere esattamente quali sono le possibilità che il suo partito superi la quota minima del 5% per poter essere rappresentato in Parlamento alle prossime elezioni. Viene quindi incaricato un istituto di sondaggi di svolgere un indagine. L’istituto sceglie casualmente cittadini e pone loro la seguente domanda:
“Se la prossima domenica ci fossero le elezioni, per quale partito voterebbe?”
Nel sondaggio 103 cittadini voterebbero per il partito F. Per il coefficiente di confidenza determiniamo un intervallo di confidenza per la proporzione della popolazione che voterebbe il partito F. Da un punto di vista statistico consideriamo i seguenti punti:

  • Per assicurarsi che un cittadino già intervistato non venga scelto nuovamente, usiamo un modello di estrazione del campione senza reinserimento. Abbiamo quindi un campione casuale con estrazione in blocco.
  • Dato che la popolazione à grande, la modalità di estrazione non influenza la distribuzione della popolazione. Possiamo quindi considerare il campione come casuale semplice.
  • L’interesse à focalizzato sul risultato del partito F e quindi definiamo l’evento come “voto per F” e l’evento complementare come “non voto per F”. Ci sono quindi solo due possibili risultati. La popolazione à dicotomica. La proporzione dei cittadini che votano F à .
  • Dato che abbiamo estratto un grosso campione (), possiamo costruire un intervallo di confidenza approssimato con approssimativamente il coefficiente di confidenza . Dalle tavole della funzione di ripartizione della distribuzione normale standardizzata troviamo per il valore

Con i risultati del campione troviamo una stima per la proporzione di e un intervallo di confidenza L’intervallo [4,18 % ; 6,12 %] contiene il limite del 5 % per poter entrare in Parlamento. Non possiamo quindi affermare con sicurezza, con un coefficiente di confidenza del 95 %, che il partito F sarà rappresentato in Parlamento alle prossime elezioni. La varianza dello stimatore à sconosciuta in quanto il parametro à sconosciuto; deve quindi essere stimata con i dati del campione e sostituendo con lo stimatore . possiamo giustificare questa sostituzione con il fatto che il valore atteso di converge verso per grandi campioni: Possiamo dimostrarlo come segue. Abbiamo inizialmente Uilizzando le regole per il calcolo del valore atteso abbiamo . Quindi . , il numero di elementi che presentano il carattere nel campione ha una distribuzione binomiale con e . Di conseguenza . Utilizziamo questi risultati per ottenere Per converge verso , e