Determinazione della dimensione campionaria

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Normalmente la lunghezza dell’intervallo di confidenza dipende oltre che dal coefficiente di confidenza anche dalla dimensione campionaria . Se si aumenta il coefficiente di confidenza mantenendo la dimensione campionaria costante otteniamo a parità di condizioni un intervallo pià lungo. Abbiamo quindi da una parte una maggiore sicurezza che il valore incognito del parametro ricada nell’intervallo e dall’altra una maggiore insicurezza sulla sua localizzazione. Se manteniamo il coefficiente di confidenza costante ma aumentiamo la dimensione campionaria otteniamo un intervallo di confidenza pià corto, aumentiamo quindi la precisione. Chiaramente se aumentiamo la numerosità abbiamo a disposizione pià informazioni sulla popolazione. Determinando il coefficiente di confidenza e la numerosità del campione possiamo quindi ottenere l’intervallo di confidenza desiderato. Finora abbiamo ipotizzato che per la determinazione dell’intervallo di confidenza per il parametro incognito , il coefficiente di confidenza e la dimensione campionaria siano già dati. Nella pratica tuttavia diobbiamo determinare un intervallo di confidenza dati il coefficiente di confidenza e la lunghezza dell’intervallo (dato cioà un certo livello di sicurezza e di precisione). Di conseguenza ci domandiamo: quale dimensione campionaria dobbiamo scegliere affinchà le due condizioni poste siano soddisfatte? Il problema verrà illustrato nei casi di intervalli di confidenza per la media e la proporzione . Ci limitiamo all’esame di campioni casuali semplici, o al caso in cui la popolazione sia abbastanza grande per poter trascurare le modalità di estrazione del campione.

(a) Intervallo di confidenza per

Ipotizziamo di avere una popolazione con distribuzione normale.
Una determinazione esatta della dimensione campionaria à solo possibile se la lunghezza dell’intervallo di confidenza non à una variabile casuale, ovvero non dipende dalle osservazioni campionarie. Cià à possibile solo se la varianza della popolazione à conosciuta o abbiamo valide ipotesi su . In questo caso la lunghezza dell’intervallo per dipende dal coefficiente di confidenza e dalla dimensione campionaria ma non dai risultati campionari. Dati la lunghezza (o il margine d’errore ) e il coefficiente di confidenza , la dimensione campionaria à il numero pià piccolo che soddisfa la condizione Per ottenere un intervallo di confidenza con la lunghezza richiesta e il coefficiente di confidenza , deve essere grande quanto il valore trovato. Se la varianza à incognita la lunghezza dell’intervallo per dipende, attravero la deviazione standard , anche dai valori osservati nel campione. Inoltre per trovare nelle tavole della distribuzione t di Student, abbiamo bisogno oltre a anche dei gradi di libertà e quindi della dimensione campionaria. Per determinare la dimensione campionaria dati la lunghezza e il coefficiente di confidenza , sono state sviluppate delle procedure sequenziali.

(b) Intervallo di confidenza per

Se la distribuzione converge verso una normale, la lunghezza dell’intervallo di confidenza per à data da Trasformando la formula otteniamo: Tuttavia se dobbiamo ottenere una determinata lunghezza dell’intervallo o un determinato margine d’errore , dato un determinato coefficiente di confidenza , incontriamo diverse difficoltà:
La dimensione campionaria incognita dipende attraverso dalle osservazioni nel campione, che tuttavia non sono ancora disponibili in quanto dobbiamo ancora decidere la numerosità campionaria! In generale disponiamo di due possibilità per stimare :

  • sostituiamo con il risultato di un pre-campionamento .
  • utilizziamo un , per il quale il prodotto à massimo. Cià à vero per e . Consideriamo quindi il caso pià sfavorevole in quato per ogni altro valore di otterremmo una numerosità inferiore. Di conseguenza la dimensione campionaria desiderata à il numero pià piccolo per il quale la seguente condizione à soddisfatta.

Per determinare un intervallo di confidenza con una determinata lunghezza e a un determinato coefficiente di confidenza , deve essere grande quanto il valore trovato. Bisogna inoltre considerare che la dimensione campionaria viene sempre scelta grande a sufficienza affichà le condizioni per una convergenza verso una distribuzione normale siano soddisfatte. Abbiamo una popolazione di dipendenti di una compagnia assicurativa sulla quale osserviamo le seguenti variabili:
= provvigione annuale in DM
= numero di polizze concluse in un mese
= numero di giorni di malattia all’anno
= ore di lavoro settimanali
Ipotizziamo che le variabili nella popolazione abbiano una distribuzione normale. La media e la varianza delle variabili sono incognite. In base ad un’esperienza pluriennale nel campo assicurativo possiamo tuttavia ipotizzare le seguenti varianze delle variabili:

Quanto grande deve essere la dimensione campionaria per ottenere un intervallo di confidenza per la media incognita dati il coefficiente di confidenza ? Con questo esempio si ha la possibilità di osservare l’effetto della dimensione campionaria sulla lunghezza dell’intervallo e sul coefficiente di confidenza. Si consiglia di variare solo una delle due grandezze mantenendo l’altra costante. Si prega di specificare i seguenti punti

  • le variabili da analizzare
  • la lunghezza dell’intervallo di confidenza
  • il coefficiente di confidenza (come numero decimale es:0,95)

Il segretario generale di un piccolo partito vuole sapere se alle prossime elezioni il suo partito passerà il limite del 5% per poter essere rappresentato in parlamento. Organizza quindi un appuntamento con uno statistico per discutere un possibile incarico di sondaggio degli elettori. Nel colloquio lo statistico evidenzia i seguenti temi:

  • Per trovare la proporzione esatta di elettori che votano per il partito scelto, bisognerebbe intervistare tutta la popolazione.
  • La proporzione di voti rilevata nel campione ci permette di formulare solo delle ipotesi sulla proporzione nella popolazione.
  • Un intervallo di confidenza ci permette di formulare ipotesi con un determinato grado di sicurezza (lunghezza dell’intervallo, coefficiente di confidenza).
  • La lunghezza e il coefficiente di confidenza possono essere determinati dal segretario generale del partito in questione.
  • Tanto pià piccolo (corto) à l’intervallo e quanto pià grande à il coefficiente di confidenza, tanto pià grande à la dimensione necessaria.

In base alle preferenze del segretario generale, lo statistico calcola la dimensione campionaria necessaria con la formula Dato che à incognito, lo statistico utilizza, in base alle ipotesi del segretario generale, la proporzione di voti pià grande immaginabile: 10 %. In questo caso, lo statistico “va sul sicuro” in quato la dimensione calcolata sulla base di una proporzione del 10% à grande abbastanza (pià del necessario) per ottenere la lunghezza e il coefficiente di confidenza richiesti, se à inferiore a 10 %. La Bimmelbahn Spa vuole analizzare la puntualità dei suoi treni nel presente quadrimestre, la durata media dei ritardi e la proporzione dei treni puntuali. In ogni caso deve essere determinato un intervallo di confidenza sulla base di un campione casuale. 1. Domanda:
Quale dimensione campionaria deve essere scelta per ottenere un intervallo di confidenza per la media dei ritardi dato il coefficiente di confidenza e un errore di stima di 30 min ?
Ipotizziamo che la variabile casuale = {durata del ritardo} à normalmente distribuita con media e varianza . Cerchiamo quindi un intervallo di confidenza per . Nelle tavole della distribuzione normale troviamo per la data probabilità di 0,90 il valore . Dato che à anch’essa incognita, facciamo riferimento allo stesso quadrimestre dell’anno precedente, per il quale abbiamo a disposizione il ritardo di tutti i treni e ipotizziamo che la deviazione standard dell’anno scorso sia la stessa di quest’anno. Quindi la dimensione campionaria necessaria à La numerosità campionaria deve essere almeno 15, per poter ottenere un intervallo di confidenza che soddisfi le condizioni di precisione e il coefficiente di confidenza dato.
2. Domanda:
Quale dimensione campionaria dobbiamo scegliere per ottenere un intervallo di confidenza per la proporzione incognita dato il coefficiente di confidenza e un errore di stima di 0,05 ?
Se la dimensione campionaria viene in ogni caso scelta cosà grande che la distribuzione converge verso una normale (regola generale: ), troviamo nelle tavole della distribuzione normale standardizzata per il coefficiente di confidenza i valori . dato che nella formula per calcolare à incognita, potremmo procedere come nella domanda 1 e ricorrere ai dati dell’anno scorso, nel quale la proporzione dei treni puntuali à stata . Tuttavia, quest’anno ci sono stati diversi lavori in corso sulle linee ferroviarie e spesso à stato brutto tempo; non possiamo quindi ipotizzare che tale proporzione sia valida anche quest’anno. Per trovare la numerosità campionaria ci poniamo nel caso pià sfavorevole . Ci poniamo quindi sempre nella condizione pià sicura, in quanto per ogni altro valore di otterremmo una dimensione campionaria inferiore. Inserendo i valori otteniamo: Per rispettare le condizioni di precisione poste e il coefficiente di confidenza dato per l’intervallo di confidenza per la proporzione incognita di treni puntuali, necessitiamo di una numerosità di almeno .