Test de la proportion dans une population binaire

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Supposons qu’une variable alétaoire ne soit susceptible de prendre que deux valeurs. La population des unités statistiques sur laquelle on peut observer est dite binaire (relativement à ). Si est une variable indicatrice portant sur la présence ou l’absence d’une caract éristique, nous pouvons faire une inférence statistique à propos de la proportion d’éléments de la population qui présentent la caractéristqiue d’intérêt () ou ne la possèdent pas (). Comme dans les autres tests paramétriques, l’inférence fait intervenir une valeur hypothétique, notée ici , une proportion hypothétique de la population présentant la caracté ristique d’intérêt. Nous allons définir une procédure de test statistique basée sur un échantillon aléatoire simple de taille . Ceci garantit que les variables indicatrices composant l’échantillon , de valeurs égales ou , sont indépendnates et identiquement distribuées elon une loi de Bernoulli. Le niveau d’un test sera noté .

Hypothèses

Selon le problème posé, on effectue des tests unilatères ou bilat ères : 1) 2) 3) Les remarques faites sur le choix des hypothèses lors du test s’une esp érance restent valides ici.

La statistqiue de test, sa loi; régions de décision

La proportion empirique est un estimateur correct du paramètre . La fonction d’é chantillon simple transformation de (), contient toute l’information importante, puisqu’elle fournit le nombre d’ éléments de l’échantillon qui possèdent la caracté ristique d’intérêt. Ainsi qu’il a déjà été vu (cf. ???), est de loi binômiale de paramètres et : . Comme est choisi une fois pour toute par le décideur, permet de spécifier complètement la loi binômiale en question. En suivant la logique commune à toutes les procédures de test statistique, nous commen_ons par déterminer la loi de la statistique de test lorsque la proportion hypothétique est celle effectivement présente dans la population : alors, la fonction d’échantillon , notre statistique de test, est de loi Binômiale de paramètres et sous : La région de rejet de l’hypothèse nulle est constituée des valeurs de pour lesquelles la fonction de répartition prend des valeurs supérieures au niveau . Les valeurs critique peuvent être lues dans la table de la fonction de répartitionf de la loi , ce qui donne : 1) La valeur critique inférieure est la réalisation de , en laquelle la fonction de répartition dépasse la valeur  : and . La valeur critique supérieure est l’argument de la fonction de répartition qui fournit une probabilité supérieure ou é gale à : and . La région de rejet de s’écrit , avec . Pour la région d’acceptation de nous avons : , avec . 2) La valeur critique est la plus petite réalisation de la statistique de test pour laquelle la fonction de répartition prend une valeur ai moins égale à : et . La région de rejet de s’écrit , avec . La région d’acceptation de s’écrit, avec . 3) La valeur critique est déterminée par la plus petite ré alisation de la statistique de test pour laquelle la fonction de ré partition prend une valeur au moins églae à : and . La région de rejet de est , avec . La région d’acceptation de s’écrit , avec . Comme est une variable aléatoire discrète, le niveau de signification n’est en général pas pleinement utilisé (saturé). Le niveau effectif n’est égal à la valeur que par hadard et sera en général plus faible. Les test présentés ci-dessus sont conservatifs en ce qui concerne la probabilité d’erreur de type I. Si la taille d’échantillon est suffisamment élevée, l’estimateur peut être standardisé poiur donner une statistique de test : Ici, est l’écart-type de l’estimateur sous . Sous , est approximativement distribuée selon une loi normale standard. Les valeurs critique à niveau fixé se d éduisent de la table des quantiles de la loi normale standard. Les ré gions de décisions pour des tests unilatères ou bilatère sont d éterminées de le même manière que celles correspondant au test approché de l’espérance à écart-type connu : une hypothèse portant sur une proportion est un ehypothèse à propos d’une espérance (de l’espérance d’une variable indicatrice, plus précisément) : .

Echantillonnage et calcul de la statistique de test

Une fois qu’un échantillon de taille a été tiré, nous disposons des réalisations des variables d’é chantillon , et nous pouvons calculer la valeur que prend la statistique de test sur notre échantillon.

Décision statistique et interprétation

Cf. remarque sur le test d’un espérance .

Puissance

La puissance du test sur grand échantillon basé sur : peut être calculée explicitement pour toutes les configurations de test de façon nalogue à ce qui a été fait pour le calcul de la puissance d’un test sur l’espérance. La puissance du test exact basé sur est calclée en utilisant la loi binômiale ( puisqu’il s’agit de la loi de la statistique de test) pour tout à fixé. De la définition on déduit 1) pour le test bilatère 2) pour le test à droite 3)pour le test à gauche Les probabilités peuvent être lues dans la table de la fonction de r épartition de la loi binômiale. Pour , la puissance est égale au niveauu effectif . Considérons une “population dichotomique” de étudiants en économie, dont une proportion inconnue est enthousiasmée par la Statistique. On définit le variable aléatoire comme prenant la valeur 1 si l’individu considéré (étudiant en économie) apprécie la Statistique, et zeo sinon. On pense que la moitié des étudiants apprécie l’étude des concepts statistiques (la proportion hypothétique est donc ) et in souhaite tester statistiquement cette hypothèse informelle, au niveau de significativité , sur la foi d’un échantillon aléatoire de taille : Dans l’exemple interactif suivant, il vous sera possible d’effectuer ce test autant de fois que vous le souhaitez. Un nouvel échantillon est tiré á chaque nouvelle exécution. Vous pouvez spécifier de nouvelles valeurs de et à chaque fois. Nous vous recommandons de lancer l’exemple plusieurs fois pour chacune des combinaisons suivantes :

  • à niveau de significativité et taille d’échantillon constants;
  • le niveau de significativité varie à taille d’échantillon constante;
  • varie à niveau d significativité constant;
  • le niveau de significativité et la taille d’échantillon varient tous deux.

Fr s2 52 e 5.gif

L’une des raisons d’être des intermédiaires financiers et leur aptitude à fournir un diagnostic pertinent de la santé financière des emprunteurs eventuels. Les dirigeants de la banque ABC décident qu’il sera nécessaire d’introduire une procdure étendue de contrôle du crédit si la proportion de clients avec des irrgularités de paiement n’est pas inérieure à pour cent. Ils demandent au statisticien maison de faire en sorte que la probabilité de ne pas adopter la nouvelle méthode alors que la proportion inconnue est supérieure à 20 soit faible (i.e. de prendre un faibke). La variable aléatoire ‘événement de crédit’ ou ‘problèmes de remboursement’ est définie comme une variable indicatrice prenant la valeur zero (’non’) ou un (’oui’). La proportion réelle de clients ayant des problèmes pour rembourser leur crédit est inconnue. La valeur hypothétique sur laquelle sera basé le test effectué est égale à .

Hypothèses

On s’intŕesse aux ćarts par rapport à la valeur hypothétique dans une seule direction; on effectuera donc un test unilatère. Comme la banque espère démontrer que le procdé d’évaluation utilisé jusqu’ici est suffisant, i.e. que la proportion de débiteurs dont les remboursements sont irrréguliers est inférieure à pour cent, cette assertion est choisie comme hypothèse alternative : Les propriétés de ce test en ce qui concerne les exigences des dirigeants de la banque doivent être évalués afin de s’assurer que le test effectué permettra de rpondre à leur question. L’erreur de type I, qui est effectué si l’hypothèse nulle est rejetée à tort s’écrit : Si la conclusion du test est de ne pas rejeter l’hypothèse nulle, il y a possibilité d’erreur de type II : L’erreur de type I définit le risque que les dirigeants de la banque ABC veulent contrôler. Le risque maximal toléré est égal au niveau de significativité, fixé à , valeur suffisamment faible. Un erreur de type II se traduit ici par l’introduction couteuse d’une nouvelle méthode d’octroi de crédit, sans qu’il y en ait vraiment besoin. L’impact de ce sc�nario sur la profitabilité de la banque est difficile à estimer, car le nouveau procédé induira de nouveaux prix du crédit, et don cde nouveaux coûts savings. Les deux alternatives suivantes sont basées sur le test ci-dessus. Un échantillon aléatoire est tiré sans remise dans la population de débiteurs de la banque. Si , on peut considérer qu’il s’agit d’un sondage alátoire simple, c’est-à-dire négliger le fait qu’il n’y ait pas remise.

1ère possibilité

Afin de limiter les coûts, une taille d’échantillon de est adoptée. La condition théorique est donc vérifiée.

Statistique de test et sa loi; zones de décision

L’estimateur ‘Nombre de clients dont les remboursements sont irréguliers sur les 30 clients tirés’ peut être directement utilisé comme statistique de test . Sous , est de loi binômiale . Une valeur faible de plaide en faveur de l’. La valeur critique est la plus petitr réalisation de , telle que soit supérieure où égale à , i.e. elle doit satisfaire : et . Dans la table de la fonction de répartition de la loi on lit , et on en déduit les ensembles de décision suivant : Zone de rejet de H:, avec . Zone de non-rejet de H:, avec . Comme est une variable aléatoire discrète, le niveau de significativité n’est pas atteint : i.e.

Echantillonnage et calcul de la statistique de test

La situation de débiteurs sélectionnés au hasard est examinée de façon poussée quant à la régularité de leurs paiements. Supposons que, parmi ceux-ci, n’aient pas toujours rempli leurs obligations contractuelles : .

Décisions et interprétation

Comme appartient à la zone de non-rejet de H, l’hypothèse nulle n’est pas rejetée. Bien que la proportion échantillonnale soit inférieure à la valeur limite hypothétique , ce qui devrait favoriser H, nous ne pouvons conclure que est fausse : au niveau de significativité , on ne peut considérer que l’écart observé est statistiquement significatif. En d’autres termes : Il est beaucoup trop probable que la différence observée provienne de la variabilité d’échantillonnage due à la petite taille de l’échantillon pour pouvoir rejeter l’hypothèse nulle. Il est important de noter que ce n’est pas la valeur ponctuelle prise par l’estimateur qui conduit au non-rejet ou au rejet de l’hypothèse nulle, mais un intervalle prenant en compte le caractère aléatoire de l’estimateur (i.e. l’écart esr comparé à un critère statistique approprié, qui permet de déterminer ce que signifier un écart statistique important ou négligeable). En se basant sur un échantillon aléatoire de taille et un niveau de significativité , on n’est pas en mesure d’établir statistiquement que la proportion de débiteurs à problèmes est significativement inférieure à pour cent. En conséquent de quoi , la banque ABC doit revoir et améliorer son procédé d’octroi de crédit.

Puissance

N’ayant pas rejeté l’hypothèse nulel, nous ne pouvons écarter la possibilité d’avoir commis une erreur de type II, consistant à rejeter à tort l’ : . Calculons la probabilité d’erreur de type II pour une valeur de la proportion égale à  : Quelle est ma probabilité de ne pas rejeter l’hypothèse nulle dans un test unilatère gauche pour , , et , sachant que la la vraie valeur de la proportion inconnue et donc que l’hypothèse nulle est fausse ? Nous calculons est lue dans la table de la fonction de répartition de la loi pour , c’est-à-dire . Interprétation : Sachant que la vraie valeur de la proportion est , de tous les échantillons de taille ne pourront permettre de choisir entre la vraie valeur du paramètre et la valeur hypothétique , ce qui conduit la banque à effectuer des changements sous-optimaux de la procédure d’octroi de crédit avec une probabilité égale à . En décidant de contrôler le risque d’erreur de type I maximal, la banque accepte des probabilité d’erreur de type II de la même magnitude; les statsiticiens peuvent fournir aux dirigeants des graphes de fonction puissance pour toute valeur de la proportion inconnue . Il est bien entendu également possible que le non-rejet de l’hypothèse nulle soit la bonne décision : . Supposons, par exemple, que la vraie proportion de débiteurs à problèmes soit . La probabilité de ne pas rejeter l’hypothèse nulle et donc de prendre (sans le savoir) la bonne décision étant donnée la façon dont le problème est posé (test unilatéral gauche , , et donc ) est Nous avons peut être lu dans la table de la loi comme probabilité d’obtenir une valeur inférieure ou égale à , i.e. . Ces calculs peuvent être effectués pour toute valeur du paramêtre se situant dans l’espace des paramètres (ici : ). Selon l’hypothèse retenue pour le paramètre, la corube puissance ou renvoie la probabilité de prendre une bonne décision de type I ou de type II.

Hypothèse vraie

Le graphique suivant met en évidence le graphe de la courbe puissance pour de paramètres , , et .

Fr s2 52 e 4.gif

2ème possibilité

A présent, le statisticien essaye de respecter à la fois la spécification requise par les dirigeants afin de contrôler la probabilité d’erreur de type I et la nécessité de faire en sorte que la probabilité d’erreur de type II soit la plus petite possible. Il est conscient de l’arbitrage qu’il est nécessaire d’effectuer entre les erreurs et et se concentre sur les possibilités de réduire les probabilités associées simultanément en augmentant la taille d’échantillon , ce qui l’amène à prendre une décision de nature économique. Des projections de coûts, et une évaluation des bénéfices attendus d’une plus grande fiabilité conduisent au choix , encore suffisamment limité pour vérifier la condition , qui est nécessaire pour pouvoir assimiler le tirage effectuer à un tirage alátoire simple, avec remise.

Statistique de test et sa lo; régions de décision

On utilise a statistique de test standardisée Sous l’hypothèse , elle est approximativement normalement distribuée de paramètres et . La théorie asymptotique suggère que l’approximation est suffisamment précise pour une taille d’échantillon égaleà . On peut lire dans la table de la fonction de répartition de la loi normale standard la valeur qui vérifie . On en déduit par symétrie que , obtenant ainsi pour approchée de et pour zone de non-rejet approchée de .

Echantillonnage et calcul de la statistique de test

débiteurs sur les tirés au hasard dans la population totale de débiteurs ont éprouvé des difficultés à rembourser leur prêts au moins une fois depuis que celui-ci leur a été accordé. Leur proportion dans l’échantillon est donc égaleà . En injectant cette valeur dans l’expression de la statistique de test, on obtient

Conclusion du test et interprétation

Comme appartient à la zone de non-rejet de H, l’hypothèse nulle n’est pas rejetée. Sur la base de l’échantillon particulier, de taille , qui est considéré, on ne peut assurer statistiquement que la proportion de débiteurs à problèmes est inférieure à pour cent. Les dirigeants de la banque ABC procéderons donc à un réexamen des procédures d’octroi de crédit .

Probabilité d’erreur de type II

Les dirigeants de la banque ayant été amenés à ne pas rejeter l’hypothèse nulle, on ne peut écarter la possibilité qu’ils aient commis, ce faisant, une erreur de type II, ce qui correspondrait au fait que la vraie proportion est effectivement inférieure à  : . Intéressons-nous à la probabilité que ceci ait lieu pour une vraie proportion ’hypothétique’ , i.e. . Il faut d’abord déterminer la proportion critique correspondant à la valeur critique obtenue en utilisant l’approximation normale. Nous avons d’où n’est autre que la probabilité que la fonction échantillonnale prenne une valeur dans la zone de non-rejet de l’hypothèse nulle, alors que la vraie valeur du paramètre vérifie l’hypothèse alternative: Afin de pouvoir déterminer cette probabilité à partir de la table de la loi normale standard, il faut la standardiser en exploitant le fait que et : On lit dans la table de la loi normale standard que d’où Ainsi, en contraste avec le risque de la 1ère possibilité, l’accroissement de la taille d’échantillon a permis d’obtenir une reduction importante de la probabilité d’erreur de type II pour une valeur de la proportion inconnue égale à . Un professeur de statistique a l’impression qu’au cours de la dernière année, la bibiothèque de l’université a acheté moins de nouveaux livres de statistique que par le passé. Au cours des deux derni ères années, la proportion de livrees de statististique dans les nouvelles acquisitions à été en permanence supérieure à pour cent. Il demande à un de ses assistants de déterminer si le changement a eu lieu en faveur d’autres départements. Agissant pour ses étudiants, pour qui il veut que le maximum de livres possibles soient disponibles, il dmeande à son assistant de minimiser le risque de ne pas avoir de base sur laquelle se pleindre au directeur de la bibliothèque m ême si la proportion de livres de Statistique a effectivement d écrû. L’assistant décide de tirer un échantillon de dans le fichier des acquisitons faites au cours des derniers mois. Il veut dé terminer combien parmi ceux-ci sont des livres de Statistique. Il dichotomise ainsi la variable ’sujet du livre’ en ’Statistique’ et ’Non Statistique’. Bien évidemment, si on considère les achats comme le r ésultat d’un processus de prise de décision de la part des bibioth écaires, le sujet n’est certainement pas une variable aléatoire. Mais pour un statisticien qui se base sur un échantillon parcequ’il n’a pas l’information pertinente, cela paraît en être une. A partir de la proportion de livres de Statistique dans l’échantillon, l’assistant veut déterminer la proportion de livre de Statistique parmi tous les livres acquis au cours des douze derniers mois; pour ce faire, il utilise un test statistique pour prendre en compte l’écart entre la proportion de livre de Statistique dans l’échantillon et sa proportion dans la population. En particulier, il souhaite déterminer si cette proportion est passée en dessous de l’ancienne moyenne de pour cent. Ainsi, le test porte sur la proportion de livres de Statistiquedans la population le niveau du test est choisi, de façon ’standard’, égal à .

Hypothèse

Comme l’assistant veut vérifier si la proportio est tombée en-dessous de , il doit utiliser un test unilatère. Il se rappelle que le professeur attend de lui qu’il minimise la probabilité de ne pas r évéler que la proportion est passée en-dessous alors que c’est effectivement le cas. Il opte donc pour un test à droite, i.e. il pose l’assertion du professeur comme assertion nulle, en espérant ne pas avoir à la rejeter : L’assistant entreprend une étude des propriétés de ce test en rapport avce l’intention du professeur de minimiser la probabilité de ne pas détecter une baisse du nombre d’acquisitions de livres de Statistique alors qu’elle a lieu, c’est-à-dire de commettre une erreur de type I : La probabilité maximale de cette configuration, , est égale au niveau , qui a été fixé à . Ainsi, le risque que le professeur souhaite ’minimiser’ est sous contrôle. Si l’hypothèse nulle n’est pas rejeter, il peut y avoir erreur de type II : La probabilité que cette configuration se présente (conditinnellement au non-rejet de l’hypothèse nulle), , est inconnue, car la vraie proportion (qui apparteint à le région définie par l’hypothèse alternative),est inconnue. Comme nous l’avons déjà vu dans d’autres exemples, cette probabilité peut être substantielle, mais les priorités du professeur l’amènent à mettre l’accent sur le contrôle du risque de type I, en libérant le risque de type II.

La statistique de test et sa loi; régions de décision

La statistique ‘nombre de livres de Statistique dans un échantillon de livres’ peut servir de statistique de test . Sous , est de loi binômiale de paramètres et : . Un nombre relativement élevé de livre se Statistique dans l’échantillon renforcerait l’hypothèse alternative, c’est-à-dire que la proportion de livres de Statistique n’aurait pas décrû. La valeur critique est la réalisation de , pour laquelle est supérieur ou égale à , c’est-à-dire qu’on impose and . En se reportant à la table des quantiles de la loi , on trouve . La région de rejet de s’écrit ainsi , avec . Comme est une variable aléatoire discrète, le niveau du test n’est pas saturé :. La région d’accepttaion de s’écrit , avec.

Echantillonnage et calcul de la statistqiue de test

Un sous-ensemble de ivres est sélectionné de façon alé atoire dans la liste des acquisitions faites au cours des 12 derniers mois et catégorisé en livres de ’Statistique’ et livres de ’Sujet non Statistique’.Comme la quantité totale d’acquisitions est suffisante d’un point de vue théorique, on peut considérer qu’on a tiré un é chantillon aléatoire simple, i.e. que l’échantillonnage a été fait sans remise. Le nombre de livres de Statistique dans l’échantillons est , et il sert dans le calcul de la statistique de test .

Décision statistique et interprétation

Comme tombe dans la région d’acceptation de , l’hypothèse nulle ne peut être rejetée. Sur la base d’un é chantillon aléatoire de taille et au niveau , l’assistant n’a pas pu vérifier statistiquement que la proportion de livres de Statistque est encore supérieure à pour cent.

Puissance

Etant donnés nos paramètres de test (, , and ), quelle est la probabilité de ne pas rejeter l’hypoth èse nulle lorsque la vraie proportion de livres de Statistique est é gale à ? Ceci revient à calculer la probabilité de commettre une erreur de type II sous l’hypothèse que la vraie valeur du permaètre prenne une valeur précise dans la région associée à l’hypothèse alternative : En se reportant aux table de la loi binômiale on voit qu ecette probabilité est égale à . Malheureusement, si la proportion a cru de pour cent, il ya encore pour cent de chances de ne pas mettre en évidence une dé viation significative de la borne hypothétique égale à 1à pour cen. C’est la probabilité que la plainte du professeur ne soit pas justifiée en supposant quela proportion a augmenté jusqu’à —un accroîssement relatif cponséquent. La probabilité de commettre une erreur de type II error peut être calculée via la fonction puissance. Dans le tableau suivant, on donne les valeurs de et pour diverses valeurs de  :

Hypothèse vraie

Par exemple, si la vraie proportion de livres de statistique est , l’ échantillon ne peut contenir aucun livre de Statistique, on s’attend à avoir et on ne rejettera pas l’hypothèse nulle. Le rejet de l’hypothèse nulle () est un événement imposssible de probabilité associée égale à zero. La puissance est la probabilité conditionnelle de rejeter l’hypothèse nulle lorsque la proportion dans la populatio est nulle : Si, d’autre part, la vrai eprportion de livres de Statistique est égale à , la puissance est calculée par : peut être lue dans la table de la loi binômiale pour . est la probabilité de rejeter avec raison l’hypoth èse nulle, . La probabilité de rejeter l’hypothèse nulle et celle de l’accepter doivent toujous être de somme égale à 1 pour toute vraie valeur du paramètre appartenant à la région définie par l’hypoth èse alternative : Pour une vraie proportion égale à , le premier ré sultat d’échantillonnage ci-dessus revient à commettre une erreur de type II; la probabilté de cette dernière est notée . Ainsi, nous pouvons écrire : ou Comme est la valeur prise par la fonction puissance au point , nous pouvons calculer la probabilité de faire une erreur de type II : Si la vraie proportion de livres de Statistique est égale à pour cent, pour cent ode tous les échantillons de taille conduiront à accepter l’hypothèse nulle, i.e. ne mettrons pas en évidence de différence statistiquement significative entre et . Ci-dessous le graphe de la fonction puissance du test à droite qu enous venons de considérer : , , et .

Fr s2 52 f 1.gif