Théorie de l’estimation

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Soit une population de fonction de répartition paramétrée (par exemple par son espérance , sa variance ou par la proportion ). En génaral, la fonction de répartition et les paramètres sont inconnus, sauf dans le cas où on dispose des réaultats d’une enquête préliminaire. Comme on l’a déjà vu, on peut récolter de l’information sur notre population en procédant à un échantillonnage aléatoire de celle-ci. Les conclusions obtenues à partir de l’échantillon sont sont généralisées à la population par inférence inductive ou indirecte. Les résultats obtenus par infférence inductive sont nécessairement entachés d’un rique d’erreur. Sous des conditions raisonnables, il est possible de quantifier l’incertitude affectant les résultats d’une procédure inductive grâce au calcul des propbabilités. La détermination des paramètres ou de la loi d’une population sur la base d’échantillons est appelée estimation statistique. On s’intéresse dans ce qui suit à l’estimation de paramètres. On distingue deux types d’estimations : l’estimation ponctuelle et l’estimation par intervalle.

Estimation ponctuelle

Si le résultat de la procédure d’estimation est une valeur unique, on parle d’estimation ponctuelle. Cette valeur est supposée fournir une approximation aussi bonne que possible du paramètre inconnu de la population. L’estimation est basée sur un d’ observations associées .

Fonction estimante (Estimateur)

Une fonction échantillonnale qui est supposée, en raison de ses propriétés, être pertinente pour estimer la valeur d’un paramètre de la population, est appelée fonction estimante, ou encore estimateur. Une fonction échantillonnale est une fonction de variables aléatoires (les observations ) et, par conséquent, est elle-même une variable aléatoire. Tout échantillon tiré permet de calculer une réalisation de l’estimateur : est une estimation ponctuelle de la valeur du paramètre inconnu . On voit ainsi qu’un estimateur ponctuel dépend de la taille d’échantillon et des réalisations des observations. Les estimations obtenues (les réalisations de l’estimateur) correspondent rarement à la vraie valeur du paramètre. Elle différent d’un échantillon à l’autre et sont donc à chaque fois plus ou moins proche de la vraie valeur du paramètre. En estimation ponctuelle, il est essentiel de bien choisir l’estimateur. Souvent, on choisit d’utiliser un analogue empirique du paramètre à estimer. Par exemple, pour estimer une espérance inconnue on a souvent recours à la moyenne empirique des observations : . On considère une population de personnes. Les caractéristiques d’intérêt de la population sont résumées par deux variables = age (en années) et = revenu net (en DM). Les espérances et variances respectives des deux varaibles sont inconnues. Afin d’estimer les paramètres inconnus, vous avez la possibilités de tirer un échantillon de cette population. A cet effet, vous devez spécifier

  • la taille d’échantillon et
  • la variable d’intérêt (age ou revenu net)

à utiliser. Pour (resp. ) on retient la fonction estimante et pour (resp. ) on retient l’estimateur En sortie, vous obtiendrez une estimation ponctuelle (resp. ) de (resp. ). Vous pouvez effectuer l’opération précédente autant de fois que vous le souhaitez et ainsi relever diverses propriétés de l’estimation ponctuelle.

Fr s2 40 f 5.gif

On considère une population composée de ménages. On s’intéresse à la variable , revenu net du ménage (en DM). Le revenu moyen de la populaion, autrement dit l’espérance est inconnu et c’est pourquoi nous souhaitons l’estimer. A cet effet, nous retenons comme estimateur la moyenne échantillonnale : Le tirage d’un échantillon aléatoire de taille fournit les réalisations . On en déduit une estimation poncuelle du paramètre (revenu net moyen du ménage) :

  1. Considérons par exemple un échantillon aléatoire composé de ménages tirés au hasard. On obtient les observations suivantes :

    Table 1: Valeurs observées du revenu net des ménages composant notre échantillon de taille (ordonné selon le revenu net croîssant):

    Revenu net du ménage (DM) Revenu net du ménage (DM)
    1 800 11 2500
    2 1200 12 2500
    3 1400 13 2500
    4 1500 14 2700
    5 1500 15 2850
    6 1500 16 3300
    7 1800 17 3650
    8 1800 18 3700
    9 2300 19 4100
    10 2400 20 4300

    Le revenu net moyen sur l’échantillon vaut DM; il fournit une estimation du revenu net moyen sur la population.

    Comme on le voit clairement, le calcul effectué reveient à calculer la valeur de la moyenne arithmétique des revenus nets sur l’échantillon, ce qui est usuellement fait en statistique descriptive pour toute variable d’intérêt. Cependant, il y a une différence entre les deux calculs qui tient à leur objectif. Dans la cas d’une étude descriptive, on se contente de l’assertion ”Le revenu net moyen des 20 ménages considérés est2415 DM”, alors que dans le cadre de la statistique inférentielle, on va au delà : on considère que le revenu net moyen de nos 2000 ménages est estimé, c’est-à-dire approximé, par la valeur . A ce stade, on ne peut encore rien dire de la qualité de l’estimation obtenue, c’est-à-dire du degré de proximité entre estimation et valeur du paramètre.

    Afin d’illuster les questions qui se pose en estimation ponctuelle, on tire 24 autres échantillons aléatoires de taille dans notre population, et le revenu net moyen de chacun d’eux est calculé. Les résultat obtenus sont fournis dans la table suivante.

    Table 2: Revenu net moyen des ménages (en DM) pour 25 échantillons aléatoires de taille (par ordre croîssant de revenu):

    Echantillon Echantillon Echantillon
    1 1884,90 10 2241,15 18 2395,25
    2 1915,30 11 2243,15 19 2413,40
    3 2060,90 12 2267,75 20 2415,00
    4 2062,15 13 2298,80 21 2567,50
    5 2110,30 14 2317,00 22 2607,25
    6 2126,50 15 2319,55 23 2635,00
    7 2163,10 16 2361,25 24 2659,00
    8 2168,50 17 2363,50 25 2774,30
    9 2203,85

    Les résultats obtenus illustrent bien les caractéristiques de l’estimation ponctuelle. L’estimateur est une variable aléatoire, dont les réalisations diffèrent d’un échantillon à l’autre, en raison des différences entre les valeurs observées d’un échantillon à l’autre. Par conséquent, l’estimation obtenue dépend de façon essentielle de l’échantillon tiré et a peu de chances de coïncider avec la vraie valeur du paramètre à estimer.

    Il est donc nécessaire de compléter toute procèdure d’estimation ponctuelle par une étude de la précision de l’estimation obtenue, ou par d’autres estimations.

    Le garphique suivant représente les estimations pour les 25 échantillons. Afin de mettre en évidence l’écart entre les estimation et la vraie valeur , cette dernière est représentée par une droite en pointillés.

    Fig. 1: Estimations pour 25 échantillons aléatoires de taille

    Fr s2 40 f 3.gif

  2. Echantillons aléatoires de taille On tire dans la même population 100 échantillons de taille et on calcule le revenu net moyen de chacun d’eux. Les résultats obtenus sont illustrés par le graphe suivant. Les estimations déduites des100 échantillons aléatoires sont représentées par des ppoints. Pour faciliter les comparaisons, on représentée la vraie valeur par une droite en pointillés.

    Fig. 2: Estimations pour 100 échantillons différents de taille

    Fr s2 40 f 4.gif