Propiedades de las funciones de estimación (estimadores)

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Para estimar un parámetro específico de la población, normalmente existen varios posibles estimadores \widehat{\Theta}. Ejemplo 1:
Supongamos una distribución simétrica de una determinada población. En este caso la esperanza de la población es igual a la mediana de la población. De esta manera, la esperanza desconocida puede ser estimada mediante la estimación de la media muestral o de la mediana muestral. Para una muestra concreta los dos estimadores normalmente producen valores estimados distintos. Entonces ?‘Qué estimador se debe elegir? Ejemplo 2:
Para la estimación de la varianza \sigma^2 desconocida de la población con media \mu desconocida se pueden usar dos funciones muestrales S^2 = \frac{1}{n-1} \sum\limits_{i=1}^n (X_i - \bar X)^2 S^{\star 2} = \frac{1}{n} \sum\limits_{i=1}^n (X_i - \bar X)^2 como estimadores. ?‘Cuál de estos estimadores se debe usar en este caso específico? Ejemplo 3:
Supongamos una variable aleatoria con distribución de Poisson en la población. Para la distribución de Poisson se cumple que E(X) = Var(X) = \lambda. Por lo tanto el parámetro desconocido \lambda puede ser estimado mediante la media muestral o la varianza muestral. De nuevo en este caso los dos estimadores van a dar diferentes valores estimados para una determinada población. Con el fin de conseguir un método de selección para los estimadores que pueden existir de un mismo parámetro, se utiliza como criterio de calidad las características de los estimadores.

Error Cuadrático Medio

Una medida para la evaluación de un estimador es la desvición cuadrada media, también como el error cuadrático medio(abreviación: ECM). El ECM es la media de las distancias al cuadrado entre el estimador \widehat{\Theta} y el verdadero valor \vartheta en la población: ECM = E[(\widehat{\Theta} - \vartheta)^2] \, . Esta es una medida para el error de estimación (al cuadrado) esperado que ocurre cuando se usa el estimador \widehat{\Theta}. Se puede ver que el ECM se descompone en dos elementos: ECM = E[(\widehat{\Theta} - \vartheta)^2] = E[(\widehat{\Theta} - E(\widehat{\Theta}))^2] + [E(\widehat{\Theta}) - \vartheta ]^2 \, . Como E[(\widehat{\Theta} - E(\widehat{\Theta}))^2] = Var(\widehat{\Theta}) \, , el término de la parte derecha es una expresión de la varianza de la función de estimación \widehat{\Theta}. La expresión E(\widehat{\Theta}) - \vartheta contiene la diferencia o sesgo que existe entre la esperanza del estimador (o funcion de estimación) y el verdadero valor del parámetro en la población. Por lo tanto el ECM es una medición de forma aditiva compuesta por la varianza y el sesgo al cuadrado de la función de estimación (o estimador): ECM = Var(\widehat{\Theta}) + [\text{sesgo} \, (\widehat{\Theta})]^2 \, . Si son posibles distintos estimadores para un parámetro desconocido de la población, entonces se debe seleccionar aquel que menor ECM tenga, es decir, aquel que tenga la menor varianza posible asi como el sesgo más pequeño. Comenzando con el ECM se pueden describir tres características importantes de los estimadores, que se suponen que facilitan la busqueda del “mejor” estimador.

Insesgadez

Esta característica supone una afirmación sobre la esperanza del estimador, ya que indica la posicion de la distribución de las variables aleatorias \widehat{\Theta}. Un estimador \widehat{\Theta} de el parámetro desconocido \vartheta es insesgado si la esperanza del estimador es igual al verdadero valor del parámetro: E(\widehat{\Theta}) = \vartheta \, . La característica de insesgadez indica que para un número suficientemente grande de muestras de tamaño n los errores positivos y negativos se anulan mutuamente (es decir, la suma es cero) y el estimador no tiende ni a una infraestimación ni a una sobreestimación del parámetro. Para un estimador insesgado el ECM es igual a la varianza del estimador: ECM = Var(\widehat{\Theta}). Más aún, la precisión de la estimación se puede determinar mediante la varianza del estimador. En el caso de estimadores no insesgados, observamos diferencias entre la esperanza del estimador y el verdadero valor del parámetro poblacional, que es lo que se denomina sesgo: sesgo(\widehat{\Theta}) = E(\widehat{\Theta}) - \vartheta \neq 0 \, . Un estimador \widehat{\Theta} del parámetro desconocido \vartheta se dice que es asintóticamente insesgado si se cumple que \lim_{n \rightarrow \infty} E(\widehat{\Theta}) = 0 \, , es decir, el sesgo converge a cero cunado se incrementa el tamaño de la muestra n.

Eficiencia

Dado que pueden existir diferentes estimadores insesgados para el mismo parámetro poblacional, se necesitan consultar más criterios para determinar el “mejor” estimador. Como para los estimadores insesgados se cumple que ECM= Var (\widehat{\Theta}), se puede realizar otra afirmación sobre la varianza del estimador. Cuanto menor es el valor de la variación de los valores del estimador entorno a la esperanza de ese estimador y por lo tanto menor dispersión entorno al verdadero valor de la población (es decir, la menor varianza del estimador y por lo tanto del ECM), mejor es la estimación. Sean \widehat{\Theta}_n y \widehat{\Theta}_n^{\star} dos estimadores insesgados con idéntico tamaño muestral n del parámetro desconocido poblacional \vartheta. El estimador \widehat{\Theta}_n se dice que es más eficiente en comparación con \widehat{\Theta}_n^{\star}, si la varianza de \widehat{\Theta}_n es menor que la varianza \widehat{\Theta}_n^{\star}: Var(\widehat{\Theta}_n) < Var(\widehat{\Theta}_n^{\star}) \, . El estimador \widehat{\Theta}_n se dice que es absolutamente eficiente con respecto a \vartheta, si su varianza para \vartheta es menor que la de cualquier otro estimador insesgado.

Consistencia

La consistencia de un estimador es una característica que se centra en el incremento del tamaño muestral n, es decir, es un criterio de calidad asintótico. En la práctica, un estimador relevante normalmente muestra que tanto del sesgo como de la varianza tiende a cero cuando se incrementa el tamaño muestral n. Esto significa que un estimador consistente suministra mejores estimaciones cuando se incrementa el tamaño muestral. Cuando se incrementa el tamaño muestral los valores del estimador se van acercando continuamente al verdadero valor del parámetro \vartheta. Un estimador \widehat{\Theta}_n de un parámetro desconocido es consistente, si cumple las siguientes condiciones \lim_{n \rightarrow \infty} [E(\widehat{\Theta}_n) - \vartheta] = 0 y \lim_{n \rightarrow \infty} Var(\widehat{\Theta}_n) = 0 Un estimador consistente es por lo tanto asintóticamente insesgado (primera condición) y su varianza converge a cero cuando se incrementa el tamaño muestral (segunda condición). Resumiendo las dos condiciones se obtiene la siguiente expresión \lim_{n \rightarrow \infty} ECM(\widehat{\Theta}_n) = 0 \, . Normalmente, La propiedad de consistencia está refiriendose a la consistencia media cuadrada. Además, también existe la noción de consistencia débil:
La probabilidad de que un estimador \widehat{\Theta}_n tome valores en un intervalor arbitrariamente pequeño entorno al verdadero valor del parámetro \vartheta, converge a cero cuando se incrementa el tamaño muestral n: \lim_{n \rightarrow \infty} P(|\widehat{\Theta}_n - \vartheta| < \epsilon) = 1 para \epsilon > 0 pequeño. en otras palabras:
La probabilidad de que un estimador \widehat{\Theta}_n difiera del verdadero valor del parámetro en \epsilon, tiende a cero cuando se incrementa el tamaño muestral n: \lim_{n \rightarrow \infty} P(|\widehat{\Theta}_n - \vartheta| \geq \epsilon) = 0 para \epsilon > 0 pequeño. Para una población, se van a estimar la media desconocida E(X) = \mu y la varianza (finita) desconocida \sigma^2. Se selecciona una muestra aleatoria simple de tamaño n = 12 de la población y se obtienen los datos:
1; 5; 3; 8; 7; 2; 1; 4; 3; 5; 3; 6.
La media muestral \bar X \frac{1}{n} \sum\limits_{i=1}^n X_i \, , es un estimador insesgado y absolutamente eficiente y por lo tanto vamos a usarlo. Substituyendo los valores muestrales mediante algebra se obtiene \bar x = \frac{1}{12} (1+5+3+8+7+2+1+4+3+5+3+6) = \frac{48}{12} = 4 \, . Este resultado se puede usar como una estimación puntual de \mu.
Dado que la esperanza \mu es desconocida, se utiliza S^2 = \frac{1}{n-1} \sum\limits_{i=1}^n (X_i - \bar X)^2 \, , como un estimador insesgado. Substituyendo los valores muestrales producen la estimación puntual \begin{align}
s^2 & = & \frac{1}{n-1} \sum\limits_{i=1}^12 (x_i - \bar x)^2\\
    & = & \frac{1}{11}[(1-4)^2 + (5-4)^2 + \dots + (3-4)^2 + (6-4)^2] = \frac{1}{11} \cdot 56 = 5,09 \, .\\\end{align} Suponiendo una población con media \mu y varianza \sigma^2. Sea (X_1, X_2, X_3) una muestra aleatoria (teórica) extraída de esta población. Cualquiera de los valores muestrales X_i, i= 1, 2, 3 tiene E(X_i) = \mu y Var(X_i)= \sigma^2. De acuerdo con las siguientes funciones muestrales:

  1. \widehat{\Theta}_2 = \frac{1}{4} (2X_1 + 2X_3)
  • ?‘Cuál de estos estimadors es insesgado?
  • ?‘Cuál de estos estimadores es mejor en términos de eficiencia?

Todos son insesgados, dado que E(X_i) = \mu: \begin{align}
E(\widehat{\Theta}_1) = E[\frac{1}{3} (X_1 + X_2 + X_3)] = \frac{1}{3} [ E(X_1) + E(X_2) + E(X_3)] =\frac{1}{3}(\mu + \mu + \mu)& = &\mu\\ E(\widehat{\Theta}_2) = E[\frac{1}{4} (2X_1 + 2X_3)] = \frac{1}{4} [2
E(X_1) + 2 E(X_3)] = \frac{1}{4}(2 \mu + 2 \mu) &=& \mu\\ E(\widehat{\Theta}_3) = E[\frac{1}{3} (2X_1 + X_2)] =\frac{1}{3} [2 E(X_1) + E(X_2)] = \frac{1}{3}(2 \mu + \mu) &=& \mu\\\end{align} En relación con la varianza de los estimadores \begin{align}
Var(\widehat{\Theta}_1) &=& Var[\frac{1}{3} (X_1 + X_2 + X_3)] = \frac{1}{9}Var(X_1 + X_2 + X_3) = \frac{1}{9} [
Var(X_1) + Var(X_2) + Var(X_3)] = \frac{1}{9}(\sigma^2 + \sigma^2 + \sigma^2) = \frac{1}{3} \sigma^2\\
Var(\widehat{\Theta}_2) &=& Var[\frac{1}{4} (2X_1 + 2X_3)] = \frac{1}{16}Var(2X_1 + 2X_3) = \frac{1}{16} [4
Var(X_1) + 4Var(X_3)] = \frac{1}{16}(4 \sigma^2 + 4 \sigma^2) = \frac{1}{2} \sigma^2\\ Var(\widehat{\Theta}_3) &=&
Var[\frac{1}{3} (2X_1 + X_2)] = \frac{1}{9}Var(2X_1 + X_2) = \frac{1}{9} [4 Var(X_1) + Var(X_2)] = \frac{1}{9}(4
\sigma^2 + \sigma^2) = \frac{5}{9} \sigma^2\\\end{align} De acuerdo con el criterio de eficiencia el primer estimador es preferible ya que es el que menor varianza tiene. El primer estimador es relativamente eficiente en relación con el segundo y tercero. Dado que es la media muestral también será absolutamente eficiente.

Error Cuadrático Medio (ECM):

El ECM se define como ECM = E[(\widehat{\Theta} - \vartheta)^2] Transformaciones de E(\widehat{\Theta}) no modifican la expresión: ECM = E[(\widehat{\Theta} - \vartheta)^2] = E[(\widehat{\Theta} - E(\widehat{\Theta}) + E(\widehat{\Theta}) - \vartheta)^2]\, . Tomando cuadrados se obtiene: \begin{align}
    ECM & = & E[(\widehat{\Theta} - \vartheta)^2]\\
        & = & E[(\widehat{\Theta} - E(\widehat{\Theta}) + E(\widehat{\Theta}) - \vartheta)^2]\\
        & = & E[((\widehat{\Theta} - E(\widehat{\Theta}))^2 + 2(\widehat{\Theta} - E(\widehat{\Theta}))(E(\widehat{\Theta}) - \vartheta) + (E(\widehat{\Theta}) - \vartheta)^2] \, .\\\end{align} Como \vartheta y E(\widehat{\Theta}) son constantes, tomando esperanzas se obtiene: \begin{align}
    ECM & = & E[(\widehat{\Theta} - \vartheta)^2]\\
        & = & E[(\widehat{\Theta} - E(\widehat{\Theta}) + E(\widehat{\Theta}) - \vartheta)^2]\\
        & = & E[(\widehat{\Theta} - E(\widehat{\Theta}))^2 + 2(\widehat{\Theta} - E(\widehat{\Theta}))(E(\widehat{\Theta}) - \vartheta) + (E(\widehat{\Theta}) - \vartheta)^2]\\
        & = & E[(\widehat{\Theta} - E(\widehat{\Theta}))^2] + 2E[(\widehat{\Theta} - E(\widehat{\Theta}))(E(\widehat{\Theta}) - \vartheta)] + [E(\widehat{\Theta}) - \vartheta)^2] \, .\\\end{align} Realizando un poco de algebra en el término de en medio: 2E[(\widehat{\Theta} - E(\widehat{\Theta}))(E(\widehat{\Theta}) - \vartheta)] = 2[E(\widehat{\Theta}) - E(\widehat{\Theta})][E(\widehat{\Theta}) - \vartheta)] = 0 y consecuentemente \begin{align}
    ECM & = & E[(\widehat{\Theta} - \vartheta)^2]\\
        & = & E[(\widehat{\Theta} - E(\widehat{\Theta}) + E(\widehat{\Theta}) - \vartheta)^2]\\
        & = & E[(\widehat{\Theta} - E(\widehat{\Theta}))^2 + 2(\widehat{\Theta} - E(\widehat{\Theta}))(E(\widehat{\Theta}) - \vartheta) + (E(\widehat{\Theta}) - \vartheta)^2]\\
        & = & E[(\widehat{\Theta} - E(\widehat{\Theta}))^2] + [E(\widehat{\Theta}) - \vartheta]^2\\
        & - & Var (\widehat{\Theta}) + [bias(\widehat{\Theta})]^2 \, .\\\end{align} El ECM devuelve el error de estimación que puede ser esperado cuando se usa el estimador \widehat{\Theta}. El ECM no mide el error de estimación real y por lo tanto no dice como de lejos está el valor estimado \widehat{\vartheta} (que se obtiene para una muestra concreta) del verdadero valor del parámetro poblacional \vartheta. El parámetro \vartheta es desconocido para situaciones concretas, sin embargo, se puede calcular el ECM que cada valor \vartheta puede tener.

Insesgadez

La siguiente figura muestra tres estimadores con distribución simétrica para un parámetro poblacional \vartheta común. Es s2 41 m 7.gif Los estimadores \widehat{\Theta_1} and \widehat{\Theta_2} son insesgados ya que sus esperanzas coinciden con el verdadero valor del parámetro poblacional \vartheta. Por el contrario, el estimador \widehat{\Theta_3} es sesgado. Para los dos estimadores insesgados se cumple que ECM = Var(\widehat{\Theta})\, , dado que el sesgo es cero. Sin embargo, claramente los dos estimadores difieren en términos de varianza. Incluso un estimador insesgado puede presentar una varianza bastante grande, por lo tanto la propiedad de insesgadez se debe complementar con algún criterio más. Vamos a examinar ahora los más importantes estimadores en términos de insesgadez.

Media Muestral \bar X

La media muestral \bar X = \frac{1}{n} \sum\limits_{i=1}^n X_i es un estimador insesgado de la esperanza poblacional E(X)=\mu, dado que se cumple E(\bar X) = \mu (ver capítulo Distribución de la Media Muestral).

Proporción Muestral \widehat{\pi}

La proporción muestral \widehat{\pi} = \frac{1}{} \sum\limits_{i=1}^n X_i es un estimador insesgado de la proporción poblacional \pi desconocida, dado que se cumple E(\widehat{\pi}) = \pi \, , (ver capítulo Distribución de la Proporción Muestral).

Varianza Muestral

Supongamos una muestra aleatoria de tamaño n.

  1. \mu es conocida
    Si la esperanza E(X) = \mu de la población es conocida entonces el estimador S^{\star 2} = \frac{1}{n} \sum\limits_{i=1}^n (X_i - \mu)^2 es un estimador insesgado de la varianza poblacional desconocida \sigma^2, dado que se cumple E(S^{\star 2}) = \sigma^2 \, , (ver capítulo Distribución de la Varianza Muestral)

  2. \mu es desconocida
    Si la esperanza E(X) = \mu de la población es desconocida y se estima mediante la media muestral, el estimador S^2 = \frac{1}{n-1} \sum\limits_{i=1}^n (X_i - \bar X)^2 es un estimador insesgado de la varianza desconocida poblacional \sigma^2, dado que se cumple que E(S^2) = \sigma^2 \, , (ver capítulo Distribución de la Varianza Muestral) La desviación típica es la raiz cuadrada de la varianza muestral S^2 y normalmente es un estimador no insesgado de \sigma, ya que, de promedio, realiza una infraestimación de la desviación típica de la población.

    El estimador S^{/ 2} = \frac{1}{n} \sum\limits_{i=1}^n (X_i - \bar X)^2 \, , que también es la definición de la varianza de la estadística descriptiva, es no insesgado, dado que cumple E(S^{/ 2}) = E \left[ \frac{1}{n} \sum\limits_{i=1}^n (X_i - \bar X)^2 \right] = \frac{1}{n} E \left[ \sum\limits_{i=1}^n (X_i - \bar X)^2 \right] = \frac{n-1}{n} \sigma^2 \, , (ver capítulo Distribución de la Varianza Muestral). El sesgo es E(S^{/ 2}) - \sigma^2 = \frac{n-1}{n} \sigma^2 - \sigma^2 = - \frac{\sigma^2}{n} \, . Utilizando el estimador S^{/ 2} generalmente lo que se hace es, de media, infraestimar la varianza desconocida de la población. Este estimador, sin embargo, es asintóticamente insesgado, cuando el tamaño muestral n se incrementa el sesgo tiende a cero.

    Por lo tanto, parace claro que la razón por la que se aplica la estandarización de n-1 en el estimador S^2 es para lograr la insesgadez.

Eficiencia

  • En la figura inferior los estimadores \widehat{\Theta_1} y \widehat{\Theta_2} son insesgados. Dado que se cumple que Var (\widehat{\Theta_1}) < Var (\widehat{\Theta_2}), \widehat{\Theta_1} es realtivamente eficiente en comparación con \widehat{\Theta_2}.
  • La media muestral \bar X es un estimador absolutamente eficiente de la esperanza poblacional \mu, donde se permite cualquier distribución con varianza finita.
  • Sea N(\mu; \sigma^2) la distribución de la variable aleatoria X en la población, la media muestral \bar X es un estimador absolutamente eficiente de la esperanza \mu, dado que no existe otro estimador insesgado de \mu con menor varianza.
  • La media muestral \bar X es un estimador absolutamente eficiente del parámetro desconocido \lambda de una población con distribución de Poisson.
  • La proporción muestral \widehat{\pi} es un estimador absolutamente eficiente de la proporción \pi de una población dicotómica, es decir, para toda distribución de Bernoulli.
  • Para una población con distribución normal la media muestral \bar X y la mediana muestral \bar X_Z son estimadores insesgados de la esperanza \mu. Para muestras aleatorias simples, se cumple que \sigma^2 (\bar X) = \frac{\sigma^2}{n}\, ,. Más aún, se puede mostrar que \sigma^2 (\bar X_Z) = \frac{\pi}{2} \frac{\sigma^2}{n} = 1,571 \sigma^2 (\bar X) y por lo tanto \sigma^2 (\bar X) < \sigma^2(\bar X) < \sigma^2 (\bar X_Z) \, . La media muestral \bar X es relativamente eficiente en comparación con la mediana muestral \bar X_Z.
  • Se pueden usar los estimadores S^{\star 2} = \frac{1}{n} \sum\limits_{i=1}^n (X_i - \mu)^2 S^2 = \frac{1}{n-1} \sum\limits_{i=1}^n (X_i - \bar X)^2 \, para la estimación de la varianza desconocida \sigma^2 de una población con distribución normal con esperanza desconocida E(X) = \mu. Como se ha mostrado previamente, ambas estimaciones son insesgadas: E(S^{\star 2} = \sigma^2 = E(S^2) con varianzas Var (S^{\star 2}) = 2 \sigma^4 / n respectivamente. Var(S^2) = 2 \sigma^4 / (n-1). S^{\star 2} es eficiente en términos relativos en comparación a S^2.
  • Los ejemplos muestran la comparación que tiene lugar entre los estimadores para una determinada clase de distribuciones.

Consistencia

  • La consistencia se considera el requisito mínimo de un estimador. Sin embargo, se suele utilizar para el hecho de que en muestras finitas un estimador consistente puede indicar como de grande es el sesgo y la varianza. Por otra parte, el tamaño muestral no se puede incrementar a voluntad.
  • Para muestras aleatorias simples la media muestral \bar X_n es un estimador consistente del parámetro desconocido \mu de la población ya que  \Rightarrow sesgo\ \bar X_n = 0 es cero y la varianza Var(\bar X_n) = \sigma^2 /n cumple que \lim_{n \rightarrow \infty} \frac{\sigma^2}{n} = 0\, .
  • Para muestras aleatorias simples la proporción muestral \widehat{\pi}_n es un estimador consistente de la proporción desconocida \pi de una población dicotómica dado que el estimador es insesgado  \Rightarrow sesgo\ \widehat{\pi}_n = 0 y la varianza Var(\widehat{\pi}_n) = \pi (1-\pi) /n cumple \lim_{n \rightarrow \infty} \frac{\pi (1-\pi)}{n} = 0\, .
  • Para una población con distribución normal la mediana muestral \bar X_Z es un estimador consistente del parámetro desconocido \mu (sin prueba).
  • El estimador S^2 = \frac{1}{n-1} \sum\limits_{i=1}^n (X_i - \bar X)^2 es un estimador consistente de la varianza desconocida \sigma^2 de la población, ya que el estimador es insesgado  \Rightarrow sesgo S^2 = 0 y para la varianza Var (S^2) = 2 \sigma^4 / (n-1) se cumple \lim_{n \rightarrow \infty} \frac{2 \sigma^4}{n-1} = 0 \, .