Construcción de Estimadores

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Continuando el debate sobre determinadas carateristicas del , las siguientes secciones tratarán sobre dos métodos para construir de forma adecuada estimadores de parámetros desconocidos.

Método de Máxima Verosimilitud La metodología de máxima verosimilitud es el procedimiento más utilizado para obtener estimadores de los parámetros de una distribución. Supongamos una variable alatoria X, ya sea discreta o continua, que tiene como función de probabilidad o densidad f(x | \vartheta) en la población. Un requisito importante del método de máxima verosimilitud es que se debe conocer el tipo de distribución que vamos a usar antes de realizar la estimación. La distribución depende de un parámetro desconocido \vartheta. Ejemplo 1:
La distribución, por ejemplo, binomial, de la población debe ser conocida. Por lo tanto f(x |
\vartheta) es la función de probabilidad de la distribución binomial B(n; \pi), que depende del parámetro \pi, ya que diferentes valores de \pi suponen distintas probabilidades en las realizaciones de X. Ejemplo 2:
Supongamos una variable aleatoria X que tiene en la población una distribución normal, es decir, f(x |
\vartheta) representa la función de densidad de la distribución normal. La distribución normal depende de los parámetros \mu y \sigma^2 donde por ejemplo, la esperanza E(X)=\mu es desconocida. Se extrae una muestra aleatoria simple de tamaño n de la población. De esta forma, las variables muestrales son independientes e identicamente distribuidas tal como X en la población : f(x_i |
\vartheta)\ \forall\ i = 1, \dots, n. Debido a la independencia la distribución conjunta de todas las variables muestrales se puede escribir como el producto de las distribuciones individuales: P(\{X_1 = x_1\} \cap \dots \cap \{X_n = x_n\} | \vartheta) = f(x_1 | \vartheta) \cdot \dots \cdot f(x_n | \vartheta)\, . f(x_1, \dots, x_n | \vartheta) es la probabilidad de contener una muestra (x_1,
\dots, x_n) con unos parámetros (desconocidos) fijos \vartheta para variables discretas antes de extraer una muestra. Para variable continuas, se reemplaza la función de probabilidad por la de densidad. f(x_1,
\dots, x_n |
\vartheta) depende tanto de las realizaciones concretas x_1, \dots, x_n de las variables muestrales asi como de los parámetros desconocidos. Los valores muestrales están fijos una vez que se ha extraido la muestra. Por lo tanto, el producto f(x_1,
\dots, x_n |
\vartheta) depende exclusivamente del parámetro \vartheta. Para una mejor ilustración, normalmente se usa la siguiente expresión: L(\vartheta | x_1, \dots, x_n) = f(x_1 | \vartheta) \cdot \dots \cdot f(x_n | \vartheta) = \prod\limits_{i=1}^n f(x_i | \vartheta)\, . La función L(\vartheta) se denomina función de verosimilitud de \vartheta y es el producto de n funciones de densidad (o probabilidad) idénticas de las variables muestrales. L(\vartheta) devuelve la probabilidad de obtener la muestra (x_1, \dots, x_n) para cualquier valor \vartheta. El objetivo de este método es encontrar un valor de \widehat{\vartheta}, que hace máxima la función de verosimilitud: L(\widehat{\vartheta} = \max_{\vartheta} L(\vartheta)\, . Para la muestra (x_1, \dots, x_n) se investiga aquel parámetro \widehat{\vartheta} que produce la explicación más plausible de los valores muestrales obtenidos. Bajo determinadas circunstancias L(c) tiene un número fijo de valores x_1,
\dots, x_n. La condición necesaria para alcanzar un máximo es que la primera derivada de L(\widehat{\vartheta}) respecto a \vartheta se anule: \frac{\partial L(\widehat{\vartheta})}{\partial \vartheta} = 0 \, . Por simplicidad, normalmente se toma el logaritmo de la función obteniendose la función \log
L(\widehat{\vartheta}). Dado que el logaritmo de una función es una transformación monótona de dicha función, el \log L(\widehat{\vartheta}) tiene exactamente el mismo máximo que la función de verosimilitud. Por lo tanto, la primera condición se puede escribir como: \frac{\partial \log L(\widehat{\vartheta})}{\partial \vartheta} = 0 \, . Se elige el valor evaluado \widehat{\vartheta} como valor estimado para un parámetro desconocido \vartheta y se le llama estimación máximo - verosímil o de manera abreviada estimación MV. La función resultante de la estimación se llama estimador de máxima verosimilitud para \vartheta.
Mediante la segunda derivada de \log L con respecto a \vartheta se controla si en el punto \vartheta=\widehat{\vartheta} existe realmente un máximo.

Método de Mínimos Cuadrados

Para construir estimadores con este método se supone que las esperanzas de las variables muestrales X_1, \dots, X_n dependen, via una función conocida, de los parámetros de la población \vartheta: E(X_i) = g_i(\vartheta) \qquad i = 1, \dots, n En el caso más simple g_i(\vartheta) = \vartheta\ \forall\ i. Sean x_1, \dots, x_n los valores muestrales de una muestra aleatoria de una población de parámetro \vartheta, entonces, se elige una estimación \widehat{\vartheta} tal como que la suma al cuadrado de los residuos entre los valores muestrales y g_i(\widehat{\vartheta}) sea lo menor posible. Es decir, \widehat{\vartheta} ha de ser determinada de tal modo que para cualquier posible valor del parámetro se cumpla \vartheta: \sum\limits_{i=1}^n (x_i - g_i(\widehat{\vartheta}))^2 \leq \sum\limits_{i=1}^n (x_i - g_i(\vartheta))^2 Por lo que Q(\widehat{\vartheta}) = \sum\limits_{i=1}^n x_i - g_i(\vartheta))^2 debe ser minimizado. Tras la diferenciación con respecto a \vartheta e igualando la primera derivada a cero, se puede usar el estimador de mínimo cuadrátrico \widehat{\vartheta} como una estimación puntual de \vartheta. La substitución de los valores muestrales por las variables muestrales nos devuelve el estimador de mínimos cuadrados. Don Empresario tiene una larga espera en un aeropuerto durante un viaje. Para divertirse apunta el tiempo entre el aterrizaje de dos aviones en la misma pista. El anota los siguientes valores muestrales (en minutos):
3, 6, 6, 4, 8, 2, 4, 5, 9, 3. La variable aleatoria X da el intervalo entre dos aterrizajes consecutivos y se supone que tiene una distribución exponencial de parámetro desconocido \lambda
> 0. Utilizando el método de MV estima este parámetro. La función de verosimilitud para esta muestra x_1, \dots, x_{10} viene dada como \begin{align}
    L(\lambda | 3,6,6,4,8,2,4,5,9,3)    & = & \lambda e^{-3 \lambda} \cdot \lambda e^{-6 \lambda} \cdot \lambda e^{-6 \lambda} \cdot
    \lambda e^{-4 \lambda} \cdot \lambda e^{-8 \lambda} \cdot \lambda e^{-2 \lambda} \cdot \lambda e^{-4 \lambda} \cdot \lambda e^{-5 \lambda}
    \cdot \lambda e^{-9 \lambda} \cdot \lambda e^{-3 \lambda}\\
                                        & = & \lambda^{10} e^{-50 \lambda}\\\end{align} y el log de la verosimilitud es \log L(\lambda) = 10 \log \lambda - 50 \lambda \, . Diferenciando con respecto a \lambda e igualando a cero se tiene \frac{\partial \log L(\lambda)}{\partial \lambda} = \frac{10}{\widehat{\lambda}} - 50 = 0 \, . Para el estimador MV \widehat{\lambda} de \lambda de una población con distribución exponencial se obtiene: \widehat{\lambda} = \frac{10}{50} = 0,2 = \frac{1}{\bar x} \, . La segunda derivada con respecto a \lambda da \frac{\partial^2 \log L(\lambda)}{\partial \lambda^2} = -
\frac{10}{\lambda^2} por lo cual, se cumple la condicón para el máximo. Para un periodo de 50 días se recogió el número de accidentes de coche diarios. Las observaciones se resumen en la siguiente tabla:

No. de accidentes de coche por día No. de días
0 21
1 18
2 7
3 3
4 1

La muestra se basa en un experimento, donde los sucesos (accidentes de coche) pueden ocurrir de manera coincidente e independiente, durante un tiempo de un determinado alcance (un día). Supongamos que la variable aleatoria X que indica el número de accidentes por día se distibuye como una Poisson: X
\sim PO(\lambda). El parámetro \lambda es desconocido y vamos a estimarlo mediante MV. Para la función de versomilitud de la muestra x_1, \dots, x_n tenemos L(\lambda | x_1, \dots, x_n) = \frac{\lambda^{x_1 + \dots + x_{50}}}{x_1 \, ! \cdot \dots \cdot x_{50}\, !} e^{- 50\lambda} = \frac{\lambda^{45}}{0 \, ! \cdot 0 \, ! \cdot \dots \cdot 3\, ! \cdot 4\, !} e^{-50 \lambda}\, . siendo la función de verosimilitud con logaritmos \log L(\lambda | x_1, \dots, x_{50}) = 45 \log \lambda - [\log (0\,!) + \log(0\,!) + \dots + \log (3\,!) + \log (4\,!)] - 50 \lambda\, . Diferenciando respecto a \lambda e igualando a cero se obtiene \frac{\partial \log L}{\partial \lambda} = \frac{45}{\widehat{\lambda}} - 50 = 0 y por lo tanto \widehat{\lambda} = \frac{45}{50}= 0,9 = \bar x\, . la condición de suficiencia para un máximo en el punto \lambda=\widehat{\lambda} se satisface ya que se cumple \frac{\partial^2 \log L}{\partial \lambda^2} = - \frac{1}{\lambda^2} 45 < 0\,

Aplicaciones del EMV

El estimador MV (EMV) de \mu y \sigma^2 de una población con distribución normal

Suponiendo una distribución gausiana de la variable aleatoria X de parámetros desconocidos \mu y \sigma^2, suponiendo además que X_1, \dots, X_n es una muestra aleatoria de esa población, entonces para todo X_i, i = 1,
\dots, n se cumple la siguiente expresión f(x_i | \mu, \sigma) = \frac{1}{\sqrt{2 \pi} \, \sigma} \, e^{- \frac{(x_i - \mu)^2}{2 \sigma^2}}\, Para una muestra fija (x_1, \dots, x_n) la función de verosimilitud se reescribe como: \begin{align}
L(\mu, \sigma^2 | x_1, \dots, x_n) = \prod_{i=1}^n f(x_i | \mu, \sigma) & = & \left( \frac{1}{\sqrt{2 \pi
\sigma^2}} \right)^n e^{- \frac{1}{2 \sigma^2} \sum\limits_{i=1}^n (x_i - \mu)^2}\\
                                                                        & = & (2 \pi \sigma^2)^{- \frac{n}{2}} \cdot exp \left( - \frac{1}{2 \sigma^2} \sum\limits_{i=1}^n (x_i - \mu)^2 \right) \, .\\\end{align} Tomando logaritmos: \log L(\mu, \sigma^2 | x_1, \dots, x_n) = - \frac{n}{2} \cdot \log (2 \pi) - \frac{n}{2} \cdot \log \sigma^2 - \frac{1}{2 \sigma^2} \cdot \sum\limits_{i=1}^n (x_i - \mu)^2\, .
Para maximizar L(\mu; \sigma^2) donde está dado (x_1, \dots, x_n), se elige aquel estimador \widehat{\mu} que haga máxima la función de verosimilitud. Diferenciando parcialmente con respecto a \mu e igualando la primera derivada a cero se tiene: \frac{\partial \log L}{\partial \mu} = - \frac{2 \cdot \sum\limits_{i=1}^n (x_i - \widehat{\mu}) \cdot (-1)}{2 \sigma^2} = 0 Esto nos da el estimador MV \widehat{\mu} de \mu: \sum\limits_{i=1}^n (x_i - \widehat{\mu}) = 0 \widehat{\mu} = \frac{\sum\limits_{i=1}^n x_i}{n} = \bar x \, . Todavía se debe establecer una condición de suficiencia para el máximo. Partiendo de la primera derivada la segunda derivada se puede escribir como \frac{\partial^2 \log L}{\partial \mu^2} = - \frac{n}{\sigma^2} < 0 \, . Utilizando las variables aleatorias x_1, \dots, x_n en lugar de sus realizaciones X_1,
\dots, X_n, se obtiene la expresión de la media muestral \bar X = \frac{1}{n} \sum\limits_{i=1}^n X_i como un estimador consistente, insesgado y absolutamente eficiente de \mu.
La diferenciación parcial de la función log-verosimil con respecto a \sigma^2 e igualando a cero la primera derivada proporciona la expresión: \frac{\partial \log L}{\partial \sigma^2} = - \frac{n}{2} \cdot \frac{1}{\widehat{\sigma}^2} + \frac{1}{2} \cdot \frac{1}{\widehat{\sigma}^4} \cdot \sum\limits_{i=1}^n (x_i - \mu)^2 = 0 \, . Mediante operaciones se puede escribir como \frac{n}{2 \widehat{\sigma}^2} = \frac{1}{2 \widehat{\sigma}^4} \sum\limits_{i=1}^n (X_i - \mu)^2 \widehat{\sigma}^2 = \frac{1}{n} \sum\limits_{i=1}^n (x_i - \mu)^2 \, , Dado que \widehat{\sigma}^2 es la estimación MV de \sigma^2. Con este resultado se puede facilitar los estimadores MV:

  • Estimador insesgado de \sigma^2 en el caso de esperanza desconocida \mu S^{\star 2} = \frac{1}{n} \sum\limits_{i=1}^n (X_i - \mu)^2
  • Estimador asintóticamente insesgado y consistente de \sigma^2 en el caso de esperanza desconocida \mu S^{/2} = \frac{1}{n} \sum\limits_{i=1}^n (X_i - \bar X)^2 \, .

Estimador MV de \pi de una población con distribución Binomial

Se supone que la variable aleatoria X es dicotómica en una población de parámetro desconocido \pi, que da información sobre la proporción de elementos con una determinada característica. La estimación requiere que se debe seleccionar una muestra aleatoria simple (X_1,
\dots, X_n) de tamaño n de la población. Por lo tanto, la variable aleatoria X da el número de elementos con el atributo investigado en la población se distribuye como una binomial: B(n,
\pi). Para una muestra específica se han obtenido los valores muestrales x_1,
\dots, x_n que sumándolos da el número de elementos x que tienen el atributo. Por lo tanto la proporción observada es p = x/n. Para la función de verosimilitud se obtiene L(\pi | x) = \left( \begin{array}{c} n\\ x \end{array} \right) \cdot \pi^x \cdot (1-\pi)^{n-x} y el log de la verosimilitud \log L(\pi | x) = \log \left( \begin{array}{c} n\\ x \end{array} \right) + x \log \pi + (n-x) \log (1- \pi)\, . Diferenciando respecto a \pi e igualando a cero se obtiene: \frac{\partial \log L(\pi | x)}{\partial \pi} = \frac{x}{\widehat{\pi}} - \frac{n-x}{1- \widehat{\pi}} = 0 x (1- \widehat{\pi}) - (n-x) \widehat{\pi} = 0 \widehat{\pi} = \frac{x}{n} Y como segunda derivada \frac{\partial^2 \log L(\pi|x)}{\partial \pi^2} = -\frac{x}{\pi^2} - \frac{n-x}{(1-\pi)^2} Este punto representa un máximo de la función de verosimilitud. La proporción muestral \widehat{\pi} es una estimación MV de \pi. La proporción muestral es ya un estimador MV \widehat{\pi} = \frac{X}{n}\, .

Estimador MV de \lambda de una población con distribución de Poisson

Sea X_1, \dots, X_n una muestra aleatoria simple de tamaño n de una población con distribución de poisson de parámetro desconocido \lambda > 0. Entonces, para X_i, i = 1, \dots, n se obtiene f_{PO}(x_i ; \lambda) = \frac{\lambda^{x_i}}{x_i \, !} e^{-\lambda}. La función de verosimilitud para esta muestra x_1, \dots, x_n es entonces L(\lambda | x_1, \dots, x_n) = \sum\limits_{i=1}^n \frac{\lambda^{x_i}}{x_i \, !} e^{-\lambda} = \frac{\lambda^{x_1 + \dots + x_n}}{x_1 \, ! \cdot \dots \cdot x_n\, !} e^{- n\lambda} y el log de la verosimilitud: \log L(\lambda | x_1, \dots, x_n) = \sum\limits_{i=1}^n \log \left( \frac{\lambda^{x_i}}{x_i \, !} e^{-\lambda} \right) = \sum\limits_{i=1}^n (x_i \log \lambda - \log(x_i \, !) - \lambda)\, . Diferenciando respecto a \lambda e igualando a cero permite obtener \frac{\partial \log L}{\partial \lambda} = \sum\limits_{i=1}^n \left( \frac{x_i}{\widehat{\lambda}} - 1 \right) = 0, y por lo tanto \frac{1}{\widehat{\lambda}} \sum\limits_{i=1}^n x_i - n = 0, \widehat{\lambda} = \frac{1}{n} \sum\limits_{i=1}^n x_i = \bar x\, . La estimación MV de \lambda de una población con distribución de Poisson es la media aritmética de los valores muestrales. Una condición suficiente para un máximo en \lambda =\widehat{\lambda} es que cumpla que: \frac{\partial^2 \log L}{\partial \lambda^2} = -\frac{1}{\lambda^2} \sum\limits_{i=1}^n x_i < 0\, , dado que \lambda > 0, porque una variable con distribución de Poisson no puede tener valores negativos x_i.

Estimador MV de \lambda de una población con distribución Exponencial.

Sea una variable aleatoria X con distribución exponencial de parámetro desconocido \lambda < 0. La función de densidad de X es: f_{EX}(x|\lambda) = \left\{
                        \begin{array}{ll}
                            \lambda e^{-\lambda x} \quad & \text{para}\ x \geq 0, \lambda > 0\\
                            0 & \text{para}\ x <0\\
                        \end{array} \right. La función de verosimilitud para la muestra x_1, \dots, x_n de esta población es por tanto la dada como L(\lambda | x_1, \dots, x_n) = \prod_{i=1}^n \lambda e^{\lambda x_i} = \lambda^n \prod_{i=1}^n e^{-\lambda x_i} = \lambda^n e^{-\lambda \sum\limits_{i=1}^n x_i} y el log de la verosimilitud \log L(\lambda | x_1, \dots, x_n) = n \log \lambda - \lambda \sum\limits_{i=1}^n x_i \, . La primera derivada respecto a \lambda e igualando a cero \frac{\partial \log L(\lambda)}{\partial \lambda} = \frac{n}{\widehat{\lambda}} - \sum\limits_{i=1}^n x_i = 0 Para el estimador MV \widehat{\lambda} de \lambda en una población con distribución exponencial se obtiene que: \frac{n}{\widehat{\lambda}} = \sum\limits_{i=1}^n x_i \widehat{\lambda} = \frac{n}{\sum\limits_{i=1}^n x_i} = \frac{1}{\bar x}\, . La segunda derivada respecto a \lambda \frac{\partial^2 \log L(\lambda)}{\partial \lambda^2} = -\frac{n}{\lambda^2} \, , con lo cual la condición suficiente para el máximo se cumple porque n
> 0 y \lambda
> 0.

Aplicación del Método de Mínimos Cuadrados

Se toma una muestra aleatoria simple de tamaño n de una población de esperanza desconocida E(X)=\mu. Los valores muestrales X_i, i = 1, \dots, n son independientes e idénticamene distribuidos con E(X_i) = \mu de modo que se cumple g_i(\mu) = \mu para cualquier i. Se estima el parámetro desconocido \mu mediante el método de mínimos cuadrados utilizando la suma de los residuos al cuadrado para obtener \widehat{\mu} Q(\widehat{\mu}) = \sum\limits_{i=1}^n (x_i - \mu)^2 se minimiza. Diferenciando e igualando a cero: \frac{\partial Q(\widehat{\mu})}{\partial \mu} = -2 \, \sum\limits_{i=1}^n (x_i - \mu) = 0 \, . Realizando operaciones el estimador MC de \mu \widehat{\mu} = \frac{1}{n} \sum\limits_{i=1}^n x_i = \bar x respectivamente \bar X = \frac{1}{n} \sum\limits_{i=1}^n X_i \, . si se usan los valores muestrales X_1, \dots, X_n. La condición suficiente para tener un máximo en \mu= \widehat{\mu} es que la segunda derivada con respecto a \mu sea positiva: \frac{\partial^2 Q(\widehat{\mu})}{\partial \mu^2} = 2n > 0 \, . Bajo la condición de que tenemos una población con distribución N(\mu; \sigma), se puede ver que el estimador MV y el estimador MC coinciden cuando la esperanza E(X)=\mu es desconocida. Sin embargo, usando el método de MC no tenemos que hacer supuestos acerca de la distribución de la variable aleatoria X en la población.