Teorema Central del Límite

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Una propiedad de la distribución Normal es que la suma de n variables aleatorias independientes X_1,X_2, \dots ,X_n con distribución Normal, es también una distribución Normal. Esta propiedad es cierta para cualquier valor de n.
Si las variables aleatorias X_1,X_2, \dots ,X_n no están normalmente distribuidas, entonces esta propiedad no es exactamente cierta, pero vale de forma aproximada para n grande.
Sean X_1,X_2, \dots ,X_n variables aleatorias independientes e idénticamente distribuidas con E(X_i) = \mu y Var(X_i) = \sigma^2 > 0 para i = 1,\dots,n. Entonces la suma de estas variables aleatorias es para n grande, aproximadamente normal:
E(X_1+X_2+\dots+X_n) = n\mu y Var(X_1+X_2+\dots+X_n) = n\sigma^2
X_1+X_2+\dots+X_n \approx N(n\mu,n\sigma^2),
donde \approx significa aproximadamente para n grande.
Este resultado requiere que ninguna de las variables aleatorias debe ser responsable de la mayoría del valor de la varianza.
La distribución N(n\mu,n\sigma^2) depende de los n sumandos y para n infinito tenemos que el valor esperado y la varianza son infinitos. El sentido de este teorema es que puede ser descrito más claramente si usamos sumas estandarizadas de variables aleatorias.

Teorema Central del Límite

Sean X_1+\dots+X_n variables aleatorias independientes e idénticamente distribuidas: E(X_i) = \mu y Var(X_i) = \sigma^2 > 0 .
Entonces, la función de distribución F_n(z)
= P(Z_n \leq z) de las sumas estandarizadas Z_n = \frac{\sum\limits_{i=1}^n X_i - n\mu}{\sqrt{n\sigma^2}} =
\frac{1}{\sqrt{n}}\sum{i=1}^n \frac{X_i - \mu}{\sigma} converge para n\rightarrow \infty hacia una distribución Normal estandarizada: \lim_{n \rightarrow \infty} F_n(z) = \Phi(z) La variable aleatoria “estandarizada” Z_n se distribuye aproximadamente como una distribución Normal estandarizada: Z_n \approx N(0;1). En este ejemplo, vamos a ilustrar el principio del Teorema Central del Límite. Sean las variables aleatorias continuas X_1, X_2,
\dots variables aleatorias, independientes y uniformemente – identicamente distribuidas en el intervalo [-0,5 ; 0,5]: f(x) = \left\{ \begin{array}{ll} 1 \quad & \text{para}\ -0,5 \leq x \leq 0,5\\
                                                                        0 \quad& \text{otro caso.}\\
                \end{array} \right. El valor esperado y la varianza son: E(X) = \frac{b + a}{2} = \frac{0,5 - 0,5}{2} = 0 Var (X) = \frac{(b-a)^2}{12} = \frac{[0,5 - (-0,5)]^2}{12} = \frac{1}{12}\,. Consideremos una secuencia de la suma de estas varaibles, el indice de la variable Y indica el número de observaciones en la muestra: Y_n = \sum_{i=1}^n X_i \qquad n = 1,2,3,\dots\,. Por ejemplo, para n=1, n=2, y n=3 tenemos:
Y_1 = X_1
Y_2
= X_1 + X_2
Y_3 = X_1 + X_2 + X_3.
y las densidades: f(y_1) = \left\{ \begin{array}{ll} 1 \quad & \text{para}\ -0,5 \leq y_1 \leq
0,5\\
                                                                        0 \quad& \text{otro caso}\\
                \end{array} \right. f(y_2) = \left\{ \begin{array}{ll} 1 + y_2 \quad & \text{para}\ -1 \leq y_2
\leq 0\\
                                                                        1 - y_2 \quad & \text{para}\ 0 \leq y_2 \leq
                                                                        1\\
                                                                        0 \quad& \text{otro caso}\\
                \end{array} \right. f(y_3) = \left\{ \begin{array}{ll} 0,5(1,5 + y_3)^2 \quad & \text{para}\ -1,5
\leq y_3 \leq -0,5\\
                                                                        0,5 + (0,5 + y_3)(0,5 - y_3) \quad &
                                                                        \text{para}\ -0,5 < y_3 \leq 1,5\\
                                                                        0,5(1,5 - y_3)^3 \quad & \text{para}\ 0,5 <
                                                                        y_3 \leq 1,5\\
                                                                        0 \quad& \text{otro caso}\\
                \end{array} \right. Todas estas densidades se muestran en la siguiente figura, que tambien contiene la representación de una densidad N(0,1) para comparar: Es s2 27 f 7.gif La convergencia de estas distribuciones hacia una normal se puede ver claramente. Incrementando el número de sumandos la distribución se hace cada vez más similar a la distribución Normal. De hecho, para n \geq 30 dificilmente se observa ninguna diferencia. El Teorema Central del Límite (Lindeberg y Lévy) es la razón principal de la importancia de la distribución Normal. La utilidad práctica de este teorema deriva del hecho de que una muestra de variables aleatorias independientes e indénticamente distribuidas tiene una distribución Normal aproximada si la muestra aumenta (normalmente n \geq 30). Este teorema es particularmente importante a la hora de derivar la distribución muestral de los estadísticos. La convergencia hacia la distribución Normal puede ser muy rápida si la distribución de las variables aleatorias es simétrica. Si la distribución no es simétrica, entonces la convergencia será más lenta. El Teorema Central del Límite tiene varias generalizaciones (por ejemplo, TCL de Ljapunov para independencia, pero no para variables aleatorias identicamente distribuidas). Además de este, existen otros muchos teoremas límites que describen la convergencia hacia otras distribuciones que no son normales.