Independencia

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


La independencia (estocástica) de dos X e Y se define mediante el teorema del producto para sucesos aleatorios independientes . Si dos sucesos, A y B, son independientes, entonces la probabilidad de que dichos sucesos ocurran al mismo tiempo es igual al producto de sus probabilidades. P(A \cap B) = P(A) \cdot P(B) Consideremos los sucesos A = \{X=x_i \} y B = \{Y=y_j \}. Ahora, podemos definir la independencia de dos variables aleatorias discretas X e Y: Decimos que dos variables aleatorias X e Y son estocásticamente independientes si P(X = x_i, Y = y_j) = P(X = x_i) \cdot p(Y = y_j) o equivalentemente f(x_i,y_j) = f(x_i) \cdot f(y_j) para todos los pares (x_i,y_j) de los posibles resultados de las variables aleatorias X e Y. Las variables aleatorias son dependientes si existe al menos un par (x_i,y_j) para el cual la afirmación anterior no es cierta. De forma análoga, definimos la independencia de dos variables aleatorias continuas: Decimos que dos variables aleatorias continuas X e Y son estocásticamente independientes si f(x) y f(y) son sus densidades y si para todos los pares (x,y) de números reales es cierto que F(x,y) = f(x) \cdot f(y)

Distribución condicionada

Denotemos por P(X = x_i |Y = y_j) la probabilidad de que una variable aleatoria discreta X sea igual a x_i condicionada al hecho de que la variable aleatoria Y es igual a y_j. De forma análoga, denotamos por P(Y = y_j |X = x_i) la probabilidad de que la variable aleatoria discreta Y sea igual a y_j condicionada a X = x_i. De acuerdo con la teoría de probabilidad P(A|B) = \frac{P(A \cap B)}{P(B)} \text{ y} P(B|A) = \frac{P(A \cap B)}{P(A)} En variables aleatorias discretas, para A =
\{X=x_i
\} y B
=
\{Y=y_j
\}, obtenemos \begin{align}
P(X = x_i |Y = y_j) & = & \frac{P(X=x_i,Y=y_j)}{P(Y=y_j)}\\
& = & \frac{f(x_i,y_j)}{f(y_j)} = f(x_i |y_j)\\
P(Y = y_j |X = x_i) & = & \frac{P(X=x_i,Y=y_j)}{P(X=x_i)}\\
& = & \frac{f(x_i,y_j)}{f(x_i)} = f(y_j |x_i)\\\end{align} De forma similar, tenemos para variables aleatorias continuas: f(x|y) = \frac{f(x,y)}{f(y)} f(y|x) = \frac{f(x,y)}{f(x)} Las funciones de distribución condicionadas son las siguientes: F(x|y) = \frac{F(x,y)}{F_x(y)} = \left\{
                                \begin{array}{c}
                                    \frac{\sum\limits_{i = - \infty}^x \sum\limits_{j = - \infty}^y f(x_i,y_j)}{\sum\limits_{i = - \infty}^{+ \infty} \sum\limits_{j = - \infty}^y f(x_i,y_j)} \quad \text{ para }X \text{e}\ Y \text{ discretas}\\
                                    \\
                                    \frac{\int\limits_{- \infty}^x \int\limits_{- \infty}^y f(u,v) \, dv \, du}{\int\limits_{- \infty}^{+ \infty} \int\limits_{- \infty}^y f(u,v) \, dv \, du}  \quad \text{ para }X \ \text{e}\ Y \text{ continuas}
                                \end{array}
                            \right. F(y|x) = \frac{F(x,y)}{F_y(x)} = \left\{
                                \begin{array}{c}
                                    \frac{\sum\limits_{i = - \infty}^x \sum\limits_{j = - \infty}^y f(x_i,y_j)}{\sum\limits_{i = - \infty}^x \sum\limits_{j = - \infty}^{+ \infty} f(x_i,y_j)} \quad \text{ para }X \ \text{e}  \ Y \text{ discretas}\\
                                    \\
                                    \frac{\int\limits_{- \infty}^x \int\limits_{- \infty}^y f(u,v) \, dv \, du}{\int\limits_{- \infty}^x \int\limits_{- \infty}^{+ \infty} f(u,v) \, dv \, du}  \quad \text{ para }X \ \text{e} \ Y \text{ continuas}
                                \end{array}
                            \right.

Es s2 55 e 3.gif

En el año 1991, 3000 alemanes fueron preguntados para expresar su opinión acerca de la situación económica del momento de Alemania. Las posibles respuestas eran:
1–muy buena, 2–buena, 3–normal, 4–mala, 5–muy mala.
Definamos la variable aleatoria X como la “situación económica del momento”. Los posibles valores de esta varaible son las posibles respuestas. Además de la pregunta, los investigadores recogieron también el lugar de residencia de los encuestados—los posibles valores de esta variable eran Este (incluyendo el anterior Berlin Este) y Oeste (incluyendo el anterior Berlin Oeste). Esta variable la denotamos como Y “residencia” y los posibles valores son y_1 – Oeste, y_2 – Este. La distribución conjunta observada de las dos variables aleatorias se muestra en la tabla 1. La pregunta de interés es si la afirmación de que la situación económica depende del lugar de residencia del encuestado. Consecuentemente, la Tabla 1 contiene también las probabilidades calculadas para las distribuciones marginales bajo los supuestos de independencia (es decir, f(x_i, y_j) = f(x_i)
\cdot f(y_j)) que se denotan como “esperadas”. Tabla 1: La situación económica del momento (X) y la residencia del encuestado (Y) en 1991

MD X
Oeste Este
muy buena observada 0,072 0,056 0,128
esperada 0,063 0,065
buena observada 0,257 0,204 0,461
esperada 0,228 0,233
normal observada 0,151 0,227 0,378
esperada 0,187 0,191
mala observada 0,012 0,014 0,026
esperada 0,013 0,013
muy mal observada 0,002 0,005 0,007
expected 0,003 0,004
MD Y 0,494 0,506 1,000


Los siguientes gráficos muestran las funciones de probabilidad conjunta de las dos variables aleatorias.

Es s2 15 e 1.gif

A fin de investigar la independencia de las variables aleatorias, calculamos la distribución condicionada. Las distribuciones condicionadas f(y_j | x_i) se muestra en la Tabla 2. Tabla 2: Distribución condicionada f(y_j | x_i) para 1991

Situación económica X MD X
Oeste Este
muy buena 0,563 0,437 1,000
buena 0,558 0,442 1,000
normal 0,399 0,601 1,000
mala 0,462 0,538 1,000
muy mala 0,286 0,714 1,000


La Tabla 1 implica:
La probabilidad de que un ciudadano aleatorio venga del Oeste y considere que la situación económica es “buena” es 0.257. Para variables aleatorias independientes, esta probabilidad debería ser 0.228. La Tabla 2 implica:
Un ciudadano aleatorio que considera que la situación económica es buena, y que viene el Oeste tiene una probabilidad de 0.558 y del Este su probabilidad es 0.442. Estas probabilidades difieren de la distribución mariginal de Y en la última fila de la Tabla 1. Esto implica que las variables aleatorias X e Y no son independientes, es decir, la confirmación de que la situación económica depende de la residencia del encuestado. La investigación fue repetida con otras 3000 personas en el año 1996. La distribución conjunta obtenida en este estudio es la dada en la Tabla 3 junto con los valores esperados bajo independencia. La Tabla 4 muestra las distribuciones condicionadas f(y_j | x_i). Tabla 3: Situación económica del momento (X) y el lugar de residencia del encuestado (Y) en 1996

MD X
Oeste Este
muy bien observada 0,006 0,002 0,008
esperada 0,05 0,003
buena observeda 0,082 0,036 0,118
esperada 0,078 0,040
normal observada 0,314 0,175 0,489
esperada 0,323 0,166
mala observada 0,215 0,104 0,319
esperada 0,211 0,108
muy mala observada 0,044 0,022 0,066
esperada 0,044 0,022
MD Y 0,661 0,339 1,000


Tabla 4: Distribuciones condicionadas f(y_j | x_i), para (1996)

Situación económica X MD X
Oeste Este
muy buena 0,750 0,250 1,000
buena 0,558 0,305 1,000
normal 0,358 0,601 1,000
mala 0,462 0,326 1,000
muy mala 0,667 0,333 1,000


Los siguientes gráficos muestran la distribución conjunta de la función de probabilidad bidimensional de las variables aleatorias.

Es s2 15 e 2.gif

También en el año 1996, hay diferencias entre las probabilidades observadas y las probabilidades esperadas bajo el supuesto de independencia. También las distribuciones condicionadas f(y_j | x_i) difieren de las distribuciones marginales de Y. Esto significa que también en 1996, no podemos confirmar la independencia entre la situación económica y el lugar de residencia. La conclusión relativa a la independencia de las variables aleatorias “situación económica” y “lugar de residencia” es válida sólo para las 3000 personas incluidas en el experimento. Este ejemplo será investigado en el capítulo relativo a Contraste “\chi^2 de independencia”. Los ciudadanos de una ciudad fueron preguntados

Es s2 45 f 4.gif

  • Si habían participado en las elecciones parlamentarias (variable aleatoria X con posibles resultados x_1 = \ \text{si y}\ x_2 = \ \text{no}
  • si estaban interesados en política (variable aleatoria Y con posibles valores y_1 = \ \text{muy interesado, }
    y_2 = \ \text{interesado, } y_3 = \ \text{medianamente interesado, } y_4 = \ \text{poco interesado y } y_5 =\text{nada interesado.}

La distribución de probabilidad conjunta de las variables aleatorias se muestra en la siguiente tabla de contingencia:

Participación electoral MD X
muy inter. y_1 interesado y_2 med. inter. y_3 poco int. y_4 nada inter. y_5
si (x_1) 0,107 0,196 0,398 0,152 0,042 0,895
no (x_2) 0,006 0,011 0,036 0,031 0,021 0,105
DM Y 0,113 0,207 0,434 0,183 0,063 1,000


De esta distribución condicionada se pueden obtener las distribuciones condicionadas

a) La distribución condicionada f(y_j | x_i)

Participación electoral
muy interesado y_1 interesado y_2 mediana. interesado y_3 poco interesado y_4 nada interesado y_5
si (x_1) 0,120 0,219 0,444 0,170 0,047 1,00
no (x_2) 0,057 0,105 0,343 0,295 0,200 1,00


La probabilidad de que un ciudadano elegido al azar esté muy interesado en política si sabemos que ha participado en las elecciones (X = \ \text{si}) es 0.219. Por otro lado, esta probabilidad para un ciudadano que no ha tomado parte en las elecciones (X =\text{no}) es sólo 0.105.

b) Distribución condicionada f(x_i | y_j)

Participación electoral
muy interesado y_1 interesado y_2 med. interesado y_3 poco interesado y_4 nada interesado y_5
si (x_1) 0,947 0,947 0,917 0,831 0,667
no (x_2) 0,053 0,053 0,083 0,169 0,333
1,000 1,000 1,000 1,000 1,000


Un ciudadano seleccionado aleatoriamente con poco interés en política (Y=\text{poco interés}) tiene una probabilidad de 0.831 de participar en las elecciones (X =  \text{si}). La comparación de las distribuciones condicionadas f(y_j | x_i) y f(x_i | y_j) indica que estas variables aleatorias no son independientes porque las distribuciones condicionadas son distintas. La dependencia se puede comprobar utilizando la siguiente fórmula f(x_i,y_j) = f(x_i) f(y_j) para todo i y j. Por ejemplo, f(x_1) f(y_2) = 0,895 \cdot 0,207 = 0,185, pero este valor difiere de la probabilidad f(x_1, y_2)
= 0,196 que se obtiene en la correspondiente celda de la tabla de contingencia de la distribución conjunta. lo que significa que estas variables no son independientes. Supongamos dos variables aleatorias continuas X e Y con la densidad conjunta f(x,y) = \left\{ \begin{array}{cl}
                        \frac{x + 3 y}{2} \quad & \text{para } 0 < x < 1 \ \text{y } 0 < y < 1\\
                        0 & \text{en otro caso}
                    \end{array}
                \right. y las distribuciones marginales f(x) = \left\{ \begin{array}{cl}
                        \frac{x}{2} + \frac{3}{4} \quad & \text{para } 0 < x < 1 \\
                        0 & \text{en otro caso}
                    \end{array}
                \right. y f(y) = \left\{ \begin{array}{cl}
                        \frac{3 y}{2} + \frac{1}{4} \quad & \text{para } 0 < y < 1\\
                        0 & \text{en otro caso.}
                    \end{array}
                \right. Fig. 1: La densidad conjunta f(x;y)

Es s2 15 f 5.gif

Fig. 2: La distribución marginal X: f(x)

Es s2 15 f 6.gif

Fig. 3: La distribución marginal Y: f(y)

Es s2 15 f 7.gif

Intentando mostrar la independencia de las variables aleatorias continuas, tenemos que verificar que f(x,y) = f(x)f(y): f(x)f(y) = \left( \frac{x}{2} + \frac{3}{4} \right) \left( \frac{3y}{2} + \frac{1}{4} \right) = \frac{3}{4}xy + \frac{9}{8}y + \frac{1}{8}x + \frac{3}{16} \neq \frac{x + 3y}{2} = f(x,y) Lo cual implica que estas variables no son independientes. La independencia de variables aleatorias se define utilizando la independencia estocástica de sucesos aleatorios. Para la afirmación de independencia estocástica (independencia), se calcula las distribuciones marginales de los componentes de la variable aleatoria bidimensional y se calcula su producto. Las variables aleatorias son independientes si el producto de las distribuciones marginales es igual a la distribución conjunta de las variables aleatorias para todo x_i ; y_j. Además de la distribución conjunta bidimensional, a veces, estamos interesados también en la distribución unidimensional de una de las variables aleatorias bajo estudio. Esta es la distribución marginal que no depende de los valores que pueda tomar la otra variable. Por esta razón, se calcula la suma por filas y columnas de la tabla de contigencia bidimensional. Las distribuciones marginales son unidimensionales. Algunas veces, estamos interesados en la distribución de una variable condicionada a un determinado valor de la otra. En esta situación, estamos analizando la distribución condicionada de X dado Y, y la distribución condicionada de Y dado X. La distribución condicionada se calcula dividiendo los valores de la distribución bidimensional entre los valores de la distribución marginal. Todas las fórmulas usadas para la distribución condicionada se pueden escribir de forma similar para el caso continuo. En este caso trabajaremos con densidades condicionadas en lugar de probabilidades condicionadas.