Variables aleatorias bidimensionales

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Consideremos dos variables aleatorias X y Y. La función de probabilidad de dos variables aleatorias discretas: La función de probabilidad conjunta de las variables aleatorias X y Y se define como la probabilidad de que la variable X tome el valor x_i y que al mismo tiempo la variable Y tome el valor y_j. P(\{X=x_i \} \cap \{Y=y_j \}) = P(X=x_i, Y=y_j) = f(x_i, y_j) \quad i,j = 1, 2, \dots Las siguientes condiciones se deben cumplir: f(x_i, y_j) > 0 \quad i,j = 1, 2, \dots \qquad \text{ and } \sum\limits_i \sum\limits_j f(x_i, y_j) = 1 La función de probabilidad bidimensional de una variable aleatoria discreta se puede representar mediante una .

X \qquad Y y_1 y_j
x_1 f(x_1,y_1) f(x_1,y_j)
: : :
x_i f(x_i,y_1) f(x_i,y_j)
: : :


La densidad de los pares de variables aleatorias continuas: P(x < X \leq x + \triangle x; y < Y \leq y + \triangle y) = f(x,y) F(x,y) \geq 0, \quad \int\limits_{- \infty}^{+ \infty} \int\limits_{- \infty}^{+ \infty} f(x,y) \, dx \, dy = 1 La función de distribución de un par de variables aleatorias: La función de distribución F(x,y) es igual a la probabilidad de que la variable aleatoria X no sea mayor que x y, que al mismo tiempo, la variable Y no sea mayor que y. La función de distribución de los pares de variables aleatorias discretas pueden ser escritos como: F(x,y) = P(X \leq x,\, Y \leq y) = \sum\limits_{x_i \leq x} \sum\limits_{y_j \leq y} f(x_i, y)j) La función de distribución del par de variables aleatorias discretas: F(x,y) = \int\limits_{- \infty}^{+ \infty} \int\limits_{- \infty}^{+ \infty} f(u,v) \, du \, dv Distribución marginal La distribución marginal f(x_i) de la variable aleatoria discreta X muestra la probabilidad de que la variable X sea igual a x_i independientemente de lo que ocurra con el valor de la variable Y. La distribución marginal f(y_j) de la variable aleatoria Y se define de forma análoga. P(X = x_i) = f(x_i) = \sum\limits_j f(x_i,y_j) P(Y = y_j) = f(y_j) = \sum\limits_i f(x_i,y_j) Las distribuciones marginales resultantes son unidimensionales.

X \qquad Y y_1 y_j MR X
x_1 f(x_1,y_1) f(x_1,y_j) f(x_1)
: : : :
x_i f(x_i,y_1) f(x_i,y_j) f(x_i)
: : : :
MR Y f(y_1) f(y_j) 1,00


De forma similar, obtenemos las densidades marginales para los pares de variables aleatorias continuas X e Y: f(x) = \int\limits_{- \infty}^{+ \infty} f(x,y) \, dy f(y) = \int\limits_{- \infty}^{+ \infty} f(x,y) \, dx Función de distribución marginal La función de distribución marginal F_y(x) de una variable aleatoria X designa la función de distribución de la variable aleatoria X independientemente del valor de la variable Y. Se define del siguiente modo: P(X \leq x | Y) = F_y(x) = \left\{
                                \begin{array}{c}
                                    \sum\limits_{j = - \infty}^{+ \infty} \sum\limits_{i = - \infty}^x f(x_i,y_j) \quad \text{ para }X \ \text{discreta}\\
                                    \\
                                    \int\limits_{- \infty}^{+ \infty} \int\limits_{- \infty}^x f(u,v) \, du \, dv  \quad \text{ para }X \ \text{continua}                               \end{array}
                            \right. La función de distribución marginal F_x(y) de la variable aleatoria Y indica la función de distribución de la variable aleatoria Y independientemente del valor de la variable X. Su definición es: P(Y \leq y | X) = F_x(y) = \left\{
                                \begin{array}{c}
                                    \sum\limits_{j = - \infty}^y \sum\limits_{i = - \infty}^{+ \infty} f(x_i,y_j) \quad \text{ para }Y \ \text{discreta}\\
                                    \\
                                    \int\limits_{- \infty}^y \int\limits_{- \infty}^{+ \infty} f(u,v) \, du \, dv  \quad \text{ para }Y \ \text{continua}
                                \end{array}
                            \right.

Es s2 14 e 1.gif

Un cardiólogo piensa que existe cierta conexión entre un determinada enfermedad de los vasos sanguíneos y la edad del paciente. Por lo tanto, recopila los valores de esas dos variables para 100 pacientes. Sea X la edad del paciente y sea Y un indicador de la enfermedad con posibles valores y_1
= 0 \text{(paciente está sano) y } y_2 = 1 \text{paciente está enfermo.} El primer paso del análisis, que nos permitirá evaluar la validez de la hipótesis del cardiólogo, es describir la distribución conjunta mediante una tabla de contingencia. A el fin de simplificar la presentación de los resultados, se ha agrupado a los pacientes en pequeños grupos. Para la amplitud de los grupos de edad se seleccionó 5 años, para los pacientes más jovenes y más viejos se usaron 10 años: 20 - 29, 30 - 34, 35 - 39, 40 - 44, 45 - 49, 50 - 54,
55 - 59 \ \text{y} \  60 - 69\, . Ahora, la distribución de probabilidad conjunta de las dos variables aleatorias es la siguiente:

Edad X MD X
y_1 = 0 (no) y_2 = 1 (si)
20-29 0,09 0,01 0,10
30-34 0,13 0,02 0,15
35-39 0,09 0,03 0,12
40-44 0,10 0,05 0,15
45-49 0,07 0,06 0,13
50-54 0,03 0,05 0,08
55-59 0,04 0,13 0,17
60-69 0,02 0,08 0,10
MD Y 0,57 0,43 1,00


Las celdas de esta tabla de contingencia contiene probabilidades de que la variable aleatoria X esté en el grupo x_i y que al mismo tiempo la variable Y sea igual a y_j. En este punto, vamos a utilizar la definición estadística de la probabilidad. Por ejemplo, el contenido de la celda (2,1) indica que si selecciona un paciente de forma aleatoria, éste tiene una probabilidad de 0.13 de estar en el grupo de edad 30–34 y que no sufra la enfermedad. La distribución marginal (DM) de X muestra la distribución de probabilidad de la variable “edad”. De esta distribución marginal, podemos deducir, por ejemplo, que la probabilidad de que un paciente elegido al azar esté entre 30 y 34 años es: 0.15. La distribución marginal (DM) de Y contiene las probabilidades de enfermedad o no independientemente de la edad del paciente. Podemos ver que la probabilidad de que un paciente seleccionado al azar esté enfermo es de 0.43. La siguiente figura muestra las funciones de probabilidad bidimensionales para la edad y enfermedad de forma gráfica.

Es s2 14 e 2.gif

El cardiólo sabe, por su experiencia, que la gente mayor sufre más habitualmente esta enfermedad que en otros grupos. Por lo tanto, decide cambiar el agrupamiento de la variable “edad” de la forma siguiente: menos de 40, 41–54 años, más de 55 años. Usando esta agrupación más simplificada, obtenemos la siguiente distribucón conjunta:

Edad X MD X
y_1 = 0 (no) y_2 = 1 (si)
less than 40. 0,32 0,07 0,39
41–54 0,19 0,15 0,34
más de 55 0,06 0,21 0,27
MD Y 0,57 0,43 1,00


El gráfico siguiente muestra la función de probabilidad bidimensional:

Es s2 14 e 3.gif

Conclusión:
La agrupación es necesaria para las variables discretas con un número de posibles resultados bastante grande. La información, obtenida de la tabla de contingencia, depende de la agrupación de la variable. Por lo tanto, es recomendable realizar un análisis estadístico detallado para diferenciar los distintos tipos de grupos. Los habitantes de una ciudad fueron preguntados

  • si habian participado en las elecciones al parlamento (variable aleatoria X con posibles valores x_1 = \ \text{si y}\ x_2 = \ \text{no}
  • si estaban interesados en la política (variable aleatoria Y con posibles valores y_1 = \ \text{muy interesados, }
    y_2 = \ \text{interesados, } y_3 = \ \text{medianamente interesado, } y_4 = \ \text{poco interesado y } y_5 = \ \text{nada interesadono.}

La distribución de probabilidad conjunta de ambas variables aleatorias se muestra en la siguiente tabla de contingencia:

Participación electoral MD X
muy int. y_1 int. y_2 medi. int. y_3 poco int. y_4 nada int. y_5
si (x_1) 0,107 0,196 0,398 0,152 0,042 0,895
no (x_2) 0,006 0,011 0,036 0,031 0,021 0,105
MD Y 0,113 0,207 0,434 0,183 0,063 1,000


Cada celda de esta tabla contiene la probabidad de que la variable aleatoria X tome el valor x_i y que al mismo tiempo la variable Y tome el valor y_j.
El contenido de la celda (1,2) dice que si se selecciona un habitante al azar, estará muy interesado en política y habrá votado en las elecciones con una probabilidad de 0.196. La distribución marginal (MD) X da la distribución de probabilidad de la variable aleatoria “participación electoral”. Por ejemplo, el valor 0.105 es la probabilidad de que un ciudadano (elegido al azar) haya participado en las elecciones parlamentarias. La distribución marginal (MD) Y es la distribución de probabilidad de la variable aleatoria “interés en la política”. Por ejemplo, el valor 0.183 es la probabilidad de que cierto individuo (seleccionado aleatoriamente) tenga poco interés en la política. Los siguientes gráficos muestran la función de probabilidad bidimensional de la participación electoral y el grado de interés en la política.

Es s2 14 f 1.gif

Consideremos dos variables aleatorias continuas X e Y con la densidad conjunta f(x,y) = \left\{ \begin{array}{cl}
                        \frac{x + 3 y}{2} \quad & \text{para } 0 < x < 1 \ \text{y } 0 < y < 1\\
                        0 & \text{otro caso.}
                    \end{array}
                \right. Para esta densidad, tenemos: \begin{align}
\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f(x,y)\, dx\, dy & = & \int_0^1 \int_0^1 \frac{x + 3 y}{2} \, dx\, dy = \int_0^1 \left[ \frac{x^2}{4} + \frac{3xy}{2} \right]_0^1\, dy\\
& = & \int_0^1 \left( \frac{1}{4} + \frac{3y}{2} \right) \, dy = \left[ \frac{y}{4} + \frac{3y^2}{2} \right]_0^1 = 1\end{align} La siguiente figura contiene el gráfico de la función de probabilidad bidimensional de las variables X e Y.

Es s2 14 f 4.gif

Obtenemos las siguientes distribuciones marginales: f(x) = \int_{-\infty}^{\infty} f(x,y)\, dy = \int_0^1 \frac{x + 3y}{2}\, dy = \left[ \frac{xy}{2} + \frac{3y^2}{4} \right]_0^1 f(x) = \left\{ \begin{array}{cl}
                        \frac{x}{2} + \frac{3}{4} \quad & \text{para } 0 < x < 1 \\
                        0 & \text{en otro caso.}
                    \end{array}
                \right. y f(y) = \int_{-\infty}^{\infty} f(x,y)\, dx = \int_0^1 \frac{x + 3y}{2}\, dx = \left[ \frac{x^2}{4} + \frac{3xy}{2} \right]_0^1 f(y) = \left\{ \begin{array}{cl}
                        \frac{3 y}{2} + \frac{1}{4} \quad & \text{para } 0 < y < 1\\
                        0 & \text{en otro caso.}
                    \end{array}
                \right.