Distribución marginal y condicionada

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Distribución marginal

Dada una distribución de frecuencia bidimensional de las variables X e Y. La distribución marginal de X (y respectivamente Y) es la distribución unidimensional de la variable X (respectivamente Y), en la que no se considera que ha ocurrido en la varible Y (respectivamente X). La distribución marginal es el resultado de “sumar” las frecuencias de las realizaciones, por ejemplo, apra la distribución marginal de X:

Distribución marginal de X
Variable X y_1 y_2 y_3
\cdots \cdots \cdots \cdots \cdots
x_i h(x_i,y_1) h(x_i,y_2) h(x_i,y_3) =h(x_i,y_1)+h(x_i,y_2)+h(x_i,y_3)
\cdots \cdots \cdots \cdots \cdots
Distribución marginal de Y \cdots \cdots \cdots

Distribución marginal de la varible X con los valores x_j: h_{i \cdot}=\sum_{j-1}^r h_{ij};\ i=1,...,,m Distribución marginal de la variable Y con los valores y_j: h_{\cdot j}=\sum_{i-1}^m h_{ij};\ j=1,...,r Número total de posibles valores de X e Y (igual n): h_{\cdot \cdot}=\sum_{i-1}^m\sum_{j-1}^r h_{ij}=\sum_{i-1}^m h_{i \cdot}=\sum_{j-1}^r h_{\cdot j}=n

distribución condicionada

Dada una distribución de frecuencia bidimensional de dos varibles X e Y. La distribución de frecuencia de X (Y), que es el resultado de determinado valor de Y (X) se llama distribución condicionada o distribución condicional de X (Y) dado y_j (x_i). La distribución de frecuencia condicionada relativa de X dado Y=y_j: f(x_i|Y=y_j)=f(x_i|y_j)=\frac{f_{ij}}{f_{\cdot j}}=\frac{h_{ij}}{h_{\cdot j}} La distribución de frecuencia condiconada relativa de Y dado X=x_i: f(y_j|X=x_i)=f(y_j|x_i)=\frac{f_{ij}}{f_{i \cdot}}=\frac{h_{ij}}{h_{i\cdot}} Las distribuciones condicionadas son distribuciones unidimensionales. ejemplo: El punto de inicio es una tabla de contingencia de 5\times3 de las variables: X - ocupación (medida en escala nominal)
Y - actividad deportiva (medida en escala nominal) que se han observado para n = 1000 empleados.

ocupación X actividad deportiva Y DM X
rara vez a veces regularmente
trabajador 120 70 430
asalariado 160 90 90 340
funcionario 30 30 30 90
agricultor 37 7 6 50
autoempleado 40 32 18 90
DM Y 507 279 214 1000

La distribución condicionada de la varible Y (actividad deportiva) dado x_i (tipo de trabajo):

ocupación X actividad deportiva Y DM X
rara vez a veces regularmente
trabajador 0,56 0,28 0,16 1,00
asalariado 0,47 0,26 0,26 1,00
funcionario 0,33 0,33 0,33 1,00
agricultor 0,74 0,14 0,12 1,00
autoempleado 0,44 0,36 0,20 1,00

En una muestra de 941 personas, se recogieron las respuestas edad (agrupada en 18-29, 30-39 y 40-49) y nivel de educación logrado (universidad, bachillerato, educación secundaria, educación primaria). Las frecuencias observadas se muestran en la siguiente tabla de contingencia de 3\times 4:

universidad bachillerato educación secundaria educación primaria DM (edad)
18–29 38 93 134 42 307
30–39 23 94 168 70 355
40–49 12 39 129 99 279
DM (educación) 73 226 431 211 941

Las distribuciones condicionadas de la educación, para una edad dada, se resumen en la siguiente tabla:

universidad bachillerato educación secundaria educación primaria
18–29 0,124 0,303 0,436 0,137 1,000
30–39 0,065 0,265 0,473 0,197 1,000
40–49 0,043 0,140 0,462 0,355 1,000

Cada elemento de la distribución se ha calculado como el cociente entre la celda respectiva de la distribución conjunta y el dato correspondiente con la distribución marginal de la edad. La tabla muestra que en los años 18-29 el 12,4% tiene estudios universitarios, 30,3% bachillerato y 43,6% finalizó la educación secundaria. En el grupo de 40-49 años, la fracción de personas con estudios unviersitarios es sólo 4,3%. La distribución condicionada de la edad, para un nivel dado de educación, se construye de forma similar:

universidad bachillerato educación secundaria educación primaria
18–29 0,521 0,411 0,311 0,199
30–39 0,315 0,416 0,390 0,332
40–49 0,164 0,173 0,299 0,469
1,000 1,000 1,000 1,000

Se puede ver que en aquellos con bachillerato, 41,1% pertenecen al grupo de edad 18-29, 41,6% al grupo 30-39 y finalmente 17,3% al grupo 40-49. Para n = 100 personas seleccionadas aleatoriamente se ha obtenido si son fumadores y si tienen cáncer de pulmón. Las variables son X - Fumador con realizaciones x_1 = si y x_2 = no Y - Cáncer de pulnón con realizaciones y_1 = si e y_2 = no La distribución de frecuencia bidimensional es una tabla de contingencia de 2\times2

cáncer de pulmón cáncer de pulmón MDX
si (y_1) no(y_2)
fumador si (x_1) 10 15 25
fumador no (x_2) 5 70 75
MD Y 15 85 100

Las distribuciones condionadas de la variable X (fumador) dado y_j (cáncer de pulmón) se muestran en la siguiente tabla:

cáncer de pulmón cáncer de pulmón
si (y_1) no (y_2)
fumador si 0,667 0,176
fumador no 0,333 0,824
1,000 1,000

Cada elemento de la distribución ha sido calculado como el cociente entre la celda respectiva de la distribución conjunta entre el valor correspondiente de la distribución marginal (cáncer de pulmón si o no). De la tabla se puede observar que 66,7% de las personas diagnosticadas de cáncer son fumadores. 82,4% de las personas no diagnosticadas de cáncer no son fumadores. La distribución condicionada de la varible Y (cáncer de pulmón), para un valor dado x_i (fumador/no-fumador) se construye de forma análoga:

cáncer de pulmón cáncer de pulmón
si (y_1) no (y_2)
fumador si (x_1) 0,400 0,600 1,000
fumador no (x_2) 0,067 0,933 1,00

Po lo tanto, 40% de los fumadores pero sólo el 6,7% de todos los no fumadores han sido diagnosticados de cáncer de pulmón. Es folnode4 c k 1.gif En una muestra de 107 estudiantes se observó la especialidad y el género. Las respuestas generaron la siguiente tabla de contingencia de 9\times2:

mujer hombre MD (major)
cie. sociales 12 13 25
ingeniería 1 1 2
derecho 8 13 21
medicina 6 4 10
cien. naturales 1 8 9
psicología 3 8 11
otra 1 0 1
teología 7 2 9
empresas 5 14 19
DM (género) 44 63 107

Ćual es el porcentaje de mujeres y hombres en cada especialidad? La respuesta se obtiene mediante una distribución conditionada del género, dada la especialidad. Las frecuencias de la distribución condicionadase obtiene como la fracción entre las celdas correspondientes de la distribución conjunta y la distribución marginal de la especialidad.

mujer hombre MD (major)
cien sociales 0,480 0,520 1,000
engeniería 0,500 0,500 1,000
derecho 0,381 0,619 1,000
medicina 0,600 0,400 1,000
cienc.naturales 0,111 0,889 1,000
psicología 0,273 0,727 1,000
otra 1,000 1,000 1,000
teología 0,778 0,222 1,000
empresas 0,263 0,737 1,000
total 0,411 0,589 1,000

Los resultados muestran que empresas está dominada por hombres, un 73,7% de todos los estudiantes de esa especialidad. Por otra parte, en teología las mujeres son mayoría con un 77,8%.