Relación entre variables medidas con escala nominal (contingencia)

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


El punto de inicio para el análisis de las relaciones de dos variables X e Y medidas en una escala nominal es la distribución de frecuencia conjunta de X e Y de una tabla de contingencia que incluye Las frecuencias absolutas h_{ij}=h(x_i, y_j) \quad (i=1,\dots,m; j=1,\dots,r) o las frecuencias relativas f_{ij}=f(x_i, y_j)=h(x_i, y_j)/n \quad (i=1,\dots,m; j=1,\dots,r). Como ya hemos visto en el capítulo “parámetros de distribuciones bidimensionales” la frecuencia relativa para las realizaciones conjuntas x_i e y_i (i=1,\dots,m;j=1,\dots,r) es –en el caso de independencia– el producto de las frecuencias relativas de las distribuciones marginales de ambas variables: f_{ij}=f_{i\bullet} f_{\bullet j} and h_{ij}=\frac{h_{i\bullet} h_{\bullet j}} {n}=n f_{i\bullet} f_{\bullet j} Por lo tanto, podemos calcular una cantidad auxiliar - el cuadrado de la contingencia, representada como \chi^2: \chi^2=\sum^m_{i=1}\limits \sum^r_{j=1}\limits
 \frac{\left(h_{ij}-\frac{1}{n} h_{i\bullet} h_{\bullet j} \right)}
      {\frac{1}{n} h_{i\bullet} h_{\bullet j}} =
 n\sum^m_{i=1}\limits \sum^r_{j=1}\limits
 \frac {f_{ij}-f_{i\bullet} f_{\bullet j}}
       {f_{i\bullet} f_{\bullet j}} El numerador es la suma de las desviaciones al cuadrado de las frecuencias absolutas (relativas) observadas respecto a las frecuencias absolutas (relativas) esperadas (si las variables fueran independientes. Para lograr la estandarización se divide por las frecuencias absolutas (relativas) esperadas (si existiera independencia). Utilizando el cuadrado de la contingencia, podemos calcular el coeficiente de contingencia como una medida de la fortaleza en la relación de las dos variables medidas con escala nominal: C=
\sqrt{\frac{\chi^2}{n+\chi^2}} 0 \leq C \leq \sqrt{\frac{C^*-1}{C^*}} ; C^*=min (m,r). Si el coeficiente de contingencia es igual a 0 tenemos independencia estadística. El coeficiente de contingencia practicamente nunca alcanza el 1 aunque exista una relación perfecta entre las variables ya que el tamaño de muestra n es siempre mayor que 0 y por lo tanto el denominador es siempre mayor que el numerador. A fin de solucionar este problema y alcanzar el valor 1 en el caso de relación perfecta, se usa habitualmente el coeficiente de contingencia corregido, que puede ser calculado de la siguiente forma: C_{korr}=C
\cdot
\sqrt{\frac{C^*}{C^*-1}}
\qquad O \leq C_{korr} \leq 1

ejemplo:

Queremos analizar si existe o no relación entre fumar y tener cáncer de pulmón. Usamos la siguiente tabla de contingencia:

cáncer de pulmón cáncer de pulmón DM X
si(y_1) no(y_2)
fumador si (x_1) 10 15 25 (h_{1 \cdot})
fumador no (x_2) 5 70 75 (h_2 \cdot)
MD Y 15 (h_{\cdot 1)} 85 (h_{\cdot 2}) 100 (n)

\chi^2=\frac{\left(10- \frac{15 \cdot 25}{100} \right)^2}
           {\frac{15 \cdot 25}{100}} +
      \frac{\left(15- \frac{85 \cdot 25}{100} \right)^2}
           {\frac{85 \cdot 25}{100}} +
      \frac{\left(5- \frac{15 \cdot 75}{100} \right)^2}
           {\frac{15 \cdot 75}{100}} +
      \frac{\left(70- \frac{85 \cdot 75}{100} \right)^2}
           {\frac{85 \cdot 75}{100}} = 16,34 C=\sqrt{\frac{16,34}{100+16,34}}=0,375 C_{korr}=0,375 \cdot \sqrt{\frac{2}{2-1}}=0,53 El coeficiente de contingencia corregido de 0.53 evidencia una relación entre fumar y tener cáncer de pulmón. Tienes la oportunidad de generar una distribución de frecuencia bidimensional utilizando las variables de los siguientes conjuntos de datos:

Estudios

Se recogió la siguiente información en 107 estuddiantes: especialidad, género, edad, número de semestres, nacionalidad, situación social (muy buena/buena, satisfactoria, mala), situación psicológica (muy inestable, inestable, estable, muy estable) y la valoración de sus estudios (muy buena/buena, satisfactoria, mala).

Información

Se pregunto a 941 personas si se subscribían a una revista. Al mismo tiempo, se registró las siguientes variables: situación laboral (empleado, no empleado), edad (utilizando grupos 18 - 29, 30 - 39, 40 - 49), educación (menos de educación secundaria, educación secundaria, universidad)

Gasolineras

Se observaron 700 gasolineras. Para describir su localización, se observó el tamaño de la ciudad (“pequeño" si tiene menos de 100000 habitantes, “grande" si tiene al menos 100000 habitantes) y el tipo de carretera (car. general/autopista, carretera regional, calle principal). Además, se observó el tipo de servicio (servicio completo, sercio medio) y las ventas (pocas, medias, altas). Primero, se te pedirá que selecciones un grupo de datos. Luego, para los datos seleccionados, se mostrarán todas las posibles distribuciónes de frecuencia bidimensionales, asi como el estadístico \chi^2 y los coeficientes de contingencia. La base de datos de un gran almacen contiene las siguientes variables para un total de n = 165 clientes seleccionados aleatoriamente: lcl Variable& & posibles realizaciones

X género & &1- hombre
& &2- mujer

Y método de pago & &1- metálico
& &2- tarjeta ATM
& &3- tarjeta de crédito

Z residencia & &1- Berlín
& &2- no en Berlín
A continuación, se calculan las tres posibles bidimensionales que se pueden formar para las variables de este conjunto de datos. Tambieén se calcula el coeficiente de contingencia. La distribución de frecuencia bidimensional para las variables género y método de pago es una tabla de contingencia de 2\times3.

género (X) DM X
(y_1) (y_2) (y_3)
hombre (x_1) 31 (0,188) 32(0,194) 23(0,139 86 (0,521)
mujer (x_2) 30 (0,182) 29(0,176) 20 (0,121) 79 (0,479)
DM Y 61 (0,370) 61(0,370) 43 (0,260) 165
\chi^2 estadístico 0,08
coficiente de contingencia 0,02
coeficiente de contingencia corregido 0,03

El coeficiente de contingencia corregido de 0,03 muestra que existe una relación muy débil entre el género y el método de pago. La distibución de frecuencia bidimensional para las variables género y residencia es una tabla de contingencia de 2\times2.

género (X) DM X
Berlín (z_1) no en Berlín (z_2)
hombre (x_1) 50 (0,303) 36 (0,218) 86 (0,521)
mujer (x_2) 37 (0,224) 42 (0,255) 79(0,429)
DM Y 87 (0,527) 78 (0,473) 165 (1,00)
\chi^2 estadístico 2,11
coeficiente de contingencia 0,11
coeficiente de contingencia corregido 0,16

El coeficiente de contingencia de 0,16 muestra que la relación entre género y residencia es débil. La distribución de frecuencia bidimensional para las variables residencia y método de pago es una tabla de contingencia de 2\times3.

residencia (Z) DM X
(y_1) (y_2) (y_3)
Berlín (z_1) 44 (0,267) 22(0,133) 21(0,127) 87(0,527)
no en Berlín (z_2) 17(0,103) 39(0,237) 22(0,133) 78(0,473)
DM Y 62(0,370) 61(0,370) 43(0,260) 165(1,00)
\chi^2 estadístico 16,27
coeficiente de contingencia 0,30
coeficiente de contingencia corregido 0,42

El coeficiente de contingencia corregido de 0,42 –considerablemente más grande que en los dos casos anteriores– muestra que existe una relación medianamente fuerte entre residencia y método de pago.