Relación entre variables medidas con escala nominal (contingencia)
From MM*Stat International
English |
Português |
Français |
Español |
Italiano |
Nederlands |
El punto de inicio para el análisis de las relaciones de dos variables e medidas en una escala nominal es la distribución de frecuencia conjunta de e de una tabla de contingencia que incluye
Las frecuencias absolutas o las frecuencias relativas .
Como ya hemos visto en el capítulo “parámetros de distribuciones bidimensionales” la frecuencia relativa para las realizaciones conjuntas e es –en el caso de independencia– el producto de las frecuencias relativas de las distribuciones marginales de ambas variables:
and
Por lo tanto, podemos calcular una cantidad auxiliar - el cuadrado de la contingencia, representada como :
El numerador es la suma de las desviaciones al cuadrado de las frecuencias absolutas (relativas) observadas respecto a las frecuencias absolutas (relativas) esperadas (si las variables fueran independientes. Para lograr la estandarización se divide por las frecuencias absolutas (relativas) esperadas (si existiera independencia).
Utilizando el cuadrado de la contingencia, podemos calcular el coeficiente de contingencia como una medida de la fortaleza en la relación de las dos variables medidas con escala nominal:
; .
Si el coeficiente de contingencia es igual a 0 tenemos independencia estadística. El coeficiente de contingencia practicamente nunca alcanza el 1 aunque exista una relación perfecta entre las variables ya que el tamaño de muestra es siempre mayor que 0 y por lo tanto el denominador es siempre mayor que el numerador.
A fin de solucionar este problema y alcanzar el valor 1 en el caso de relación perfecta, se usa habitualmente el coeficiente de contingencia corregido, que puede ser calculado de la siguiente forma:
ejemplo:
Queremos analizar si existe o no relación entre fumar y tener cáncer de pulmón. Usamos la siguiente tabla de contingencia:
cáncer de pulmón | cáncer de pulmón | DM | |
si() | no() | ||
fumador si () | 10 | 15 | 25 |
fumador no () | 5 | 70 | 75 |
MD | 15 | 85 | 100 |
El coeficiente de contingencia corregido de 0.53 evidencia una relación entre fumar y tener cáncer de pulmón. Tienes la oportunidad de generar una distribución de frecuencia bidimensional utilizando las variables de los siguientes conjuntos de datos:
Estudios
Se recogió la siguiente información en 107 estuddiantes: especialidad, género, edad, número de semestres, nacionalidad, situación social (muy buena/buena, satisfactoria, mala), situación psicológica (muy inestable, inestable, estable, muy estable) y la valoración de sus estudios (muy buena/buena, satisfactoria, mala).
Información
Se pregunto a 941 personas si se subscribían a una revista. Al mismo tiempo, se registró las siguientes variables: situación laboral (empleado, no empleado), edad (utilizando grupos 18 - 29, 30 - 39, 40 - 49), educación (menos de educación secundaria, educación secundaria, universidad)
Gasolineras
Se observaron 700 gasolineras. Para describir su localización, se observó el tamaño de la ciudad (“pequeño" si tiene menos de 100000 habitantes, “grande" si tiene al menos 100000 habitantes) y el tipo de carretera (car. general/autopista, carretera regional, calle principal). Además, se observó el tipo de servicio (servicio completo, sercio medio) y las ventas (pocas, medias, altas).
Primero, se te pedirá que selecciones un grupo de datos.
Luego, para los datos seleccionados, se mostrarán todas las posibles distribuciónes de frecuencia bidimensionales, asi como el estadístico y los coeficientes de contingencia.
La base de datos de un gran almacen contiene las siguientes variables para un total de clientes seleccionados aleatoriamente:
lcl Variable& & posibles realizaciones
género & &- hombre
& &- mujer
método de pago & &- metálico
& &- tarjeta ATM
& &- tarjeta de crédito
residencia & &- Berlín
& &- no en Berlín
A continuación, se calculan las tres posibles bidimensionales que se pueden formar para las variables de este conjunto de datos. Tambieén se calcula el coeficiente de contingencia.
La distribución de frecuencia bidimensional para las variables género y método de pago es una tabla de contingencia de 23.
género | DM | |||
hombre | 31 (0,188) | 32(0,194) | 23(0,139 | 86 (0,521) |
mujer | 30 (0,182) | 29(0,176) | 20 (0,121) | 79 (0,479) |
DM | 61 (0,370) | 61(0,370) | 43 (0,260) | 165 |
estadístico | 0,08 |
coficiente de contingencia | 0,02 |
coeficiente de contingencia corregido | 0,03 |
El coeficiente de contingencia corregido de 0,03 muestra que existe una relación muy débil entre el género y el método de pago. La distibución de frecuencia bidimensional para las variables género y residencia es una tabla de contingencia de 22.
género | DM | ||
Berlín | no en Berlín | ||
hombre | 50 (0,303) | 36 (0,218) | 86 (0,521) |
mujer | 37 (0,224) | 42 (0,255) | 79(0,429) |
DM | 87 (0,527) | 78 (0,473) | 165 (1,00) |
estadístico | 2,11 |
coeficiente de contingencia | 0,11 |
coeficiente de contingencia corregido | 0,16 |
El coeficiente de contingencia de 0,16 muestra que la relación entre género y residencia es débil. La distribución de frecuencia bidimensional para las variables residencia y método de pago es una tabla de contingencia de 23.
residencia | DM | |||
Berlín | 44 (0,267) | 22(0,133) | 21(0,127) | 87(0,527) |
no en Berlín | 17(0,103) | 39(0,237) | 22(0,133) | 78(0,473) |
DM | 62(0,370) | 61(0,370) | 43(0,260) | 165(1,00) |
estadístico | 16,27 |
coeficiente de contingencia | 0,30 |
coeficiente de contingencia corregido | 0,42 |
El coeficiente de contingencia corregido de 0,42 –considerablemente más grande que en los dos casos anteriores– muestra que existe una relación medianamente fuerte entre residencia y método de pago.