Contraste de independencia Chi-Cuadrado

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


El contraste de independencia chi-cuadrado nos permite contrastar independencia estocástica. Es un contraste no paramétrico aplicable a todas las medidas de escala. Suponemos que dos variables aleatorias X e Y son observadas simultaneamente en i=1,
\ldots , n elementos estadísticos, los pares de observaciones son mutuamente independientes (muestra aleatoria simple). Si X e Y son variables aleatorias simples, pueden ser observadas en las realizaciones x_{k}, \, k=1, \ldots , K respectivamente y_{j}, \, j=1, \ldots , J. Si X e Y son variables continuas (incluyendo las discretas cuasi-continuas), se debe particionar en clases disjuntas. En este caso, x_{k}, \, k=1, \ldots , K y y_{j}, \, j=1, \ldots , J indica los valores representativos dentro de las clases (normalmente puntos medios) y J y K representa el número total de clases. Una representación adecuada de la distribución de frecuencia conjunta observada es la tabla de frecuencia bidimensional, también conocida como tabla de contingencia. Tabla de contingencia bidimensional

x y y_{1} \cdots y_{j} \cdots y_{J} md x
h_{11} \cdots h_{1j} \cdots h_{1J} h_{1\bullet}
\vdots \cdots \vdots \cdots \vdots \vdots
h_{k1} \cdots h_{kj} \cdots h_{kJ} h_{k\bullet}
\vdots \cdots \vdots \cdots \vdots \vdots
h_{K1} \cdots h_{Kj} \cdots h_{KJ} h_{K\bullet}
h_{\bullet 1} \cdots h_{\bullet j} \cdots h_{\bullet J} h_{\bullet\bullet}=n

Aquí, h_{kj} representa la frecuencia absoluta del par observado \left(
x_{k},y_{j}\right), es decir, que X presenta el valor x_{k} o un valor en la clase k-esima, y Y presenta el valor y_{j} o un valor en la clase j-esima:h_{kj}=h\left( \left\{ X=x_{k}\right\}\cap\left\{ Y=y_{j}\right\} \right)\,
; \quad k=1, \ldots , K \, , \, j=1, \ldots , J. La última columna contiene la distribución marginal (dm) observada de X, compuesta por las frecuencias marginales absolutas h_{k\bullet}=h\left(
X=x_{k}\right)\, ; k=1, \ldots , K, denotando las frecuencias en las que X ha sido observado en x_{k} (realización discreta o punto medio de clase) independientemente del valor de Y. En la última fila se encuentra la distribución marginal observada de Y, dada por las frecuencias marginales absolutas h_{j\bullet}=h\left(
Y=y_{j}\right)\, ; j=1, \ldots , J, las frecuencias de que Y sea observada en y_{j} independientemente de X. Para la tabla de contingencia bidimensional se utilizan las siguientes definiciones:h_{k\bullet}=\sum_{j=i}^{J}h_{kj}\, ; \quad k=1, \ldots , K; h_{\bullet j}=\sum_{k=i}^{K}h_{kj}\, ; \quad j=1, \ldots , J; h_{\bullet\bullet}=\sum_{k=i}^{K}h_{k\bullet}=\sum_{j=i}^{J}h_{\bullet
j}=\sum_{k=1}^{K}\sum_{j=i}^{J}h_{kj}=n.

Hipótesis

La hipótesis nula en el contraste de independencia chi-cuadrado consiste en que X e Y son estocásticamente independientes; la hipótesis alternativa es la negación de la afirmación anterior. \text{H}_{0}: X \text{ and } Y \text{ son estocásticamente independientes}
versus
\text{H}_{1}: X \text{ and } Y \text{ no son estocásticamente independientes}. Si la hipótesis nula es cierta, la regla del producto para sucesos independientes daP\left( X=x_{k}\right\}\cap\left\{ Y=y_{j}\right)=P\left(
X=x_{k}\right)\cdot P\left( Y=y_{j}\right)=p_{k\bullet}\cdot p_{\bullet j}. En la fórmula anterior, p_{kj} denota la probabilidad de que X sea x_{k} (o un valor de la clase representada por x_{k}) y Y sea y_{j} (o un valor de la clase j-esima), p_{k\bullet} es la probabilidad de que X se observe en x_{k}, o respectivamente, en la clase k-esima (probabilidades marginales de X), p_{\bullet j} es la probabilidad de que Y se observe en el valor x_{k}, o se observe en la clase j-esima (probabilidades marginales de Y). El par de hipótesis pueden ser escritas como \text{H}_{0}:
p_{kj}=p_{k\bullet}\cdot p_{\bullet j}\quad \forall \left( k,j\right)
versus
\text{H}_{1}: p_{kj}\neq p_{k\bullet}\cdot p_{\bullet j}\quad \text{ para al menos uno de los pares } \left( k,j\right). El nivel de significación \alpha y el tamaño muestral n se deben fijar antes de realizar el contraste.

Estadístico de contraste y su distribución; regiones de decisión

Como el contraste está basado en la comparación entre frecuencias absolutas observadas y las esperadas bajo la hipótesis nula, el se construye entorno a las frecuencias absolutas. Una determinada muestra se puede resumir en una tabla de contingencia bivariante, mediante las frecuencias absolutas conjuntas h_{kj} (k=1, \ldots , K \, , \, j=1,
\ldots J ). Estas cantidades son resultados del experimento aleatorio y por lo tanto, pueden variar entre las distintas muestras. Son realizaciones de sus contrapartidas teóricas, las variables aleatorias denotadas por H_{kj}. Si la hipótesis nula es cierta, las frecuencias conjuntas esperadas son e_{kj}=n \cdot p_{k\bullet}\cdot p_{\bullet j}. Las probabilidades conjuntas p_{kj} y probabilidades marginales p_{k\bullet} y p_{\bullet j} son desconocidas y tienen que ser estimadas a partir de la muestra. Un estimador insesgado y consistente de p_{k\bullet} y p_{\bullet j} son las frecuencias marginales relativas f_{k\bullet}=h_{k\bullet}/n y f_{\bullet j}=h_{\bullet j}/n. Esto implica que estamos suponiendo frecuencias marginales fijas en la tabla de contingencia bidimensional. Nuestros estimadores de las frecuencias absolutas esperadas bajo \text{H}_{0} vienend dados por\widehat{e}_{kj}=n\cdot f_{k\bullet}\cdot
f_{\bullet j}=n\cdot \frac{h_{k\bullet}}{n}\cdot \frac{h_{\bullet
j}}{n}=\frac{h_{k\bullet}\cdot h_{\bullet j}}{n}. La comparación entre las frecuencias absolutas conjuntas encontradas en la muestra respecto a las esperadas bajo la hipotesis nula están basadas en las diferencias H_{kj}-\widehat{e}_{kj} (k=1, \ldots , K\, ; j=1, \ldots J). Un estadístico de contraste que pondera estas diferencias es la sumaV=\sum_{k=1}^{K}\sum_{j=1}^{J}\frac{\left( H_{kj}-\widehat{e}_{kj}\right)^{2}
}{\widehat{e}_{kj}}. Bajo \text{H}_{0}, el estadístico de contraste V tiene aproximadamente una distribución chi-cuadrado con f=\left( K-1\right) \cdot \left( J-1\right) grados de libertad. La aproximación es correcta siempre que \widehat{e}_{kj}\geq 5 para todos los pares \left( k,j \right). Cuando estas condiciones no se satisfacen, se deben combinar realizaciones (o clases) contiguas en conjuntos más grandes de obervaciones. K y J son el número de clases en ambas variables después del necesario (re-)agrupamiento. El valor criítico c que satisface P\left( V\leq c\right)=1-\alpha se debe buscar en la tabla de la inversa de la función de distribución acumulada chi-cuadrado con f grados de libertad. Las regiones de decisión son Región de rechazo de \text{H}_{0}:
\left\{ v\,|\, v>
\chi_{1-\alpha;f}^{2}\right\}. Región de aceptación de \text{H}_{0}:
\left\{ v\,|\, v\leq
\chi_{1-\alpha;f}^{2}\right\}. la probabilidad de que el estadístico de contraste V presente un valor en la región de rechazo de \text{H}_{0} es igual al nivel de significación \alpha=P\left( V> \chi_{1-\alpha;f}^{2}\,|\,\text{H}_{0}\right). La probabilidad de que el estadístico de contraste V sea observado en la región de aceptación de \text{H}_{0} es P\left( V\leq
\chi_{1-\alpha;f}^{2}\,|\,\text{H}_{0}\right)=1-\alpha.

Es s2 55 7.gif

Muestreo y cálculo del estadístico de contraste

Tras obtener una muestra de tamaño n, se pueden calcular las frecuencias absolutas h_{kj} de todos los pares de realizaciones observadas \left( x_{k},y_{j}\right). Podemos realizar esto mediante las frecuencias marginales empíricas de X e Y y derivar las frecuencias absolutas esperadas \widehat{e}_{kj} de acuerdo a la fórmula anterior. Si no se cumplen las condiciones de aproximación, será necesario un mayor agrupamiento, se deberá recalcular las frecuencias h_{kj}, h_{k\bullet}, h_{\bullet j} y \widehat{e}_{kj}. Introduciendo h_{kj} y \widehat{e}_{kj} en la fórmula del contraste se obtiene el valor del estadístico de contraste v.

Decisión de contraste e interpretación

Si v cae en la región de rechazo de \text{H}_{0}, se rechazará la hipótesis nula en base a una muestra aleatoria de tamaño n para un nivel de significación \alpha ('\text{H}_{1}'). En este caso, no se puede mostrar que la variables aleatorias X e Y son estocásticamente independiente. Si son independientes en la población, se estará cometiendo un error tipo I ('\text{H}_{1}'|\text{H}_{0}), la probabilidad de este es igual al nivel de significación: P\left('\text{H}_{1}'|\text{H}_{0}\right)=\alpha. Si v pertenece a la región de aceptación de \text{H}_{0}, no se puede rechazar la hipótesis nula en base a una muestra aleatoria de tamaño n ('\text{H}_{0}'). La muestra no puede contradecir estadisticamente el supuesto de independencia. Se cometerá un error tipo II si la es cierta ('\text{H}_{0}'|\text{H}_{1}).

Es s2 55 e 3.gif

En 1991 y 1996, a ciudadanos alemanes mayores de 18 seleccionados aleatoriamente se les realizaron las siguientes preguntas: 1) Evaluación de la situación económica actual 2) ?‘Cuál es la prespectiva económica para este año Los participantes podían expresar su opinión en las siguientes escalas: 1) 1 Muy buena, 2 Buena, 3 Satisfactoria, 4 aceptable, 5 Mala 2) 1 Mejora significativa, 2 Mejora, 3 Igual, 4 Deterioro, 5 Deterioro significativo Estas preguntas se trasladaron a las variables aleatorias X_{1}: ‘Situación económica actual’ y X_{2}: ‘Prespectiva económica’, con las realizaciones anteriores. Además, se recogió una tercera variable Y: ‘Región muestreada’ con las categorías ‘Alemania del oeste’ y ‘Alemania del este’. Queremos contrastar con un nivel de significación de \alpha=0.05, si las variables aleatorias X_{1} e Y respectivamente, X_{2} e Y muestreadas en 1991 y 1996 son estocásticamente independientes.

Hipótesis; estadístico de contraste y su distribución

Como la hipótesis nula es la que se va a contrastar en el test, en \text{H}_{0} se debe afirmar la independencia de las variables aleatorias para facilitar el cálculo de las frecuencias absolutas conjuntas esperadas: \text{H}_{0}: X_{1} \text{ and } Y \text{ son estocásticamente independientes}versus\text{H}_{1}: p_{kj}=X_{1} \text{ and } Y \text{ no son estocásticamente independientes}y\text{H}_{0}: X_{2} \text{ and } Y \text{ son estocásticamente independientes} versus\text{H}_{1}: p_{kj}=X_{2} \text{ and } Y
\text{ no son estocásticamente independientes}. Utilizamos el estadístico de contraste del test de independencia chi-cuadrado, V=\sum_{k=1}^{K}\sum_{j=1}^{J}\frac{\left(
H_{kj}-\widehat{e}_{kj}\right)^{2} }{\widehat{e}_{kj}},el cual, bajo \text{H}_{0}, V tienen aproximadamente una distribución chi-cuadrado con f=\left(
K-1\right)\cdot\left( J-1\right) grados de libertad. No es posible determinar las regiones de decisión de la hipótesis nula antes de obtener una muestra y analizarla, porque tenemos que seguir el siguiente proceso secuencial:

  • Primero, estimar las frecuencias absolutas conjuntas esperadas.
  • De acuerdo con esto, podemos comprobar las condiciones de aproximación y, si es necesario, combinar valores o clases.
  • Ahora, podemos determinar los grados de libertad y obtener los valores críticos.

Muestreo y cálculo del estadístico de contraste; decisión del contraste

Las tablas 1 a 4 contienen las frecuencias absolutas conjuntas en las muestras para los años 1991 y 1996 asi como las frecuencias absolutas conjuntas esperadas para la verdadera hipótesis nula, calculados como \widehat{e}_{kj}=\frac{h_{k\bullet}\cdot h_{\bullet j}}{n},y las diferencias h_{kj}-\widehat{e}_{kj}. Situación económica actual (X_{1}) versus región (Y), 1991

Oeste Este
Muy buena observada 209 165 374
esperada 184.8 189.2
diferencia 24.2 -24.2
Buena observada 744 592 1336
esperada 660.1 675.9
diferencia 83.9 -83.9
Satisfactoria observada 431 647 1078
esperada 532.6 545.5
diferencia -101.6 101.6
Aceptable observada 36 39 75
esperada 37.1 37.9
difference -1.1 1.1
Mala observada 4 15 19
esperada 9.4 9.6
diferencia -5.4 5.4
1\,424 1\,458 2\,882

Situación económica actual (X_{1}) versus región (Y), 1996

Oeste Este
Muy buena observada 20 6 26
esperada 17.2 8.8
diferencia 2.8 -2.8
Buena observada 264 116 380
esperada 251.3 128.7
diferencia 12.7 -12.7
Satisfactoria observada 1\,006 557 1\,563
esperada 1\,033.7 529.3
diferencia -27.7 27.7
Aceptable observada 692 335 1\,027
esperada 679.2 347.8
difference 12.8 -12.8
Mala observada 141 73 214
esperada 141.5 72.5
diferencia -0.5 0.5
2\,123 1\,087 3\,210

Prespectiva económica (X_{1}) versus región (Y), 1991

Oeste Este
Mejora significativa observada 75 203 278
esperada 137.4 140.6
diferencia -62.4 62.4
Mejora observada 449 763 1\,212
esperada 598.9 613.1
diferencia -149.9 149.9
Igual observada 684 414 1\,108
esperada 547.5 560.5
diferencia 136.5 -136.5
Deterioro observada 200 62 262
esperada 129.5 132.5
diferencia 70.5 -70.5
Deterioro significativo observada 16 6 22
esperada 10.9 11.1
diferencia 5.1 -5.1
1\,424 1\,458 2\,882

Prespectiva económica (X_{1}) versus región (Y), 1996

Oeste Este
Mejora significativa observada 9 6 15
esperada 9.9 5.1
diferencia -0.9 0.9
Mejora observada 190 131 321
esperada 212.3 108.7
diferencia -22.3 22.3
Igual observada 809 444 1\,253
esperada 828.7 42.3
diferencia -19.7 19.7
Deterioro observada 960 426 1\,386
esperada 916.7 469.3
diferencia 43.3 -43.3
Deterioro significativo observada 155 80 235
esperada 155.4 79.6
diferencia -0.4 0.4
2\,123 1\,087 3\,210

Las condiciones de aproximación se satisfacen para los 4 contrastes, es decir, \widehat{e}_{kj}\geq 5 para todos los pares \left( k,j\right). El que satisface P\left( V\leq c \right)=0.95 es \chi_{1-\alpha;f}^{2}=\chi_{0.95;4}^{2}=9.49 para el que tenemos f=\left(
K-1\right)\cdot \left( J-1\right)=4 grados de libertad. Las regiones de decisión son Región de rechazo de \text{H}_{0}:
\left\{ v\,|\, v> 9.49\right\}. Región de aceptación de \text{H}_{0}:
\left\{ v\,|\, v\leq 9.49\right\}. Los valores de la Chi-cuadrado y las regiones resultantes de los 4 contrastes son

Año Variables aleatorias Valor del estadístico de contraste v Decisión del contraste
1991 X_{1}, Y 71.85 '\text{H}_{1}'
1996 X_{1}, Y 6.15 '\text{H}_{0}'
1991 X_{2}, Y 278.17 '\text{H}_{1}'
1991 X_{2}, Y 14.61 '\text{H}_{1}'

Interpretación

Mientras que en 1991 los datos falsificaban la hipótesis nula con un nivel de significación de 0.05, la afirmación de que las variables aleatorias X_{1}: ‘situación económica actual’ e Y: ‘región muestreada’ son estocásticamente independientes, no es rechazada para los datos de 1996. Pero se puede extraer información más relevante si miramos a las tablas de contingencia. Como puede verse de las altas diferencias positivas h_{kj}-\widehat{e}_{kj} para las valoraciones positivas en la tabla 1, en 1991 los alemanes del oeste tienden a clasificar la situación económica más positivamente que los alemanes del este. En 1996, hay todavía diferencias positivas h_{kj}-\widehat{e}_{kj}, pero su suma no es significativa. Se ha producido algún tipo de asimilación en la valoraciones de la situación económica. Ambos datos muestrales rechazan la hipótesis nula de que las variables aleatorias X_{2}: ‘Prespectiva económica’ y Y: ‘Región de la muetra’ son estocásticamente independientes a un nivel de significación del \alpha=0.05. Observese que en ambos años, los alemanes del este tienen opiniones más positivas sobre el futuro que los del oeste. Si se comparan las diferencias h_{kj}-\widehat{e}_{kj} para ambos años, vemos misma tendencia hacia la homegeneidad de las opiones en Alemania (del este y oeste) como en la valoración de la situación económica actual. Para 1996 todavía son lo suficientemente grandes como para ser significativas, y no podemos concluir (al menos en el escenario del contraste asumido, que los del este tienen opiniones estructuralmente diferentes a los del oeste. el tipo de dependencia que exite entre X_{2} e Y is, se puede analizar utilizando herramientas estadísticas adecuadas para el análisis de dependencia (por ejemplo, regresión categórica).

Es s2 55 f 4.gif

Alguien sugiere que el número de fallos en un coche es estocásticamente independiente de la edad del mismo. Queremos contrastar esta hipótesis con un de \alpha =0.05 utilizando un contraste de independencia chi-cuadrado. La variable aleatoria X: ‘número de fallos’ es medida como las realizaciones x_{1}: ‘no hay fallos’, x_{2}:1 fallo’ y x_{3}:2 o más fallos’; la variable aleatori Y: ‘edad del coche’ se categoriza como x_{1}:\leq 1 año’, x_{2}:> 1 año y \leq 2 años’ y x_{2}:> 2 años’.

Hipótesis

En los contrastes estadísticos siempre se contrasta la . Como el estadístico de contraste subyacente del test chi-cuadrado de independencia toma como input las frecuencias conjuntas esperadas, que son calculadas utilizando el supuesto de independencia, la hipótesis de independencia se debe colocar como la hipótesis nula: \text{H}_{0}: X \text{ and } Y \text{ son estocásticamente independientes}versus\text{H}_{1}: p_{kj}=X \text{ and } Y 
\text{no son estocásticamente independientes}o\text{H}_{0}:
p_{kj}=p_{k\bullet}\cdot p_{\bullet j}\forall \left( k,j\right)versus\text{H}_{1}:
p_{kj}\neq p_{k\bullet}\cdot p_{\bullet j} \text{ para al menos un par }\left(
k,j\right).

Estadístico de contraste y su distribución, regiones de decisión

Utilizamos el estadístico de contraste del test de independencia chi-cuadrado:V=\sum_{k=1}^{K}\sum_{j=1}^{J}\frac{\left(
H_{kj}-\widehat{e}_{kj}\right)^{2} }{\widehat{e}_{kj}}. Bajo \text{H}_{0}, V tiene aproximadamente una distribución chi-cuadrado con f=\left( K-1\right)\cdot\left(
J-1\right) grados de libertad. Las regiones de decisión de la hipótesis nula sólo se pueden determinar si se obtiene una muestra y se analiza, para:

  • Primero, se han de estimar las frecuencias absolutas conjuntas esperedas.
  • Después, se puede (y debe) comprobar las condiciones de aproximación y establecer las combinaciones necesarias de clases (o valores).
  • Tras finalizar las dos etapas anteriores, se pueden determinar los grados de libertad y buscar los valores críticos.

Muestreo y cálculo del estadístico de contraste

Oficiales de policía, colocados en varias posiciones, paran aleatoriamente a 110 coches y registran los años y el número de averías. En la siguiente tabla, se muestra a la vez las frecuencias absolutas conjuntas y marginales de la muestra junto con las frecuencias esperadas bajo la hipótesis nula, calculadas como\widehat{e}_{kj}=\frac{h_{k\bullet}\cdot h_{\bullet j }}{n}.

<1 1-2 >2
observada 30 14 5 49
esperada 26.7 13.4 8.9
observada 18 10 4 32
esperada 17.5 8.7 5.8
observada 12 6 11 29
esperada 15.8 7.9 5.3
60 30 20 110

Las condiciones de aproximación se satisfacen, ya que todas las frecuencias absolutas esperadas son iguales o mayores que cinco: \widehat{e}_{kj}\geq 5. Estamos obervando X e Y en K=3 y J=2 clases respectivamente, y de esta manera tenemos f=\left(
K-1\right)\cdot\left( J-1\right)=4 grados de libertad. El que satisface P\left( V\leq c\right)=1-\alpha=0.95 es buscado en la tabla de la distribución chi-cuadrado como c=\chi_{1-\alpha;f}^{2}=\chi_{0.95;4}^{2}9.49, lo que implica las siguientes regiones de decisión Región de rechazo de \text{H}_{0}:
\left\{ v\,|\, v> 9.49\right\}. Región de aceptación de \text{H}_{0}:
\left\{ v\,|\, v\leq 9.49\right\}. El valor del estadístico de contraste esv=\frac{\left(
30-26.7\right)^{2}}{26.7}+\frac{\left( 14-13.4\right)^{2}}{13.4}+\ldots +\frac{\left(
11-5.3\right)^{2}}{5.3}=10.5.

Decisión del contraste e interpretación

El valor del estadístico de contraste v=10.5 pertenece a la región crítica, por lo que se rechazará la hipótesis nula. Dados nuestros parámetros del contraste (tamaño muestral n=110 y nivel de significación \alpha=0.05), podemos verificar que las variables aleatorias X: ‘número de fallos’ e Y: ‘edad del coche’ son estocásticamente dependientes. Si esto no es cierto en la población, estaremos cometiendo un error de tipo I ('\text{H}_{1}'|\text{H}_{0}). La probabilidad de que esto ocurra está dada por el nivel de significación \alpha=0.05 El principio subyacente de los cotrastes de independencia se parece al de los contrastes paramétricos. Se construye un estadístico de contraste para valorar la distancia de la información relevante sobre la distribución teórica bajo la hipótesis nula respecto a la correspondiente estructura en la muestra. La distribución del estadístico de contraste tiene que estar determinada—ya sea de forma exacta o aproximada. Cuando se está verificando la hipótesis nula, es posible que la decisión tomada implique un error tipo I con una probabilidad P\left('\text{H}_{1}'|\text{H}_{0}\right)=\alpha, si la hipótesis nula ha sido rechazada, o que se cometa un error de tipo II si ha sido aceptada (es decir, no rechazada) con probabilidad P\left('\text{H}_{0}'|\text{H}_{1}\right)=\beta. La probabilidad del error tipo I está controlada mediante la fijación del nivel de significación, pero la probabilidad del error tipo II no puede ser calculada, ya que hay infinitos posibles modelos probabilísticos que pueden ser el verdadero en la hipótesis nula. Por esta razón, vamos a intentar es rechazar la hipótesis nula, y así, confirmar un posible rechazo mediante una probabilidad máxima conocida de poder tomar una decisión incorrecta.

Hipótesis

Si las variables aleatorias son independientes en la población, esperamos que esto esté reflejado en la muestra. Pero una muestra no tiene toda la información que se encuentra en la población, Tenemos que tener en cuenta la variación aleatoria introducida por el proceso de muestreo. Si la hipótesis es cierta, esperamos que eso se vea reflejado fielmente solamente en promedio estadístico, y tenga que determinar que la desviación esperada de las características muestrales respecto a las hipotéticas se debe al ruido que se ha producido en el muestreo. Desviaciones de las frecuencias absolutas conjuntas respecto a aquellas implican debidas a la independenciae, \widehat{e}_{kj}, ocurrirán con probabilidad uno. La tarea consiste en cuantificarlas respecto a la variación esperada—y estar en desacuerdo con un valor alto, es decir, una desviación significativa, nos lleva a rechazar la hipótesis. Com la hipótesis nula es la que siempre se contrasta, en la hipótesis nula se va a proponer la independencia de X e Y. Sólo de esta forma se pueden calcular frecuencias absolutas esperadas; después de todo, necesitamos un modelo probabilístico que nos permita derivar la distribución del y de esta forma, evaluar su variación intrínseca. Desviaciones grandes de las frecuencias absolutas conjuntas observadas h_{kj} respecto a las esperadas, si X e Y son independendientes, e_{kj}, contradicen el supuesto de independencia, y por lo tanto, aumenta la posibilidad de rechazar la hipótesis nula. El estadístico de contraste subyacente del test de independencia chi-cuadrado se calcula utilizando las frecuencias observadas y las probabilidades teóricas p_{kj}, p_{k\bullet}, y p_{\bullet j} (k=1, \ldots , K\, ; j=1, \ldots J). Si X e Y son variables aleatorias discretas, las probabilidades conjuntas exactamente con el par de realizaciones:p_{kj}=P\left( \left\{ X=x_{k}\right\}\cap\left\{ Y=y_{j}\right\}
\right),\quad p_{k\bullet}=P\left( \left\{ X=x_{k}\right\}\right),\quad p_{\bullet
j}=P\left(\left\{ Y=y_{j}\right\} \right). Las variables continuas toman valores específicos con probabilidad cero. Por lo tanto, tendrá que ser dividia en intervalos. En el caso continuo, las probabilidades se definen del siguiente modo: p_{kj} es la probabilidad de que X tome un valor perteneciente a la clase \left(
x_{k-1}^{*},x_{k}^{*}\right) y además, Y tome un valor de la clase \left(
y_{j-1}^{*},y_{j}^{*}\right), p_{k\bullet} es la probabilidad de que X sea observada en la clase k-esima \left(
x_{k-1}^{*},x_{k}^{*}\right) (probabilidades marginales de X), p_{\bullet j} es la probabilidad de que Y tome un valor de la clase j-esima \left(
y_{j-1}^{*},y_{j}^{*}\right) (probabilidades marginales de Y). Formalmente:\begin{align}
p_{kj}&=P\left( \left\{ x_{k-1}^{*}<X\leq
x_{k}^{*}\right\}\cap\left\{  y_{j-1}^{*}<Y\leq y_{j}^{*}\right\}\right),\\
p_{k\bullet}&=P\left( x_{k-1}^{*}<X\leq x_{k}^{*}\right),\\ p_{\bullet
j}&=P\left( y_{j-1}^{*}<Y\leq y_{j}^{*}\right).\end{align} Para simplificar y unificar la exposición, tanto para variables continuas como discretas, x_{k}, \,\left( k=1, \ldots K\right) and y_{j}, \,\left( j=1, \ldots
J\right) se toman como valores representativos de la clase en el caso continuo (por ejemplo, puntos medios). K y J reflejan el número de clases construidas para X e Y. Ver que podría ser necesario la agrupación de observaciones de variables discretas en clases—sólo para mejorar la exactitud de la aproximación.

Estadístico de contraste

Queremos ilustrar por qué las frecuencias absolutas conjuntas H_{kj} son variables aleatorias. Nuestra argumentación es valida tanto para el caso discreto como continuo. Supóngase que muestreamos un elemento estadístico de la población respecto a las variables aleatorias X e Y y comprobamos si la pareja de observaciones es igual a \left( x_{k}, y_{j}\right), es decir, si ha producido el suceso \left\{
X=x_{k}\right\}\cap\left\{ Y=y_{j}\right\}. Sólo existen dos posibles resultados para este experimento aleatorio. La probabilidad de que este suceso \left\{
X=x_{k}\right\}\cap\left\{ Y=y_{j}\right\} ocurra es p_{kj}, y la probabilidad de un un elemento no sea observado en este particular par de realizaciones de X e Y es 1-p_{kj}. Si obtenemos una muestra de pares de n observaciones independientes, repetimos este experimento aleatorio n veces bajo las mismas condiciones, y por lo tanto, manteniendo constante p_{kj}. En otras palabras, estamos llevando a cabo un experimento de Bernoulli con n replicaciones. Al hacer esto, estamos interesados en el número total de ocurrencias del suceso \left\{ X=x_{k}\right\}\cap\left\{ Y=y_{j}\right\}, es decir, la frecuencia absoluta del par de valores \left( x_{k}, y_{j}\right) en la muestra. Esta frecuencia es el resultado de un experimento de Bernoulli, y por lo tanto, varía entre las muestras. De esta manera, H_{kj}: ‘Número de ocurrencias de \left\{ X=x_{k}\right\}\cap\left\{
Y=y_{j}\right\} en una muestra aleatoria simple de tamaño n’ es una variable aleatoria discreta con posibles resultados 0,1, \ldots ,n. La variable aleatoria H_{kj} tiene una distribución Binomial de parametros n y p_{kj}: H_{kj}\thicksim
B\left( n ; p_{kj}\right). La esperanza de H_{kj} está dada por E\left(H_{kj}\right)=np_{kj}. Si la hipótesis nula es cierta, y entonces X e Y son estocásticamente independientes, la probabilidad conjunta p_{kj} se calcula, de acuerdo con la regla del producto para sucesos independientes, como el producto de las probabilidades marginales p_{k\bullet} y p_{\bullet j}: p_{kj}=p_{k\bullet}\cdot
p_{\bullet j}. Las frecuencias absolutas conjuntas esperadas están dadas por e_{kj}=n\cdot P_{kj}=n\cdot p_{k\bullet}\cdot p_{\bullet j}. Este resultado se aplica a todos los k=1, \ldots , K y j=1, \ldots J. El estadístico de contraste se basa en la comparación de las frecuencias absolutas conjuntas encontradas en la muestra respecto a las frecuencias esperadas si la hipótesis nula fuese cierta. Las probabilidades subyacentes de las frecuencias esperadas son desconocidas, y deben estimarse. Las diferencias H_{kj}-\widehat{e}_{kj}, como medidas de distancia, son la base de la comparación. Para evitar que valores positivos se compensen con negativos (o viceversa) las diferencias se elevan al cuadrado: \left(H_{kj}-\widehat{e}_{kj}\right)^{2}. Para tener en cuenta la importancia de cada una de estas diferencias, cada una de ellas es ponderada dividiéndola por \widehat{e}_{kj}: Una diferencia de h_{kj}-\widehat{e}_{kj}=5 tiene una ponderación mayor si \widehat{e}_{kj}=10 que si \widehat{e}_{kj}=100. Sumando en todos los pares \left( k,j\right) las diferencias al cuadrado ponderadas, se obtiene el estadístico de contraste:V=\sum_{k=1}^{K}\sum_{j=1}^{J}\frac{\left(
H_{kj}-\widehat{e}_{kj}\right)^{2} }{\widehat{e}_{kj}}. Como H_{kj} son variable aleatorias, también lo será V. Bajo la hipótesis nula, para un tamaño muestral n suficientemente grande y si se cumplen las condiciones de aproximación, V tiene aproximadamente una distribución chi-cuadrado con f=\left( K-1\right)\cdot \left( J-1\right) grados de libertad. Si las condiciones de identificación no se satisfacen, se deben agrupar valores o clases contiguas de forma adecuada. Por lo tanto, los resultados de experimentos aleatorios medidos de forma discreta están siendo agrupados en clases. K y J son el número de clases existentes tras los reagrupamientos necesarios. Cálculo de los grados de libertad: Existe un total de K\cdot J probabilidades p_{kj} que componen la distribución bivariante de las variables aleatorias X e Y como las dadas en una tabla de contingencia bidimensional. Perdemos un grado de libertad dado que las probabilidades no son independientes unas de otras: De \sum_{k}\sum_{j}p_{kj}=1 se obtiene que cualquier probabilidad p_{kj} está determinada por las otras K\cdot J-1 probabilidades conjuntas. Si se pudiesen obtener todas las probabilidades conjuntas a partir de las probabilidades marginales de ambas variables aplicando p_{kj}=p_{k\bullet}\cdot
p_{\bullet j}, entonces tendriamos f=K\cdot J-1 grados de libertad. Desafortunadamente, las probabilidades marginales p_{k\bullet} y p_{\bullet j} son desconocidas y tienen que ser estimadas de los datos, lo que produce una reducción en los grados de libertad. La distribución marginal de X abarca K probabilidades p_{k\bullet}, de las cuales sólo K-1 tienen que ser estimadas porque \sum_{k}p_{k\bullet}=1. Se puede aplicar lo mismo a la distribución de Y: Como \sum_{j}p_{\bullet j }=1, sólo se tienen que estimar J-1 probabilidades marginales p_{\bullet j}. De este modo, se tienen que estimar un total de \left(
K-1\right)+\left( J-1\right), y los grados de libertad totales son:f=K\cdot J-1 -
\left[ \left( K-1\right)+\left( J-1\right)\right]=K\cdot J-K-J+1=\left(
K-1\right)\cdot\left( J-1\right). Como \left( H_{kj}-\widehat{e}_{kj}\right)^{2} / \widehat{e}_{kj} es positivo para todos los pares \left( k,j \right), el estadístico de contraste V siempre debe ser positivo. Desviaciones grandes de H_{kj}-\widehat{e}_{kj} se transforman en valores altos del estadístico de contraste. Por lo tanto, la hipótesis nula será rechazada para valores altos de V.Por ello, el contraste de independencia chi-cuadrado es un contraste por la derecha.