Contraste de bondad de ajuste Chi-Cuadrado

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


El contraste de bondad de ajuste de la Chi-cuadrado nos permite contrastar la distribución poblacional desconocida de una variable aleatoria X. En los contrastes que hemos estudiado hasta el momento hemos asumido que la distribución de X puede ser descrita (al menos aproximadamente) por una función que está especificada por algún parámetro (por ejemplo, \mu o \pi). Nuestros contrastes meramente estaban destinados a verificar si unos valores hipotéticos de unos parámetros desconocidos se podían compaginar con la muestra que se tenía. Nuestro objetivo ahora es verificar si los datos se pueden ajustar mediante un modelo de probabilidad especificado completamente. Esto significa que no hay parámetros para contrastar, por lo que pasamos de un entorno paramétrico a uno no paramétrico. El contraste de bondad de ajuste de la chi-cuadrado se basa en una muestra aleatoria simple. El nivel de significación \alpha tiene que estar fijado antes de realizar el contraste. Ver que el contraste de la chi-cuadrado es sólo una de las posibles aproximaciónes para contrastar el ajuste de un model probabilístico. Consúltese la literatura para otro tipo de contrastes. Una variable aleatoria X tiene una distribución de probabilidad F\left( x\right). No se imponen restricciones sobre el nivel de medición de X. La distribución de probabilidad es desconocida, pero hay una hipótesis sobre ella, denotada como F_{0}\left( x\right). Si X es una variable aleatoria discreta, denotamos el conjunto de posibles resultados por x_{1}, \ldots , x_{k}. Definimos:

  • h\left( x_{j}\right)=h_{j} es la frecuencia observada absoluta de x_{j} en la muestra, j=1,\ldots , k,
  • P\left( X=x_{j}\right) es la probabilidad de X suponiendo el valor x_{j}, j=1,\ldots , k.

Si X es una variable aleatoria continua (consideramos que se incluye aquí variables cuasicontinuas, es decir, variables discretas con un número infinito de posibles realizaciones), tenemos que particionar el conjunto de todos los posibles resultados en conjuntos disjuntos. Si k\geq 2 es el número de clases, las clases están dadas por la siguiente secuencia de intervalos:\left( x_{0}^{*}, x_{1}^{*}\right],\,\left(
x_{1}^{*}, x_{2}^{*}\right],\, \ldots , \left( x_{k-1}^{*}, x_{k}^{*}\right] \,\text{respectivamente }\, \left( x_{j-1}^{*}, x_{j}^{*}\right], \quad j=1,\ldots , k. Definimos para el caso continuo:

  • h\left( x_{j-1}^{*}<X\leq x_{j}^{*}\right)=h_{j} es la frecuencia observada en la clase j-esima de la muestra, j=1,\ldots , k,
  • P\left( x_{j-1}^{*}<X\leq x_{j}^{*}\right) es la probabilidad de X suponiendo valores dentro de la clase j-esima, \left( x_{j-1}^{*}, x_{j}^{*}\right], j=1,\ldots , k.

Hipótesis

La hipótesis nula en un contraste de bondad de ajuste establece que el modelo probabilístico propuesto describe correctamente la distribución de los datos en la población; la hipótesis alternativa contiene la negación de la afirmación anterior. Aplicando las ideas anteriores a un contraste chi-cuadrado, el test se formaliza de la siguiente forma:
\text{H}_{0}: P\left( X=x_{j}\right) = p_{j} \quad \forall j=1, \ldots ,
k versus \text{H}_{1}: P\left( X=x_{j}\right) \neq p_{j} \quad \text{para al menos un } j. \text{H}_{0}: P\left( x_{j-1}^{*}<X\leq x_{j}^{*}\right) = p_{j} \quad \forall
j=1, \ldots , k versus \text{H}_{1}: P\left( x_{j-1}^{*}<X\leq
x_{j}^{*}\right) \neq p_{j} \quad \text{ para al menos un } j. En ambos casos, con p_{j} se denota la probabilidad de que X tome el valor x_{j} (o esté en la clase j-esima, \left( x_{j-1}^{*}, x_{j}^{*}\right]), Dada la hipótesis nula como cierta y por lo tanto F_{0}\left( x\right) es la verdadera distribución de probabilidad:p_{j}=P\left( X=x_{j}\,|\, \text{H}_{0}\right)
\quad \text{respectively}\quad p_{j}=P\left( x_{j-1}^{*}<X\leq x_{j}^{*}\,|\,
\text{H}_{0}\right). ?‘Cómo se calcula p_{j}? Se pueden calcular las cantidades p_{j} si la distribución hipotética es una función especificada completamente. Si F_{0}\left( x\right) es un miembro de alguna clase de funciones paramétricas, todos los parámetros tienen que ser conocidos. Ejemplo: X tiene una distribución de Poisson PO\left( \lambda\right) de parámetro \lambda. Si la distribución hipotética pertenece a una familia paramétrica que tiene uno o más parámetros, de los cuales alguno es desconocido, deberán ser estimados antes de calcular las p_{j}s. Ejemplo: Queremos contrastar si X tiene una distribución normal N\left( \mu
\, \sigma\right), donde la esperanza \mu y varianza \sigma son desconocidas. Tenemos que estimar estos parámetros utilizando la información suministrada por la muestra para obtener una especificación completa de la y calcular las probabilidades hipotéticas p_{j}. La hipótesis nula se puede referir a un modelo de probabilidad hipotético en términos de la distribución de frecuencia. Ejemplo: La variable aleatoria X puede tomar 4 posibles valores con probabilidades asociadas p_{1}=0.2, p_{1}=0.4, p_{1}=0.1 y p_{1}=0.3.

Estadístico de contraste y su distribución; regiones de decisión

El principio en que se basa el test es en comparar las probabilidades hipotéticas ,obtenidas de la distribución hipotética que se afirma en la hipótesis nula, con las frecuencias relativas observadas. El estadístico de contraste subyacente está basado en las frecuencias relativas observadas h_{j}. Una vez que tenemos una muestra, podemos calcularlas como frecuencias de los sucuesos \left\{ X=x_{j}\right\} respectivamente \left\{ x_{j-1}^{*}<X\leq x_{j}^{*}\right\}. El conjunto de todos las frecuencias absolutas h_{j}, j=1,\ldots , k constituye la distribución muestral. Son aleatorias, porque mediante muestreo aleatori estamos generando un experimento aleatorio. Por lo tanto, debemos estimar las frecuencias absolutas h_{j} como realizaciones de las variables aleatorias H_{j}, j=1,\ldots , k. Si la hipótesis nula es cierta, los valores esperados de las frecuencias relativas en la muestra estarán dados por las probabilidades p_{j}. Por ello, Las esperanzas de frecuencias absolutas serán np_{j}. La comparación entre las frecuencias observadas y esperadas se realiza mediante la construcción de las diferencias H_{j}-np_{j},\, j=1,\ldots , k. Pequeñas diferencias implican que se está a favor de la hipótesis nula. Mediante el siguiente estadístico de contraste podemos expresar un modo de representarr las diferencias a lo largo de todos los posibles resultados/clases:V=\sum_{j=1}^{k}\frac{\left( H_{j}-np_{j}\right)^{2}}{np_{j}}. Bajo \text{H}_{0}, V tiene aproximadamente una distribución chi-cuadrado con f=k-m-1 grados de libertad—independientemenet de la distribución que se desee contrastar. Se puede considerar que la aproximación es suficientemente buena si

  • np_{j}\geq 1 para todo j y
  • np_{j}\geq 5 para al menos el 80 \% de todas las frecuencias absolutas esperadas.

Una forma de garantizar la aplicabilidad del contraste de bondad de ajuste chi-cuadrado, cuando las condiciones no se satisfacen completamente en la situación original, es combinar resutados o clases contiguas en clases mayores. Como las probabilidades hipotéticas p_{j} están fijas (a través de la hipoótesis nula), un incremento del tamaño muestral n implicará una mejora en la aproximación. Para determinar los grados de libertad, tenemos que tener en cuenta lo siguiente:

  • k es el número de clases después de una posible necesaria combinación de clases,
  • m es el número de parámetros que tiene que ser estimado de la muestra. Si la distribución de probabilidad propuesta en \text{H}_{0} está completamente especificada, m es cero.

Observar que \left( H_{j}-np_{j}\right)^{2}/np_{j} no puede ser negativo. El estadístico de contraste v, como suma de cocientes, sólo puede tomar valores positivos. Desviaciones (absolutas) grandes H_{j}-np_{j} se transforman en altas contribuciones positivas al valor del estadístico de contraste, incrementando de esta forma la posibilidad de rechazar \text{H}_{0}. Pequeñas desviaciones están más de acuerdo con el ruido introducido por el proceso de muestreo que con el hecho de ser el resultado de una función de distribución, que es significativamente distinta de la establecida en la hipótesis nula. Estas pequeñas desviaciones tienden a garantizar la hipótesis nula. Las pequeñas desviaciones se marginalizan mediante un operador al cuadrado. Sólo valores relativamente altos en el estadístico de contraste llevan a rechazar la hipótesis nula, el contraste chi-cuadrado es test por la derecha. El valor crítico c, que satisface P \left( V\leq c_{u}\right)=1-\alpha para unos determinados grados de libertad, se toma de la tabla de la función de distribucón de la chi-cuadrado. Las regiońes de decisión son: Región de rechazo de \text{H}_{0}: \left\{ v\,|\, v> \chi_{1-\alpha;f}^{2}\right\}. Región de aceptación de \text{H}_{0}: \left\{ v\,|\, v\leq
\chi_{1-\alpha;f}^{2}\right\}. La probabilidad de que V preente un valor de la región de rechazo de \text{H}_{0}, dado que \text{H}_{0} es cierto, es igual al : \alpha=P\left( V>\chi_{1-\alpha;f}^{2}\,|\,\text{H}_{0}
\right). La probabilidad de que V esté en la región de aceptación bajo \text{H}_{0} es P\left( V\leq\chi_{1-\alpha;f}^{2}\,|\,\text{H}_{0}
\right)=1-\alpha.

Es s2 54 2.gif

Región de aceptación \text{H}_0 | Región de rechazo \text{H}_0

Muestreo y cálculo del estadístico de contraste

Una vez que se ha observado una muestra de tamaño n, se pueden calcular las frecuencias absolutas h_{j}. Si se necesita, se puede estimar los parámetros desconocidos en la distribución hipotética, asi como las frecuencias absolutas esperadas np_{j}. Introduciendo los datos en la fórmula del estadístico de contraste se obtiene el valor de este test.

Decisión de contraste e interpretación

Si v pertenece a la región de rechazo de \text{H}_{0}, se rechazará la hipótesis nula en base a la muestra de tamaño n y a un nivel de significación \alpha: '\text{H}_{1}'. En este caso, el investigador puede mostrar que, de forma significativa, la distribución poblacional de la variable aleatoria X no es la dada por F_{0}\left( x\right). Si se rechaza la hipótesis nula las conclusiones de la investigación están sujetas al riesgo de cometer un error tipo I: '\text{H}_{1}'|\text{H}_{0}. Afortunadamente, esta cantidad está bajo el control del científico: la probabilidad de que la hipótesis nula sea verdad, cuando la hemos rechazado, no puede ser—por construcción—mayor que el \alpha. Si se observa v un la región de aceptación, no se puede rechazar la hipótesis nula en base a esta muestra particular de tamaño n y para un \alpha: '\text{H}_{0}'. No se puede verificar estadisticamente que la distribución poblacional verdadera que genera los datos difiere significativamente de la distribución hipótetica F_{0}\left( x\right). Ciertamente, esta decisión no implica que la verdera distribución coincida con la propuesta. Sencillamente, con la muestra actual no se puede rechazar esta posibilidad, y en un determinado número de muestras se acepatará, incluso si la hipótesis nula no es cierta. Este es el caso del error de tipo II: '\text{H}_{0}'|\text{H}_{1}.

Es s2 54 e 4.gif

La dirección de una empresa mayorista analiza el negocio. Se centra en la demanda de un determinado tipo de producto. ?‘Cuál es la distribución que describe la variación en la demanda? La demanda de un producto se puede considerar continua en el tiempo. Los consumidores realizan pedidos independientemente unos de otros, el consumidor no puede fijar los pedidos individuales mediante un patrón fijo. Como consecuencia, la demanda conjunta es un fenómeno aleatori. Vamos a particionar el tiempo continuo en intervalos que tengan amplitud de un día. Entonces por la variable aleatoria X se denota la demanda medida de forma discreta para el productor que se investiga. Este escenario sugiere que un modelo razonable para las variaciones aleatorias de la demanda puede ser la distribución de Poisson: X\thicksim PO\left( \lambda\right). El contraste se va a realizar con un nivel de significación del \alpha=0.05. Los datos recopilados en una muestra aleatoria simple de tamaño n=50
\text{ días} se resume en la tabla 1.

Primera versión

Hipótesis

Un miembro experimentado del equipo cree que la media de cantidad vendida en un periodo de 5 dias es 9. Como la media en una distribución de Poisson está dada por E\left( X\right)=\lambda y estamos observando en intervalos de 1 día, por lo tanto debemos escalar la esperanza por \lambda=1.9. Entonces, el contraste es 
\text{H}_{0}: X 
\text{ tiene distribución de Poisson de parámetro } \lambda=1.8, 
\text{ i.e. } X \sim PO \left( 1.8 \right)

versus


\text{H}_{1}: X
\text{ no tiene distribución de Poisson de parámetro } \lambda=1.8.
Las columnas 4 y 5 de la tabla 1 contienen las probabilidades bajo \text{H}_{0}, P\left( X=x_{j}\,|\, \text{H}_{0}\right)=p_{j} (tomadas de la tabla PO\left(
1.8\right)) y con frecuencias absolutas esperadas np_{j}.

j Demanda x_{j} frecuencias observadas h{j} p_{j}=P\left( X=x_{j}\,|\,
\text{H}_{0}\right) np_{j}|\text{H}_{0}
1 0 3 0.1653 8.265
2 1 9 0.2975 14.875
3 2 14 0.2678 13.390
4 3 13 0.1607 8.035
5 4 6 0.0723 3.615
6 5 5 0.0260 1.300
7 \geq 6 0 0.0104 0.520

Estadístico de contraste y su distribución; regiones de decisión

El estadístico de contraste de un contraste de bondad de ajuste chi-cuadrado es:V=\sum_{j=1}^{k}\frac{\left( H_{j}-np_{j}\right)^{2}}{np_{j}}. Bajo \text{H}_{0}, V tiene asintóticamente una distribución chi-cuadrado con f=k-m-1 grados de libertad. ?‘Se satisfacen las condiciones de aproximación?
Como se puede ver en la quinta columna de la tabla 1, las realizaciones x_{5}=4 x_{6}=5 no satisfacen np_{j}\geq 5. La realización x_{7}=\geq 6 no satisface np_{j}\geq 1. Por lo tanto, debemos combinar estas tres realizaciones en una clase. Determinación de los grados de libertad:
Hay k=5 clases tras la agrupación. La distribución hipotética de Poisson está especificada completamente; el parámetro \lambda=1.8 no ha sido estimado: m=0. Por lo que tenemos f=5-1=4, y V tiene aproximadamente una distribución chi-cuadrado con f=4 grados de libertad. Encontramos el valor v que satisface P\left( V\leq c\right)=1-\alpha=0.95 en la tabla de la distribución chi-cuadrado con 4 grados de libertad: c=\chi_{1-\alpha;f}^{2}=\chi_{0.95;4}^{2}=9.49. Las regiones de decisión son: Región de rechazo de \text{H}_{0}:
\left\{ v \, | \, v
> 9.49\right\}. Región de aceptación de \text{H}_{0}:
\left\{ v \, | \, v \leq 9.49 \right\}.

Cálculo del valor del estadístico de contraste

La tabla 2 resume los datos de la muestra en términos de los componentes del test tras la nueva agrupación.

x_{j} h{j} np_{j} h_{j}-np_{j} \left(h_{j}-np_{j}\right)^{2} \left(h_{j}-np_{j}\right)^{2}/np_{j}
0 3 8.265 -5.265 27.7202 3.3539
1 9 14.875 -5.875 34.5156 2.3204
2 14 13.390 0.610 0.3721 0.0278
3 13 8.035 4.965 24.6512 3.0680
\geq 4 11 5.435 5.565 30.9692 5.6981

Sumando todos los valores de la última columna se obtiene el valor del estadístico de contraste: v=14.4682.

Decisión de contraste e interpretación

El valor del estadístico de contraste pertenece a la región de rechazo de \text{H}_{0}; consecuentemente, se rechaza la hipótesis nula ('\text{H}_{1}'). En base a la muestra de tamaño n=50 y al \alpha=0.05, podemos demostrar estadisticamente que la variable aleatoria X: ‘demanda diaria de un determinado producto’ no tiene una distribución de Poisson de parámetro \lambda=1.8. Esto no implica que tengamos que abandonar la familia de las distribuciones de Poisson y buscar otro tipo de distribución, sólo hemos contrastado para el caso de \lambda=1.8. Como nos hemos decidido en favor de la hipótesis alternativa, podemos estar cometiendo un error tipo I: '\text{H}_{1}'|\text{H}_{0}. Este es el caso en que PO\left( 1.8\right) es la verdadera distribución de X. La probabilidad de que esto ocurra está dada por el \alpha=0.05.

Segunda versión

Hipótesis

Mantenemos nuestro supuesto de que la clase de las distribuciones de Poisson es el modelo adecuado para representar la demanda: X\thicksim PO\left( \lambda\right). Pero esta vez, no tenemos ninguna información apriori (o creencia) sobre el parámetro \lambda, y por lo tanto tenemos que estimar su valor a partir de los datos. Usaremos un tamaño muestral de n=50 como en la primera versión. Aplicando el método de momentos, podemos estimar \lambda=E\left( X\right) mediante el primer momento muestral\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_{i}. La media aritmética en esta muestra es \overline{x}=125/50=2.5, y tenemos el siguiente para de hipótesis:
\text{H}_{0}: X 
\text{ tiene distribución de Poisson de parámetro } \lambda=2.5, 
\text{ i.e. } X\thicksim PO\left( 2.5\right)
versus 
\text{H}_{1}: X 
\text{ no tiene distribución de Poisson de parámetro } \lambda=2.5.
En las columnas 4 y 5 de la tabla 3 se encuentran las probabilidades implícitas de \text{H}_{0}: P\left( X=x_{j}\,|\, \text{H}_{0}\right)=p_{j} (tomadas de la tabla PO\left( 2.5\right)) y las frecuencias absolutas esperadas asociadas np_{j}.

j Demanda x_{j} Frecuencias observadas h{j} p_{j}=P\left( X=x_{j}\,|\,
\text{H}_{0}\right) np_{j}|\text{H}_{0}
1 0 3 0.0821 4.105
2 1 9 0.2052 10.260
3 2 14 0.2565 12.825
4 3 13 0.2138 10.690
5 4 6 0.1336 6.680
6 5 5 0.0668 3.340
7 \geq 6 0 0.0420 2.100

Estadístico de contraste y su distribución; regiones de decisión

Una vez más, utilizamos el estadístico de contrasteV=\sum_{j=1}^{k}\frac{\left(
H_{j}-np_{j}\right)^{2}}{np_{j}},que sabemos que se distribuye aproximadamente como una chi-cuadrado con f=k-m-1 grados de libertad. Verificación de las condiciones de aproximación:
Como puede verse en la quinta columna de la tabla 3, la realización x_{1}=0 no satisface la condición de aproximación np_{j}\geq 5. La vamos a combinar con la segunda observación x_{2}. Los resultados sexto y séptimo (h_{6}=5, h_{7}\geq
6) no se espera que se produzcan con demasiada frecuencia, por lo que se agrupan en una sola clase. Cálculo de los grados de libertad:
tras las agrupaciones, se dispone de k=5 clases. Se ha de estimar le parámetro de la distribución de Poisson, imponieno un reducción de un grado de libertad: m=1. Así pues, tenemos f=5-1-1=3 grados de libertad. V tiene aproximadamente una distribución chi-cuadrado con f=3 grados de libertad. El valor v que satisface P\left( V\leq c\right)=1-\alpha=0.95 se encuentra en la tabla de la distribución chi-cuadrado con 3 grados de libertad: c=\chi_{1-\alpha;f}^{2}=\chi_{0.95;3}^{2}=7.81. El valor crítico determina las regiones de decisión: Región de rechazo de \text{H}_{0}:
\left\{ v \, | \, v
> 7.81\right\}. Región de aceptación de \text{H}_{0}:
\left\{ v \, | \, v \leq 7.81 \right\}.

Cálculo del valor del estadístico de contraste

La tabla 4 contiene los datos muestrales expresados mediante los componentes del estadístico de contraste.

x_{j} h{j} np_{j} h_{j}-np_{j} \left(h_{j}-np_{j}\right)^{2} \left(h_{j}-np_{j}\right)^{2}/np_{j}
0-1 12 14.365 -2.365 5.5932 0.3894
2 14 12.825 1.175 1.3806 0.1076
3 13 10.690 2.310 5.3361 0.4992
43 6 6.680 -.680 0.4624 0.0692
\geq 5 5 5.440 -0.440 0.1936 0.0356

El valor del estadístico de contraste se calcula sumando los valores de la última columna: v=1.101.

Decisión de contraste e interpretación

Como el valor del estadístico de contraste pertenece a la región de aceptación de \text{H}_{0}, la hipótesis nula no se se rechaza ('\text{H}_{0}'). En base a la muestra de tamaño n=50 y a un \alpha=0.05, no podemos probar estadisticamente que la variable aleatoria X: ‘Demanda diaria de un determinado producto’ no sigue una distribución de Poisson de parámetro \lambda=2.5, PO\left( 2.5\right). Podemos cometer un error tipo II, si no es verdad que PO\left( 2.5\right) y por lo tanto la hipótesis nula no es cierta: '\text{H}_{0}'|\text{H}_{1}. La probabilidad de este error, P\left('\text{H}_{1}'|\text{H}_{0}\right), es desconocida.

Es s2 54 f 2.gif

Se afirma que un dado no está cargado, es perfecto. Queremos verificar esta afirmación mediante un contraste de bondad de ajuste chi-cuadrado con un de \alpha=0.1. El tamaño muetral es n=240.

Hipótesis

La variable aleatoria X: ‘Número en la cara superior’, puede tomar los valores x_{1}=1, x_{2}=2, x_{3}=3, x_{4}=4, x_{5}=5 y x_{6}=6. Es una variable discreta. Su distribución F\left( x\right) es desconocida, pero por la hipótesis de que el dado no está cargado, todos los resultados deben tener la misma probabilidad de salir. Por lo tanto, la hipótesis nula afirma que X tiene una distribución discreta uniforme: \text{H}_{0}: P\left( X=x_{j}\right)=p_{j}=1/6\, , \quad \forall j=1, \ldots ,
6versus\text{H}_{1}: P\left( X=x_{j}\right)=p_{j}\neq 1/6\, , \quad \text{para la menos} j.

Estadístico de contraste y su distribución; regiones de decisión

Usamos el estadístico de contraste del contraste de bondad de ajuste de la chi-cuadrado:V=\sum_{j=1}^{k}\frac{\left( H_{j}-np_{j}\right)^{2}}{np_{j}}. Bajo \text{H}_{0}, V tiene aproximadamente una distribución chi-cuadrado. Las condiciones de aproximación se satisfacen, dado que np_{j}=40>5 para todo j=1,
\ldots , 6. La distribución discreta uniforme se encuentra completamente especificada y por lo tanto no es necesario estimar ningun parámetro (m=0). Con lo que tenemos f=k-m-1=6-0-1=5 grados de libertad. Buscando el valor v para el cual P\left( V\leq c\right)=1-\alpha=0.9 en la tabla de la distribución chi-cuadrado con 5 grados de libertad, se obtiene c=\chi_{1-\alpha;f}^{2}=\chi_{0.90;5}^{2}=9.24. Las regiones de decisión resultantes son: Región de rechazo de \text{H}_{0}:
\left\{ v \, | \, v
> 9.24\right\}. Región de aceptación de \text{H}_{0}:
\left\{ v \, | \, v \leq 9.24 \right\}.

Muestreo y cálculo del estadístico de contraste

El dado se lanza 240 veces. La secuencia resultante de observaciones constituye una muestra aleatoria simple, dado que las tiradas individuales son independientes unas de otras. La siguiente tabla resume los datos.

x_{j} Frecu. observada h_{j} Frecu. esperada np_{j} h_{j}-np_{j} \left(h_{j}-np_{j}\right)^{2} \left(h_{j}-np_{j}\right)^{2}/np_{j}
1 52 40 12 144 3.6
2 50 40 10 100 2.5
3 32 40 -8 64 1.6
4 36 40 -4 16 0.4
5 32 40 -8 64 1.6
6 38 40 -2 4 0.2

Vamos a mirar las desviaciones de las frecuencias observadas respecto a las esperadas bajo la hipótesis nula. ?‘Se las puede considerar como variaciones aleatorias alrededor del valor esperado que se obtienen en una muestra de tamaño finito? El estadístico de contraste es la suma de la ultima columna: v=9.8.

Decisión de contraste e interpretación

Como el valor del estadístico de contraste está en la de \text{H}_{0}, se rechaza la hipótesis nula ('\text{H}_{1}'). En base a una muestra aleatoria simple de tamaño n=240 y a un nivel de significación \alpha=0.1, no podemos afirmar estadisticamente que el dado sea perfecto, es decir, que la distribución de probabilidad de X: ‘Número en la cara superior del dado’ tiene una distribución discreta uniforme. La probabilidad de cometer un error tipo I, P\left(
'\text{H}_{1}'|\text{H}_{0}\right), no puede ser superior al \alpha=0.1. En principio, el enfoque utilizado en el contraste de bondad de ajuste se parace bastante al de los contrastes paramétricos. Se construye un que condensa la información sobre la distribución hipotética y la que contiene la muestra para formar la base para realizar una afirmación probabilística sobre la hipótesis nula. El estadístico de contraste se tiene que derivar (al menos aproximadamente) bajo la hipótesis nula. De esta manera, la decisión sobre la aceptación o rechazo del modelo de probabilidad, que describe el proceso de generación de los datos reales, está sujeta a los mismos errores que en el caso de los contrastes paramétricos: Se comete un error tipo I con probabilidad (condicionada) P\left('\text{H}_{0}'|\text{H}_{1}\right)=\alpha, si \text{H}_{0} ha sido aceptada, y se realiza un error tipo II con probabilidad P\left('\text{H}_{1}'|\text{H}_{0}\right)=\beta si ha sido rechazada. La probabilidad del error \alpha está controlada por el investigador mediante el nivel de significación \alpha, pero la probabilidad del error II no se puede calcular, ya que no está claro cual es el modelo probalístico alternativo—lo único que sabemos es que no es el especificado en la hipótesis nula, pero puede ser cualquier de los infinitos posibles modelos que se encuentran arbitrariamente cerca del hipotético. Por lo que el objetivo del investigador será rechazar la hipótesis nula, asi como fijar la probabilidad de tomar una decisión incorrecta. Por otra parte, no es posible intentar falsificar la negación del modelo hipótetico ya que no puede estar determinada.

Hipótesis

Si la distribución hipótetica es la distribución verdadera que genera los datos de la población, esperaremos encontrar este patrón de la distribución en la muestra. Como la muestra es un conjunto elegido aleatoriamente de la población, está, más o menos, reflejado el patrón de la población verdadera, y sólo de media, las muestras (en un contexto de muestra grande) mostrarán la verdadera (y correctamente adivinada) distribución. Si se encuentran en la muestra desviaciones de la distribución empírica serán debidas al ruido producido por el proceso de muetreo (debido al hecho de que sólo un número finito de elementos estadísticos de la población completa están representados en la muestra). Los contrastes de bondad de ajuste se diseñan para discriminar de forma fidedigna este ruido muestral y desviaciones de las distribuciones hipotéticas de la real. El concepto de fiabilidad se basa en un contexto de muestreo repetido—de media, queremos que el test discrimine de una forma apropiada, como siempre hay una probabilidad (aunque sea pequeña) de obtener una muestra que es atípica (o no representativa) de la verdadera distribución subyacente. La pregunta que el contraste de bondad de ajuste trata de contestar es si las desviaciones que se han encontradoen la distribución empírica respecto a la distribución teórica (e hipotética) son significativas en la medida de si exceden el ruido medio muestral esperado para una muestra de tamaño n. El par de hipótesis que se hacen son siempre: \text{H}_{0}: La distribución de la variable aleatoria en la población es la hipotética \text{H}_{1}: La discriminación de la variable aleatoria en la población difiere de la hipotética Como ya se ha mencionado, desviaciones grandes de la distribución muestral respecto a la distribución hipotética tienden a falsificar la hipótesis nula, indicando que es una distribución diferente la que existe en la población. El par de hipótesis subyacentes del contraste de bondad de ajuste chi-cuadrado contiene las probabilidades p_{j} \left( j=1, \ldots , k
\right), que son calculadas de la distribución hipotética. Si X es una variable aleatoria discreta, las probabilidades p_{j}=P\left( X=x_{j}\,|\, \text{H}_{0}:\right) están explicitametne dadas por la función de probabilidad. En el caso de que la variable aleatoria sea continua, la probabilidad de un valor específico es siempre cero. Por esta razón se deben construir intervalos, en los cuales se observa esta realización. La probabilidad p_{j}=P\left( x_{j-1}^{*}<X\leq
x_{j}^{*}\,|\, \text{H}_{0}\right), de que la variable aleatoria continua X presente un valor en el intervalo (clase) \left(
x_{j-1}^{*}, x_{j}^{*}\right] se puede calcular de la función de densidad dada. Ver que es necesario agrupar variables discretas (cuasi-continuas) en clases—si se desea una mejora en la exactitud de la aproximacióncan de la distribución chi-cuadrado

Estadístico de contraste

Vamos a ilustrar la naturaleza aleatoria de las frecuencias absolutas observadas H_{j}. Nuestro razonamiento es valido tanto para variables continuas como discretas, pero nos vamos a referir al caso discreto por razones de simplicidad. Supongamos que seleccionamos aleatoriamente un elemento estadístico de la población de todos los elementos (objetos/sujetos) de la variable aleatoria X que se está estudiando. Si queremos calcular la frecuencia absoluta H_{j} par un determinado resultado x_{j}, la única información que es interesante es si X presenta este valor en ese elemento o no. De esta manera, existen sólo dos posibles resultados: Bajo \text{H}_{0}, la probabilidad de que X sea observada en x_{j} es p_{j}, y la probabilidad de que este elemento no la tenga en la frecuencia absoluta H_{j} es 1-p_{j}. Extrayendo una muestra de tamaño n significa la repetición independiente de este experimento aleatorio n veces. Como la distribución hipotética, y por lo tanto la cantidad derivada p_{j} permanecen invariables, vamos a llevar a cabo un experimento de Bernoulli, Si nos centramos en un sola frecuencia absoluta H_{j}. Habiendo repetido el experimento de Bernoulli n veces, estamos interesados en el número total de realizaciones de \left\{
X=x_{j}\right\}, es decir, la frecuencia absoluta de x_{j} en la muestra. Esta frecuencia puede (y lo más segura sea que lo haga) variar entre las muestras. Por lo tanto, H_{j}: ‘Número de observaciones X=x_{j} en una muestra aleatoria de tamaño n’ es una variable discreta con posibles resultados 0, \ldots , n. Más especificamente, bajo \text{H}_{0} la variable aleatoria H_{j} tiene una distribución Binomial de parámetros n y p_{j}: H_{j}\thicksim B
\left( n ; \, p_{j} \right). Su esperanza está dada por E\left( H_{j}\right)=np_{j}, la frecuencia absoluta esperada \left\{ X=x_{j}\right\} bajo la hipótesis nula. La varianza Var\left( H_{j}\right)=np_{j}\left( 1-p_{j}\right) recoge la variación de la frecuencia relativa observada de \left\{
X=x_{j}\right\}. El estadístico de contraste está basado en desviaciones de las variables aleatorias respecto a su valor esperado: H_{j}-np_{j}. Sumando todas estas cantidades, las desviaciones positas y negativas se podrían compensar unas con otras. Elevando al cuadrado los términos se evita este problema: \left( H_{j}-np_{j}\right)^{2}. Dividiendo por el tamaño muestral n y las probabilidades p_{j} se pesa cada desviación al cuadrado por su ‘importancia’ en términos de su contribución a la distribución de probabilidad. Una diferencia h_{j}-np_{j}=5 recibe un mayor peso para np_{j}=10 que para np_{j}=100—para un tamaño muestral fijo, la diferencia presenta una proporción alta en el contraste, si el valor x_{j} es esperado con una probabilidad alta y, de esta manera, supone una gran cantidad en la distribución en términos de pesos de probabilidad. Estas consideraciones se aplican a todos los j=1,\ldots , k. La suma de todas las desviaciones normalizadas nos da el valor de la desviación total de la desviación de la funcíon de distribución empírica respecto a la hipotética, obteniendose un estadístico de contraste adecuado cuya distribución asintótica conocida es:V=\sum_{j=1}^{k}\frac{\left(
H_{j}-np_{j}\right)^{2}}{np_{j}}. Dado que H_{j}, \, j=1,\ldots , k son variables aleatorias, V es también una variable aleatoria. Para n suficientemente grande y verificandose las condiciones de aproximación, V tiene, aproximadamente, una distribución chi-cuadrado con f=k-1-1 grados de libertad bajo la hipótesis nula, independientemente de la forma de la distribución hipotética. Si no se satisfacen las condiciones de aproximación, habrá que conbinar distintas clases o intervalos. Esto requiere la construcción de clases para variables aleatorias discretas (o un ensanchamiento de una o más clases, si los datos ya estaban agrupados). El término ‘-1’ en la fórmula de los grados de libertad refleja, de hecho, que una determinada frecuencia h_{j} se encuentra determinada por las otras k-1 frecuencias, como el número total de frecuencias absolutas debe satisfacer que \sum_{j}h_{j}=n. Las frecuencias absolutas son, por lo tanto, independientes unas de otras. El hecho de tener que estimar los parámetros en la distribución hipotética F_{0}\left( x\right) implica la perdida de grados de libertad. Si m es el número de parámetros que se necesita estimar, tenemos f=k-m-1 grados de libertad.