Contraste de proporciones en una población binaria

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Supongamos que la variable aleatoria X se mide como dos posibles resultados. Los elementos estadísticos de la población pueden observarse X de forma binaria (con respecto a X). Si X es una variable indicador que guarda la información sobre la existencia (o no existencia) de una caracteristica, se puede realizar inferencia estadística sobre la proporción de elementos en la población que poseen la característica de interés (\pi) o los que no (1-\pi). Como en otro contraste paramétrico, la inferencia relaciona un valor hipotético, aquí \pi_{0}, con una cantidad hipotética de elementos de la población que tienen la característica de interés. Vamos a introducir un procedimiento de contraste estadístico basado en una muestra aleatoria simple de tamaño n. Esto garantiza que las variables muestrales X_{1}, \ldots , X_{n}, variables indicador con resultados medidos como 0 y 1, sean independientes e idénticamente distribuidas como variables de Bernoulli. El nivel de significación se denota como \alpha.

Hipótesis

Dependiendo de el tipo de contraste que se realice, los test que se pueden formular son: 1) \text{H}_{0}: \pi = \pi_{0},  \pi
\neq \pi_{0}. 2) \text{H}_{0}: \pi \leq \pi_{0},  \pi
> \pi_{0}. 3) \text{H}_{0}: \pi \geq \pi_{0}, 
\pi < \pi_{0}. Los comentarios realizados en la sección de contraste de medias poblacionales también se pueden realizar aquí.

Contraste estadístico y su distribución; regiones de decisión

La proporción empírica \widehat{\pi}=\frac{X}{n}=\frac{1}{n}\sum_{i=1}^{n}\,
X_{i} es un estimador adecuado del parámetro de la población \pi. La función muestral X=\sum_{i=1}^{n}\, X_{i}, una simple transformación de \widehat{\pi} (X=n\cdot \widehat{\pi}), contiene toda la información necesaria, ya que contabiliza el número de elementos en la muestra que poseen la propiedad de interés. Como ya se ha visto (ver capítulo 6), X tiene una distribución Binomial de parámetros n y \pi: X\thicksim B \left( n ; \, \pi
\right). Como n lo elige la persona que realiza el contraste, \pi es el único parámetro necesario para especificar la distribución Binomial. Siguiendo la lógica aplicada en otros problemas de contraste de hipótesis, hacemos que \pi_{0} sea \pi, es decir, determinamos la distribución del estadístico de contraste dado que la proporción hipotética \pi_{0} es la predominante en la población: \pi=\pi_{0}. Por lo tanto, la función muestral X convierte nuestro estadístico de contraste de tal forma, que ahora presenta una distribución Binomial de parámetros n y \pi_{0} bajo \text{H}_{0}:V=X\overset{\text{H}_{0}}{\thicksim} B \left( n ; \, \pi_{0} \right). La región de rechazo de la hipótesis nula contiene todas las realizaciones de V para la que las probabilidades acumuladas no superan el \alpha. Los valores críticos se pueden tomar de la tabla de la función de la distribución acumulada F_{B}\left( x \right) of B \left( n ;
\, \pi_{0} \right), siguiendo estas reglas: 1) El valor crítico menor c_{l} es la realización x de X, para la cual la función de distribución acumulada justamente excede el valor \alpha /2: F_{B}\left( c_{l}-1\right)\leq\alpha /2 y F_{B}\left(
c_{l}\right)>\alpha /2. El valor crítico superior c_{u} es el argumento x de la acumulada que devuelve una probabilidad igual o mayor que 1-\alpha /2: F_{B}\left( c_{u}-1\right)<1-\alpha /2 and F_{B}\left(
c_{u}\right)\geq 1-\alpha /2. La región de rechazo de \text{H}_{0} está dada por
\left\{ v \, | \, v <
c_{l} \, \text{ o } \, v > c_{u}\right\}, de forma que
P\left(
V<c_{l}|\pi_{0}\right)+P\left( V>c_{u}|\pi_{0}\right)\leq\alpha. Para la región de aceptación de \text{H}_{0} tenemos
\left\{ v \, | \,
c_{l}\leq v \leq c_{u} \right\}, tal que
P\left( c_{l} \leq V \leq c_{u}|\pi_{0}\right)\geq 1-\alpha. 2) El valor crítico c es la menor realización del estadístico de contraste que ocurre con probabilidad acumulada de al menos 1-\alpha: F_{B}\left(
c-1\right)<1-\alpha y F_{B}\left( c\right)\geq 1-\alpha. La región de rechazo de \text{H}_{0} es entonces
\left\{ v \, | \, v
> c\right\}, tal que
P\left( V>c|\pi_{0}\right)\leq\alpha. La región de aceptación de \text{H}_{0} es
\left\{ v \, | \, v \leq
c\right\}, tal que
P\left( V\leq c|\pi_{0}\right)\geq 1-\alpha. 3) El valor crítico c se determina como la menor realización del estadístico de contraste que ocurre con una probabilidad acumulada de al menos \alpha: F_{B}\left(
c-1\right)\leq \alpha y F_{B}\left( c\right)> \alpha. La región de rechazo de \text{H}_{0} es
\left\{ v \, | \, v < c\right\}, por lo que
P\left( V<c|\pi_{0}\right)\leq\alpha. La región de aceptación de \text{H}_{0} está dada por
\left\{ v \, | \,
v \geq c\right\}, tal que
P\left( V\geq c|\pi_{0}\right)\geq 1-\alpha. Como V=X es una variable aleatoria discreta, el nivel de signifación \alpha no se puede utilizar de forma completa. El nivel de signifación \alpha_{a} sólo presentará ese valor por casualidad, y normalmente, será menor. Los contrastes superiores son, en este sentido, conservadores ya que utilizan un máximo para la probabilidad del error tipo I. Dado un tamaño muestral n suficientemente grande, el estimador \widehat{\pi} se puede estandarizar de forma que se obtenga el estadístico de contraste V=\frac{\widehat{\pi}-\pi_{0}}{\sigma_{0}\left(
\widehat{\pi}\right)}=\frac{\widehat{\pi}-\pi_{0}}{\sqrt{\frac{\pi_{0}\,\left(
1-\pi_{0}\right)}{n}}}. Aquí, \sigma_{0}\left( \widehat{\pi}\right) es la desviación típica del estimador \widehat{\pi} bajo \text{H}_{0}. Bajo \text{H}_{0}, V tiene una distribución normal estandarizada (ver capítulo 6). Los valores críticos, para el nivel de significación dado, se pueden obtener de la tabla de la inversa de la distribución acumulada de la normal estandar. Las regiones de decisión para los contrastes de una y dos colas se obtienen aproximadamente de forma similar a los obtenidos para el contraste de la media poblacional para \sigma conocida: En esencia, una hipótesis sobre la proporción es una hipótesis sobre la esperanza (de una variable binaria): E\left(
\widehat{\pi}\right)=\pi.

Muestreo y cálculo del estadístico de contraste

Una vez que se ha extraido una muestra de tamaño n, tenemos x_{1}, \ldots , x_{n} realizaciones de variables muestrales, X_{1}, \ldots , X_{n}, y calculamos el valor muestral v del estadístico de contraste V.

Decisión de contraste e interpretación

Ver las observaciones para el cotraste de \mu.

Potencia P\left( \pi\right)

La potencia de contraste de muestra grande basado enV=\frac{\widehat{\pi}-\pi_{0}}{\sigma_{0}\left(
\widehat{\pi}\right)}=\frac{\widehat{\pi}-\pi_{0}}{\sqrt{\frac{\pi_{0}\,\left(
1-\pi_{0}\right)}{n}}}se puede calcular de forma explícita para todos los conjuntos de contrastes de la misma forma que la potencia para el contraste de la media. La potencia del contraste exacto basado en V=X se calcula usando la distribución Binomial (ya que esta es la distribución subyacente del estadístico de contrasteest.con) para todo 0\leq\pi\leq 1 y fijo n. De la definiciónP\left( \pi\right)=P\left( V=X\in \, \text{región de rechazo de H}_{0}\,|\,\pi \right)se obtiene 1) para un contraste de dos colasP\left( \pi\right)=P\left( V<c_{l}\,|\,\pi
\right)+P\left( V>c_{u}\,|\,\pi \right)=P\left( V\leq c_{l}-1\,|\,\pi
\right)+\left[1- P\left( V\leq c_{u}\,|\,\pi \right)\right], 2) para un contraste por la derechaP\left( \pi\right)=P\left( V>c\,|\,\pi
\right)=1- P\left( V\leq c\,|\,\pi \right), 3) para un contraste por la izquierdaP\left( \pi\right)=P\left( V<c\,|\,\pi
\right)=P\left( V\leq c-1\,|\,\pi \right). Las probabilidades se pueden obtener de las tablas numéricas de la Binomial acumulada. Para \pi=\pi_{0}, la potencia es igual al nivel de significación \alpha_{a}. Imagina una ‘población binaria’ de N=3\,250 estudiantes de economía, de los cuales una proporción desconocida estan encantados con la estadística. Definimos la variable aleatoria X como la que adopta un elemento estadístico (‘estudiante de economía’) que puede ser cero o uno. Creemos que la mitad de los estudiantes están encantados con la estadística (nuestra proporción hipotética es por lo tanto \pi_{0}=0.5) y queremos contrastar, con un nivel de significación de \alpha y con un tamaño muestral de n, si la presunción del porcentaje es cierta en términos estadísticos:\text{H}_{0}:
\pi = \pi_{0} = 0.5 \quad \text{ versus } \quad \text{H}_{1}: \pi \neq \pi_{0}=0.5. En este ejemplo puedes repetir este contraste tantas veces como quieras. En cada simulación se genera una muestra nueva. Puedes interactuar decidiendo el valor de \alpha y N en cada repetición. En particular, puedes intentar las siguientes combinaciones:

Es s2 52 e 5.gif

Una de las razones de la existencia de intermediarios financieros es su habilidad de evaluar eficientemente la capacidad de cobrar el crédito a tiempo de los posibles solicitantes de un prestamo. El director del banco ABC decide que hay que revisar el sistema de concesión de crédito si la proporción de clientes con irregularidades en las devoluciones no es menor que 20 por ciento. Se pregunta al servicio de estadística del banco que realiza el contraste sobre mantener la probabilidad de no ser engañados para mejorar el procedimiento de evaluacion de créditos aunque la proporción sea ‘realmente’ mayor que el 20 por ciento. La variable aleatoria X: ‘incidente en el crédito’ o ‘problemas de devolución’ se define como una variable indicador que toma el valor cero (‘no’) o uno (‘si’). La proporción \pi de clientes que tienen problemas con los pagos es desconocida. El valor hipótetico del extremo para contrastar esta proporción poblacional es \pi_{0}=0.2.

Hipótesis

Sólo interesan desviaciones del parámetro hipotético en una dirección; por lo tanto, se empleará un cotraste de una cola. Como el banco quiere probar que el proceso de evaluación es suficiente, es decir, la proporción de deudores con irregularidades en sus créditos es menor que el 20 por ciento, esta afirmación se representa en el siguiente contraste de hipótesis:\text{H}_{0}: \pi \geq \pi_{0}=0.2
\quad \text{ versus } \quad \text{H}_{1}: \pi < \pi_{0}=0.2 Se deben evaluar las propiedades de este test con respecto a los requisitos de la dirección del banco, de forma que cumpla todas las necesidades. El error tipo I, que se comete si se rechaza la hipótesis nula, es aquí:'\text{H}_{1}'|\text{H}_{0}=\text{'proporción de deudores con problemas} <0.2;\,|\,
\text{en realidad, el porcentaje de deudores problemáticos es al menos del } 20 
\text{ por ciento, el procedimiento de crédito se debe revisar}. Si los resultados des test llevan a aceptar la hipótesis nula, se puede producir un error de tipo II:'\text{H}_{0}'|\text{H}_{1}=\text{'proporción de deudores problemáticos } \geq 0.2;
 \text{ se necesita una nueva evaluación} \,|\,
\text{en realidad, el porcentaje de deudores no supera el} 20 
\text{ por ciento; no se necesita ninguna revisión}. El error tipo I representa el riesgo que la dirección del banco quiere minizar. Su valor máximo está dado por el nivel de significación, que debe de ser fijado en un valor suficientemente pequeño como 0.05. El error tipo II representa el riesgo de coste de introducir un nuevo proceso de evaluación de creditos sin necesitar de la aprobación de la dirección. El impacto de este escenario en las ganancias del banco es dificil de determinar, ya que el nuevo proceso llevará a dar precios nuevos de créditos lo que, por supuesto, genera un coste. Basándose en el contraste anterior, se pueden realizar las siguientes alternativas. Se selecciona una muestra aleatoria de una población de 10\,000 deudores sin reemplazamiento. Es razonable que si n/N\leq 0.05 la muestra aleatoria se pueda considerar como ‘simple’.

Primera alternativa

Para reducir los costes, se selecciona una muestra de tamaño n=30. Se verifica el requisito teórico de que n/N\leq 0.05.

Estadístico de contraste y su distribución; regiones de decisión

La función muestral X: ‘Número de clientes con irregularidades en el crédito en una muestra de tamaño 30’ se puede considerar directamente como el estadístico de contraste V. Bajo \text{H}_{0}, V=X tiene una distribución Binomial B\left( 30;\,0.2\right). Cuando V es pequeño estamos en la hipótesis alternativa. El valor crítico c es la menor realización de X, para la cual F_{B}\left( x\right) es igual o mayor que \alpha, es decir, satisface que: F_{B}\left( c-1\right)\leq \alpha =0.05 y F_{B}\left(
c\right)> \alpha =0.05. En la tabla de la inversa de la acumulada de B\left( 30;\,0.2\right) encontramos c=3, y tenemos las siguientes regiones de decisión: Región de rechazo de \text{H}_{0}:
\left\{ v \, | \, v < 3\right\}=\left\{
0,1,2\right\}, con
P\left( V<5|0.2\right)=0.0442. Región de aceptación de \text{H}_{0}:
\left\{ v \, | \, v \geq 3\right\}=\left\{
3,4,\ldots , 30\right\}, with
P\left( V\geq 3|0.02\right)=0.9558. Dado que V=X es una variable aleatoria discreta, el no es alcanzado: \alpha_{a}=0.0442.

Muestreo y cálculo del estadístico de contraste

Se seleccionan 30 deudores aleatoriamente y se califican en función a su situación en los pagos del crédito. Supongamos que 5 no cumplen siempre con sus obligaciones de pago: v=5.

Decisión del contraste e interpretación

Como v=5 pertenece a la región de aceptación de \text{H}_{0}, no se rechaza la hipótesis nula. Sin embargo, como la proporción muestral x/n=5/30=0.167 es menor que el límite de la proporción hipotética \pi_{0}=0.2, no podemos verificar que \text{H}_{0} no sea verdad: a un de 0.05, la diferencia no puede considerarse significativa. En otras palabras: es muy posible que las diferencias se deban a la variabilidad de utilizar una muestra . Observar que no solamente la comparación entre el estimador puntual y el valor hipotético se tiene en cuenta para el rechazo o aceptación de la hipótesis, también se tiene considera el hecho del caracter aleatorio del estimador. Basándose en una muestra de tamaño n=30 y un nivel de significación \alpha=0.05, no podemos mostrar estadísticamente, que la proporción de “malos” deudores es significativamente menor que el 20 por ciento. Consecuentemente, el banco ABC debe revisar el procedimientod de concesión de créditos.

Potencia

No habiendo rechazado la hipótesis nula, somos vulnerables ante el hecho de cometer un error tipo II, que ocurre cuando la es realmente cierta: '\text{H}_{0}'|\text{H}_{1}. Vamos a calcular la probabilidad del error tipo II para el valor del parámetro verdadero \pi=0.15: ?’Cual es la probabilidad de no rechazar la hipótesis nula en una contraste por la izquierda con \pi_{0}=0.2, n=30, \alpha=0.05 y c=3, dado que la proporción poblacional verdadera es \pi=0.15 y por lo tanto la hipótesis nula es falsa? \beta\left(
0.15\right)=P\left('\text{H}_{0}'|\text{H}_{1}\right)=P\left( V=X\in \,
\text{acceptance region of H}_{0}\,|\, \pi=0.15\right)=P\left( V\geq3 \,|\,
\pi=0.15\right). CalculamosP\left( V\geq 3\,|\,\pi=0.15\right)=1-P\left(
V<3\,|\,\pi=0.15\right)=1-P\left( V\leq 2
\,|\,\pi=0.15\right)=1-0.1514=0.8486,donde P\left( V\leq 2\,|\,\pi=0.15\right) se calcula de la tabla de la función de distribución acumulada B\left( 30; \, 0.15\right) para c=2, es decir, F_{B}\left( 2\right). Interpretación: Dada la verdadera proporción de \pi=0.15, el 84.86 \% de las muestras de tamaño n=30 no discriminan entre el verdadero valor y el hipotético de \pi_{0}=.20, lo que induce al banco a emprender mejoras no óptimas en el proceso de evaluación crediticia con probabilidad 0.8486. En la decisión de controlar la probabilidad del error I, el banco probabilidades de error tipo II de esa magnitud, los estadísticos pueden suministrar la gestión de la función de potencia para cualquier valor del parámetro verdadero \pi. Ciertamente, no rechazando la hipótesis nula puede también ser la decisión correcta: '\text{H}_{0}'|\text{H}_{1}. Supongamos, por ejemplo, que la proporción real de deudores con problemas es \pi=0.25. La probabilidad de aceptar la hipótesis nula, y por lo tanto tomar la decisión correcta en este contraste (por la izquierda con \pi_{0}=0.20, n=30, \alpha=0l05 y por tanto c=3) esP\left( V=X\in \,
\text{acceptance region of H}_{0}\,|\, \pi=0.25\right)=P\left( V\geq3 \,|\,
\pi=0.25\right)=P\left( '\text{H}_{0}'|\text{H}_{1}\right)=1-\alpha. tenemosP\left( V\geq 3\,|\,\pi=0.25\right)=1-P\left(
V<3\,|\,\pi=0.25\right)=1-P\left( V\leq 2
\,|\,\pi=0.25\right)=1-0.0106=0.9894,donde P\left( V\leq 2\,|\,\pi=0.25\right) se obtiene de la tabla numérica de B\left( 30; \, 0.25\right) como la probabilidad acumulada para valores menores o iguales que c=2, es decir, F_{B}\left( 2\right). Estos cálculos se pueden realizar para cualquier valor paramétrico deseado en el espacio de dicho parámetro (aquí: \pi\in\left( 0,1\right)). Dependiendo en cuales sean las hipótesis a las que se puede asociar el parámetro, la potencia P\left(
\pi\right) o P1-\left( \pi\right) devuelve probabilidades de realizar la decisión correcta o del error tipo I o II.

\pi Hipótesis verdadera P\left( \pi\right) 1-P\left(
\pi\right)
0 \text{H}_{1} 1=1-\beta 0=\beta
0.05 \text{H}_{1} 0.8122=1-\beta 0.1878=\beta
0.10 \text{H}_{1} 0.4114=1-\beta 0.5886=\beta
0.15 \text{H}_{1} 0.1514=1-\beta 0.8486=\beta
0.20 \text{H}_{0} 0.0442=\alpha_{a} 0.9558=1-\alpha_{a}
0.25 \text{H}_{0} 0.0106=\alpha 0.9894=1-\alpha
0.30 \text{H}_{0} 0.0021=\alpha 0.9979=1-\alpha
0.35 \text{H}_{0} 0.0003=\alpha 0.9997=1-\alpha
0.40 \text{H}_{0} 0=\alpha 1=1-\alpha

El siguiente gráfico muestra la función de potencia para un contraste por la izquierda con parámetros \pi_{0}=0.20, n=30, \alpha=0l05 y c=3.

Es s2 52 e 4.gif

Segunda alternativa

Ahora, el investigador trata de satisfacer tanto que el parámetro \alpha=0.05, fijado por la dirección, que contiene la probabilidad de cometer un error tipo I y mantener el error tipo II lo más bajo posible. Es consciente del trade-off existente en la relación entre \alpha y \beta y trata de disminuir ambas probabilidades aumentando el tamaño de la muestra n, lo que provocará un incremento en el coste de la proyección ya que se ha aumentado la muestra si se pretende una mayor credibilidad en los resultados, para ello se selecciona una muestra de n=350, todavía inferior a la condición n/N\leq 0.05 necesaria para un muestreo aleatorio simple.

Estadístico de contraste y su distribución; regiones de decisión

Se usa el estadístico de contraste estandarizadoV=\frac{\widehat{\pi}-\pi_{0}}{\sigma_{0}\left(
\widehat{\pi}\right)}=\frac{\widehat{\pi}-\pi_{0}}{\sqrt{\frac{\pi_{0}\,\left(
1-\pi_{0}\right)}{n}}} Bajo \text{H}_{0}, tiene aproximadamente una distribución normal de parámetros \mu=0 y \sigma =1. La teoría de muestras grandes sugiere que la aproximación es sufientemente buena para un tamaño de muestra de n=350. De la tabla de la inversa de la función acumulada de la distribución normal se obtiene c=z_{0.95}=1.645 que satisface P\left(
V\leq c\right)=1-\alpha=0.95. De la propiedad de simetría se obtiene -c=-1.645, y entonces \left\{ v \,|\, v < -1.645 \right\} es aproximadamente la de \text{H}_{0} y \left\{ v \,|\, v \geq -1.645 \right\} como la región de aceptación aproximada de \text{H}_{0}.

Muestreo y cálculo del estadístico de contraste

De un universo de 10\,000 deudores, se seleccionan 350 aleatoriamente, de los cuales 63 muestran problemas en la devolución del crédito al menos una vez. La proporción en la muestra es 0.18. Introduciendo esto en el estadístico de contraste se obtienev=\frac{0.18-0.2}{\sqrt{\frac{0.2\,\cdot\, 0.8 }{350}}}=-0.935.

Decisiónn de contraste e interpretación

Como v=-.0935 está en la región de aceptación de \text{H}_{0}, no se rechaza la hipótesis nula. En base a esta muestra de tamaño n=350, no se puede verificar estadisticamente, que la proporción de deudores problemáticos sea menor que el 20 por ciento. Por lo tanto, el banco ABC deberá llevar a cabo una revisión en los procedimientos para otorgar créditos.

Probabilida de error tipo II

Como se ha inducido a la dirección del banco para aceptar la afirmación de la hipótesis nula, se podría cometer un error tipo II, si la proporción verdadera entre los 10\,000 es menor que 0.2: '\text{H}_{0}'|\text{H}_{1}. Vamos a examinar la probabilidad de que esto ocurra para una proporción real ‘hipotética’ de \pi=0.15, es decir, P\left('\text{H}_{0}'|\text{H}_{1}\right)=\beta\left( \pi=0.15\right). Primero, debemos determinar la proporción crítica p_{c} que se corresponde con el valor crítico calculado utilizando la aproximación normal. De -c=\left( p_{c}-\pi_{0}\right)/\sigma\left( \hat{\pi}\right)se obtienep_{c}=\pi_{0}-c \cdot \sigma\left( \hat{\pi}\right)=0.2 - 1.645 \,\left(0.2
\cdot 0.8/350 \right)=0.1648. \beta\left( \pi=0.15\right) es la probabilidad de la función muestral \widehat{\pi} asumiendo el valor de la región de aceptación de la hipótesis nula, dado el parámetro verdadero \pi que pertenece a la :\beta\left( \pi=0.15\right)=P\left( \widehat{\pi}\geq p_{c}
\,|\,\pi=0.15\right)=P\left( \widehat{\pi}\geq 0.1648 \,|\,\pi=0.15\right). A fin de determinar este problema en base a la tabla numérica de la distribución normal estandar, debemos estandarizar usando E\left(
\widehat{\pi}\right)=\pi=0.15 y Var\left( \widehat{\pi}\right)=\pi\left(
1-\pi\right)/n=0.15 \cdot 0.85/350:\begin{align}
\beta\left(
\pi=0.15\right)&=P\left( \widehat{\pi}\geq p_{c} \,|\,\pi=0.15\right)=P\left(
\frac{\widehat{\pi}-\pi_{0}}{\sqrt{\frac{\pi_{0}\,\left( 1-\pi_{0}\right)}{n}}}\geq
\frac{p_{c}-\pi_{0}}{\sqrt{\frac{\pi_{0}\,\left( 1-\pi_{0}\right)}{n}}}\,|\,\pi=0.15
\right)\\&=P\left( \frac{0.1648-0.15}{\sqrt{\frac{0.15\cdot 0.85}{350}}}
\,|\,\pi=0.15 \right)=P\left( V\geq0.775 \,|\,\pi=0.15\right). \end{align} En la tabla de la distribución normal estandar encontramos P\left( V\leq 0.775
\right)=0.7808 y por lo tanto tenemos\beta\left( \pi=0.15\right)=1-P\left( V\leq
0.775 \right)=1-0.7808=0.2192. De esta manera, comparado con \beta\left( \pi=0.15\right) de la primera alternativa, el incremento en el tamaño muestral produce una reducción considerable de la probabilidad del error tipo II para un proporción poblacional verdadera de \pi=0.15.

Es s2 52 f 2.gif

Un profesor de estadística tiene la impresión de que en el último año la biblioteca ha comprado, proporcionalmente, menos libros de estadística que en el pasado. Durante los dos años anteriores la cantidad relativa de libros de estadística entre las nuevas compras era muy superior al 10 por ciento. Pregunta a uno de sus asistantes que trate de investigar si esto a cambiado en favor de otros departamentos. Actuando en representación de sus estudiantes, a quienes quiere proporcionar tantos libros nuevos como sea posible, pide al asistente que minimice el riesgo de no tener una base para la reclamación a la biblioteca aunque la proporción de libros haya descendido. El asistente decide tomar una muestra de 25 libros tomados del archivo de nuevas adquisiciones durante los últimos 12 meses. Quiere saber cuantos de estos libros son de estadística. Para ello dicotomiza la muestra la muestra de ‘diferentes materias’ en dos resultados ‘estadística’ y ‘no estadística’. Desde luego, si se considera a las compras como un resultado de un proceso de toma de decisiones llevado a cabo por los bibliotecarios, esto es todo menos una variable aleatoria. Pero para el investigador, que confia en la muestra porque no tiene acceso a más información relevante, da la sensación que si es una variable aleatoria. De la proporción de libros de estadística, el asistente quiere inferir a la población de libros nuevos comprados, utilizando un test estadístico que permita desviaciones de la proporción en la muestra de la población. En particular, quiere verificar si la proporción está por debajo del 10 por ciento del pasado. Por lo tanto, contrastará la proporción muestral \pi y eligirá un nivel de significación ‘estandar’ de 0.05.

Hipótesis

Como el asistente quiere verificar si la proporción está por debajo de 0.1, va a emplear un test de una cola. Recuerda que el profesor quiere minimizar la probabilidad de no revelar que la proporción es menor que \pi_{0}=0.1 cuando en realidad lo es. De esta manera, opta por un contraste por la derecha, es decir, coloca la afirmación de profesor como la hipótesis nula con la esperanza de rechazarla:\text{H}_{0}: \pi
\leq \pi_{0}=0.1 \quad \text{ versus } \quad\text{H}_{1}: \pi > \pi_{0}=0.1. El asistente comienza la investigación teniendo en cuenta que la intención del profesor es minimizar la probabilidad de no detectar un descenso en la compra de libros de estadística. Un descenso real no puede, sólo, haber sido detectado si la hipótesis nula ha sido rechazada incluso si realmente es cierto. Esta situación se denomina error tipo I:'\text{H}_{1}'|\text{H}_{0}=\text{'proportion of statistics books has not decreased'}|\text{in reality, the proportion has decreased}.El máximo de la probabilidad de esta situación, P\left( '\text{H}_{1}'|\text{H}_{0}\right), está dado por el nivel de significación \alpha, que se ha fijado en 0.05. Por lo tanto, el riesgo que el profesor quiere ‘minimizar’ está bajo control. Si la hipótesis nula no es rechazada, puede ocurrir un error de tipo II:'\text{H}_{0}'|\text{H}_{1}=\text{'proportion of statistics books has decreased'}|\text{in reality, the proportion has not decreased}.La probabilidad de que esto ocurra (condicionado a que la hipótesis nula ha sido rechazada), P\left( '\text{H}_{1}'|\text{H}_{0}\right)=\beta, es desconocida, debido a que la verdadera proporción \pi (que es un elemento del espacio paramétrico especificado por la hipótesis alternativa), es desconocida. Como ya sabemos de otros ejemplos, puede ser importante, pero las prioridades del profesor están centradas sobretodo en el error tipo I más que en el error tipo II.

Estadístico de contraste y su distribución; regiones de decisión

La función muestral X: ‘número de libros de estadística en una muestra de 25 libros’ puede servir como estadístico de contraste V. Bajo \text{H}_{0}, V=X tiene una distribución Binomial con parametros n=25 y \pi=0.1: V\thicksim B\left( 25; \, 0.1\right). Un número relativamente alto de libros de estadística en la muestra es lo que se encuentra en la , que la proporción de libros no ha disminuido. El c es la realización de X, para la cual F_{B}\left( c\right) es igual o superior que 1-\alpha = 0.05, es decir, se requiere que F_{B}\left(
c-1\right)< 1-\alpha =0.95 y F_{B}\left( c\right)\geq 1-\alpha =0.95. En la tabla de la inversa de la función de distribución acumulada de B\left( 25; \, 0.1\right) se obtiene c=5. La región de rechazo de \text{H}_{0} es por tanto
\left\{ v \, | \, v
> 5\right\}=\left\{ 6,7,\ldots , 25\right\}, tal que
P\left( V>5|0.1\right)=0.0334=\alpha_{a}<\alpha. Como V=X es una variable aleatoria discreta, el nivel de confianza no se satisface completamente:\alpha_{a}=0.0334. La región de aceptación de \text{H}_{0} está dada por
\left\{ v \, | \,
v \leq 5\right\}=\left\{ 0,1,2,3,4,5\right\}, tal que
P\left( V\leq 5|0.01\right)=0.9666.

Muestreo y cálculo del estadístico de contraste

Se selecciona un subconjunto de 25 libros de forma aleatoria de la lista de libros comparados en el último año, y se catalogan entre estadísticos y no. Como el número de libros es suficientemente grande desde un punto de vista teórico, se ha seleccionado una muestra aleatoria simple. La cantidad de libros de estadística en la muestra es x=3, que nos servirá como valor del estadístico de contraste v.

Decisión del contraste e interpretación

Como v=3 está en la región de aceptación de \text{H}_{0}, no se puede rechazar la hipótesis nula. En base a esta muestra de tamaño n=25 y a un nivel de significación de \alpha=0.05, el asistente no puede verificar estadisticamente que la proporción de libros de estadística esté por encima del 10 por ciento.

Potencia

Dados nuestros parámetros del test (\pi_{0}=0.1, n=25, \alpha=0.05 y c=5), ?‘Cual es la probabilidad de no rechazar la hipótesis nula si la proporción verdadera de libros de estadística es \pi=0.2? Esto es, queremos calcular la probabilidad de cometer un error de tipo II dado un valor específico del conjunto paramétrico asociado con la hipótesis alternativa, \pi=0.2:\beta\left(
0.2\right)=P\left('\text{H}_{0}'|\text{H}_{1}\right)=P\left( V=X\in \,
\text{acceptance region of H}_{0}\,|\, \pi=0.2\right)=P\left( V\leq 5 \,|\,
\pi=0.2\right). En la tabla de la distribución acumulada de una Binomial B\left( 25; \, 0.2\right) encontramos esta probabilidad que es 0.6167. Si la proporción se ha incrementado a un 20 por ciento, todavía hay un 61.67 por ciento de posibilidades de no descubrir una desviación significativa respecto al extremo de la proporción hipotética del 10 por ciento. Es la probabilidad de una reclamación injustificada por parte del profesor dado que se la proporción ha aumentado al 0.2—un incremento relativamente substancial. La probabilidad de cometer un error de tipo II, que depende de las proporciones verdaderas alternativas \pi, se puede calcular mediante la potencia. En la siguiente tabla se muestran varios niveles de P\left( \pi\right) y 1-P\left( \pi\right) para distintos valores de \pi.

\pi Hipótesis verdadera P\left( \pi\right) 1-P\left(
\pi\right)
0 \text{H}_{0} 0=\alpha 1=1-\alpha
0.05 \text{H}_{0} 0.0012=\alpha 0.9988=1-\alpha
0.1 \text{H}_{0} 0.0334=\alpha_{a} 0.9666=1-\alpha_{a}
0.15 \text{H}_{1} 0.1615=1-\beta 0.8385=\beta
0.20 \text{H}_{1} 0.3833=1-\beta 0.6167=\beta
0.25 \text{H}_{1} 0.6217=1-\beta 0.3783=\beta
0.30 \text{H}_{1} 0.8065=1-\beta 0.1935=\beta
0.35 \text{H}_{1} 0.9174=1-\beta 0.0826=\beta
0.40 \text{H}_{1} 0.9706=1-\beta 0.0294=\beta
0.45 \text{H}_{1} 0.9914=1-\beta 0.0086=\beta
0.50 \text{H}_{1} 0.9980=1-\beta 0.0020=\beta
0.60 \text{H}_{1} 0.9999=1-\beta 0.0001=\beta
0.70 \text{H}_{1} 1=1-\beta 0=\beta

Por ejemplo, si la proporción verdadera (y por lo tanto cantidad absoluta) de libros de estadística es \pi=0, la muestra no puede contener ningun libro de estadística y esperaremos x=0 y rechazaremos la hipótesis nula. El rechazo de la hipótesis nula ('\text{H}_{1}') es un suceso imposible que tiene asociado la probabilidad cero. La potenciaes la probabilidad condicionada de rechazar la hipótesis nula dado que la cantidad relativa es cero:P\left( 0\right)=P\left( V=X\in \,
\text{región de rechazo de H}_{0}\,|\,\pi=0\right)=P\left('\text{H}_{1}'\,|\,0\right)=0. Por la otra parte, si la proporción verdadera de libros de estadística es \pi=0.35, la potencia calculada esP\left( 0.35\right)=P\left(
V>5\,|\,\pi=0.35\right)=1-P\left( V\leq5\,|\,\pi=0.35\right)=1-0.0826=0.9174,donde P\left( V\leq5\,|\,\pi=0.35\right) pueden ser obtenido de la tabla de la función de distribución acumulada como el valor de B\left( 25; \,
0.2\right) para c=5. P\left( 0.35\right) es la probabilidad de rechazar correctamente la hipótesis nula, P\left('\text{H}_{1}'|\text{H}_{1}\right). Las probabilidades de rechazo y aceptación de la hipótesis nula deben sumar siempre uno para cualquier valor del parámetro en el rango especificado de la hipótesis alternativa: P\left('\text{H}_{0}'|\text{H}_{1}\right)+P\left('\text{H}_{1}'|\text{H}_{1}\right)=1. Para una proporción verdadera de \pi=0.35, la antigua muestra implicaría que cometemos un error tipo II, la probabilidad de dicho error se denota como \beta\left(
0.35\right). Por lo tanto, podemos escribir\beta\left(
0.35\right)+P\left('\text{H}_{1}'|\text{H}_{1}\right)=1o P\left('\text{H}_{1}'|\text{H}_{1}\right)=1-\beta\left( 0.35\right). Como P\left('\text{H}_{1}'|\text{H}_{1}\right) es el valor de la potencia en el punto \pi=0.35, podemos calcular la probabilidad de cometer un error tipo II como\beta\left( 0.35\right)=1-P\left( 0.35\right)=0.0826.Si la proporción verdadera de libros de estadística es el 35 por ciento, el 8.26 por ciento de todas las muestras de tamaño n=25 llevarán a la aceptación de la hipótesis nula, es decir, no revelará diferencias significativasa entre \pi=0.35 y \pi_{0}=0.10. El siguiente gráfico representa la potencia del test por la derecha que hemos estudiado: \pi_{0}=0.10, n=25, \alpha=0.05 y c=5.

Es s2 52 f 1.gif