Contraste de proporciones en una población binaria
From MM*Stat International
English |
Português |
Français |
Español |
Italiano |
Nederlands |
Supongamos que la variable aleatoria se mide como dos posibles resultados. Los elementos estadísticos de la población pueden observarse
de forma binaria (con respecto a
). Si
es una variable indicador que guarda la información sobre la existencia (o no existencia) de una caracteristica, se puede realizar inferencia estadística sobre la proporción de elementos en la población que poseen la característica de interés (
) o los que no (
). Como en otro contraste paramétrico, la inferencia relaciona un valor hipotético, aquí
, con una cantidad hipotética de elementos de la población que tienen la característica de interés.
Vamos a introducir un procedimiento de contraste estadístico basado en una muestra aleatoria simple de tamaño
. Esto garantiza que las variables muestrales
, variables indicador con resultados medidos como
y
, sean independientes e idénticamente distribuidas como variables de Bernoulli. El nivel de significación se denota como
.
Contents
- 1 Hipótesis
- 2 Contraste estadístico y su distribución; regiones de decisión
- 3 Muestreo y cálculo del estadístico de contraste
- 4 Decisión de contraste e interpretación
- 5 Potencia
- 6 Hipótesis
- 7 Primera alternativa
- 8 Estadístico de contraste y su distribución; regiones de decisión
- 9 Muestreo y cálculo del estadístico de contraste
- 10 Decisión del contraste e interpretación
- 11 Potencia
- 12 Segunda alternativa
- 13 Estadístico de contraste y su distribución; regiones de decisión
- 14 Muestreo y cálculo del estadístico de contraste
- 15 Decisiónn de contraste e interpretación
- 16 Probabilida de error tipo II
- 17 Hipótesis
- 18 Estadístico de contraste y su distribución; regiones de decisión
- 19 Muestreo y cálculo del estadístico de contraste
- 20 Decisión del contraste e interpretación
- 21 Potencia
Hipótesis
Dependiendo de el tipo de contraste que se realice, los test que se pueden formular son:
1)
2)
3)
Los comentarios realizados en la sección de contraste de medias poblacionales también se pueden realizar aquí.
Contraste estadístico y su distribución; regiones de decisión
La proporción empírica es un estimador adecuado del parámetro de la población
. La función muestral
una simple transformación de
(
), contiene toda la información necesaria, ya que contabiliza el número de elementos en la muestra que poseen la propiedad de interés. Como ya se ha visto (ver capítulo 6),
tiene una distribución Binomial de parámetros
y
:
. Como
lo elige la persona que realiza el contraste,
es el único parámetro necesario para especificar la distribución Binomial. Siguiendo la lógica aplicada en otros problemas de contraste de hipótesis, hacemos que
sea
, es decir, determinamos la distribución del estadístico de contraste dado que la proporción hipotética
es la predominante en la población:
. Por lo tanto, la función muestral
convierte nuestro estadístico de contraste de tal forma, que ahora presenta una distribución Binomial de parámetros
y
bajo
:
La región de rechazo de la hipótesis nula contiene todas las realizaciones de
para la que las probabilidades acumuladas no superan el
. Los valores críticos se pueden tomar de la tabla de la función de la distribución acumulada
of
, siguiendo estas reglas:
1)
El valor crítico menor
es la realización
de
, para la cual la función de distribución acumulada justamente excede el valor
:
y
.
El valor crítico superior
es el argumento
de la acumulada que devuelve una probabilidad igual o mayor que
:
and
.
La región de rechazo de
está dada por
, de forma que
.
Para la región de aceptación de
tenemos
, tal que
.
2)
El valor crítico
es la menor realización del estadístico de contraste que ocurre con probabilidad acumulada de al menos
:
y
.
La región de rechazo de
es entonces
, tal que
.
La región de aceptación de
es
, tal que
.
3)
El valor crítico
se determina como la menor realización del estadístico de contraste que ocurre con una probabilidad acumulada de al menos
:
y
.
La región de rechazo de
es
, por lo que
.
La región de aceptación de
está dada por
, tal que
.
Como
es una variable aleatoria discreta, el nivel de signifación
no se puede utilizar de forma completa. El nivel de signifación
sólo presentará ese valor por casualidad, y normalmente, será menor. Los contrastes superiores son, en este sentido, conservadores ya que utilizan un máximo para la probabilidad del error tipo I.
Dado un tamaño muestral
suficientemente grande, el estimador
se puede estandarizar de forma que se obtenga el estadístico de contraste
Aquí,
es la desviación típica del estimador
bajo
.
Bajo
,
tiene una distribución normal estandarizada (ver capítulo 6). Los valores críticos, para el nivel de significación dado, se pueden obtener de la tabla de la inversa de la distribución acumulada de la normal estandar. Las regiones de decisión para los contrastes de una y dos colas se obtienen aproximadamente de forma similar a los obtenidos para el contraste de la media poblacional para
conocida: En esencia, una hipótesis sobre la proporción es una hipótesis sobre la esperanza (de una variable binaria):
.
Muestreo y cálculo del estadístico de contraste
Una vez que se ha extraido una muestra de tamaño , tenemos
realizaciones de variables muestrales,
, y calculamos el valor muestral
del estadístico de contraste
.
Decisión de contraste e interpretación
Ver las observaciones para el cotraste de .
Potencia 
La potencia de contraste de muestra grande basado ense puede calcular de forma explícita para todos los conjuntos de contrastes de la misma forma que la potencia para el contraste de la media.
La potencia del contraste exacto basado en
se calcula usando la distribución Binomial (ya que esta es la distribución subyacente del estadístico de contrasteest.con) para todo
y fijo
.
De la definición
se obtiene
1) para un contraste de dos colas
2) para un contraste por la derecha
3) para un contraste por la izquierda
Las probabilidades se pueden obtener de las tablas numéricas de la Binomial acumulada.
Para
, la potencia es igual al nivel de significación
.
Imagina una ‘población binaria’ de
estudiantes de economía, de los cuales una proporción desconocida estan encantados con la estadística. Definimos la variable aleatoria
como la que adopta un elemento estadístico (‘estudiante de economía’) que puede ser cero o uno.
Creemos que la mitad de los estudiantes están encantados con la estadística (nuestra proporción hipotética es por lo tanto
) y queremos contrastar, con un nivel de significación de
y con un tamaño muestral de
, si la presunción del porcentaje es cierta en términos estadísticos:
En este ejemplo puedes repetir este contraste tantas veces como quieras. En cada simulación se genera una muestra nueva. Puedes interactuar decidiendo el valor de
y
en cada repetición. En particular, puedes intentar las siguientes combinaciones:
- Mantener fijo el nivel de significación
y el tamaño muestral
,
- modificar el nivel de significación
y mantener fijo el tamaño muestral
,
- Cambiar
, dejando constante
,
- Variar tanto el nivel de significación
como el tamaño muestral
.
Una de las razones de la existencia de intermediarios financieros es su habilidad de evaluar eficientemente la capacidad de cobrar el crédito a tiempo de los posibles solicitantes de un prestamo.
El director del banco ABC decide que hay que revisar el sistema de concesión de crédito si la proporción de clientes con irregularidades en las devoluciones no es menor que
por ciento. Se pregunta al servicio de estadística del banco que realiza el contraste sobre mantener la probabilidad de no ser engañados para mejorar el procedimiento de evaluacion de créditos aunque la proporción sea ‘realmente’ mayor que el
por ciento.
La variable aleatoria
‘incidente en el crédito’ o ‘problemas de devolución’ se define como una variable indicador que toma el valor cero (‘no’) o uno (‘si’). La proporción
de clientes que tienen problemas con los pagos es desconocida. El valor hipótetico del extremo para contrastar esta proporción poblacional es
.
Hipótesis
Sólo interesan desviaciones del parámetro hipotético en una dirección; por lo tanto, se empleará un cotraste de una cola. Como el banco quiere probar que el proceso de evaluación es suficiente, es decir, la proporción de deudores con irregularidades en sus créditos es menor que el por ciento, esta afirmación se representa en el siguiente contraste de hipótesis:
Se deben evaluar las propiedades de este test con respecto a los requisitos de la dirección del banco, de forma que cumpla todas las necesidades.
El error tipo I, que se comete si se rechaza la hipótesis nula, es aquí:
Si los resultados des test llevan a aceptar la hipótesis nula, se puede producir un error de tipo II:Failed to parse (lexing error): '\text{H}_{0}'|\text{H}_{1}=\text{'proporción de deudores problemáticos } \geq 0.2; \text{ se necesita una nueva evaluación} \,|\,\text{en realidad, el porcentaje de deudores no supera el} 20 \text{ por ciento; no se necesita ninguna revisión}.
El error tipo I representa el riesgo que la dirección del banco quiere minizar. Su valor máximo está dado por el nivel de significación, que debe de ser fijado en un valor suficientemente pequeño como
.
El error tipo II representa el riesgo de coste de introducir un nuevo proceso de evaluación de creditos sin necesitar de la aprobación de la dirección. El impacto de este escenario en las ganancias del banco es dificil de determinar, ya que el nuevo proceso llevará a dar precios nuevos de créditos lo que, por supuesto, genera un coste.
Basándose en el contraste anterior, se pueden realizar las siguientes alternativas.
Se selecciona una muestra aleatoria de una población de
deudores sin reemplazamiento. Es razonable que si
la muestra aleatoria se pueda considerar como ‘simple’.
Primera alternativa
Para reducir los costes, se selecciona una muestra de tamaño . Se verifica el requisito teórico de que
.
Estadístico de contraste y su distribución; regiones de decisión
La función muestral ‘Número de clientes con irregularidades en el crédito en una muestra de tamaño 30’ se puede considerar directamente como el estadístico de contraste
. Bajo
,
tiene una distribución Binomial
. Cuando
es pequeño estamos en la hipótesis alternativa. El valor crítico
es la menor realización de
, para la cual
es igual o mayor que
, es decir, satisface que:
y
. En la tabla de la inversa de la acumulada de
encontramos
, y tenemos las siguientes regiones de decisión:
Región de rechazo de
:
, con
.
Región de aceptación de
:
, with
.
Dado que
es una variable aleatoria discreta, el no es alcanzado:
.
Muestreo y cálculo del estadístico de contraste
Se seleccionan deudores aleatoriamente y se califican en función a su situación en los pagos del crédito. Supongamos que
no cumplen siempre con sus obligaciones de pago:
.
Decisión del contraste e interpretación
Como pertenece a la región de aceptación de
, no se rechaza la hipótesis nula. Sin embargo, como la proporción muestral
es menor que el límite de la proporción hipotética
, no podemos verificar que
no sea verdad: a un de
, la diferencia no puede considerarse significativa. En otras palabras: es muy posible que las diferencias se deban a la variabilidad de utilizar una muestra . Observar que no solamente la comparación entre el estimador puntual y el valor hipotético se tiene en cuenta para el rechazo o aceptación de la hipótesis, también se tiene considera el hecho del caracter aleatorio del estimador. Basándose en una muestra de tamaño
y un nivel de significación
, no podemos mostrar estadísticamente, que la proporción de “malos” deudores es significativamente menor que el
por ciento. Consecuentemente, el banco ABC debe revisar el procedimientod de concesión de créditos.
Potencia
No habiendo rechazado la hipótesis nula, somos vulnerables ante el hecho de cometer un error tipo II, que ocurre cuando la es realmente cierta: .
Vamos a calcular la probabilidad del error tipo II para el valor del parámetro verdadero
: ?’Cual es la probabilidad de no rechazar la hipótesis nula en una contraste por la izquierda con
,
,
y
, dado que la proporción poblacional verdadera es
y por lo tanto la hipótesis nula es falsa?
Calculamos
donde
se calcula de la tabla de la función de distribución acumulada
para
, es decir,
.
Interpretación: Dada la verdadera proporción de
, el
de las muestras de tamaño
no discriminan entre el verdadero valor y el hipotético de
, lo que induce al banco a emprender mejoras no óptimas en el proceso de evaluación crediticia con probabilidad
. En la decisión de controlar la probabilidad del error I, el banco probabilidades de error tipo II de esa magnitud, los estadísticos pueden suministrar la gestión de la función de potencia para cualquier valor del parámetro verdadero
.
Ciertamente, no rechazando la hipótesis nula puede también ser la decisión correcta:
. Supongamos, por ejemplo, que la proporción real de deudores con problemas es
. La probabilidad de aceptar la hipótesis nula, y por lo tanto tomar la decisión correcta en este contraste (por la izquierda con
,
,
y por tanto
) es
tenemos
donde
se obtiene de la tabla numérica de
como la probabilidad acumulada para valores menores o iguales que
, es decir,
.
Estos cálculos se pueden realizar para cualquier valor paramétrico deseado en el espacio de dicho parámetro (aquí:
). Dependiendo en cuales sean las hipótesis a las que se puede asociar el parámetro, la potencia
o
devuelve probabilidades de realizar la decisión correcta o del error tipo I o II.
![]() |
Hipótesis verdadera | ![]() |
![]() |
---|---|---|---|
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
El siguiente gráfico muestra la función de potencia para un contraste por la izquierda con parámetros ,
,
y
.
Segunda alternativa
Ahora, el investigador trata de satisfacer tanto que el parámetro , fijado por la dirección, que contiene la probabilidad de cometer un error tipo I y mantener el error tipo II lo más bajo posible. Es consciente del trade-off existente en la relación entre
y
y trata de disminuir ambas probabilidades aumentando el tamaño de la muestra
, lo que provocará un incremento en el coste de la proyección ya que se ha aumentado la muestra si se pretende una mayor credibilidad en los resultados, para ello se selecciona una muestra de
, todavía inferior a la condición
necesaria para un muestreo aleatorio simple.
Estadístico de contraste y su distribución; regiones de decisión
Se usa el estadístico de contraste estandarizado Bajo
, tiene aproximadamente una distribución normal de parámetros
y
. La teoría de muestras grandes sugiere que la aproximación es sufientemente buena para un tamaño de muestra de
. De la tabla de la inversa de la función acumulada de la distribución normal se obtiene
que satisface
. De la propiedad de simetría se obtiene
, y entonces
es aproximadamente la de
y
como la región de aceptación aproximada de
.
Muestreo y cálculo del estadístico de contraste
De un universo de deudores, se seleccionan
aleatoriamente, de los cuales
muestran problemas en la devolución del crédito al menos una vez. La proporción en la muestra es
. Introduciendo esto en el estadístico de contraste se obtiene
Decisiónn de contraste e interpretación
Como está en la región de aceptación de
, no se rechaza la hipótesis nula. En base a esta muestra de tamaño
, no se puede verificar estadisticamente, que la proporción de deudores problemáticos sea menor que el
por ciento. Por lo tanto, el banco ABC deberá llevar a cabo una revisión en los procedimientos para otorgar créditos.
Probabilida de error tipo II
Como se ha inducido a la dirección del banco para aceptar la afirmación de la hipótesis nula, se podría cometer un error tipo II, si la proporción verdadera entre los es menor que
:
. Vamos a examinar la probabilidad de que esto ocurra para una proporción real ‘hipotética’ de
, es decir,
.
Primero, debemos determinar la proporción crítica
que se corresponde con el valor crítico calculado utilizando la aproximación normal. De
se obtiene
es la probabilidad de la función muestral
asumiendo el valor de la región de aceptación de la hipótesis nula, dado el parámetro verdadero
que pertenece a la :
A fin de determinar este problema en base a la tabla numérica de la distribución normal estandar, debemos estandarizar usando
y
:
En la tabla de la distribución normal estandar encontramos
y por lo tanto tenemos
De esta manera, comparado con
de la primera alternativa, el incremento en el tamaño muestral produce una reducción considerable de la probabilidad del error tipo II para un proporción poblacional verdadera de
.
Un profesor de estadística tiene la impresión de que en el último año la biblioteca ha comprado, proporcionalmente, menos libros de estadística que en el pasado. Durante los dos años anteriores la cantidad relativa de libros de estadística entre las nuevas compras era muy superior al
por ciento. Pregunta a uno de sus asistantes que trate de investigar si esto a cambiado en favor de otros departamentos. Actuando en representación de sus estudiantes, a quienes quiere proporcionar tantos libros nuevos como sea posible, pide al asistente que minimice el riesgo de no tener una base para la reclamación a la biblioteca aunque la proporción de libros haya descendido.
El asistente decide tomar una muestra de
libros tomados del archivo de nuevas adquisiciones durante los últimos
meses. Quiere saber cuantos de estos libros son de estadística. Para ello dicotomiza la muestra la muestra de ‘diferentes materias’ en dos resultados ‘estadística’ y ‘no estadística’. Desde luego, si se considera a las compras como un resultado de un proceso de toma de decisiones llevado a cabo por los bibliotecarios, esto es todo menos una variable aleatoria. Pero para el investigador, que confia en la muestra porque no tiene acceso a más información relevante, da la sensación que si es una variable aleatoria. De la proporción de libros de estadística, el asistente quiere inferir a la población de libros nuevos comprados, utilizando un test estadístico que permita desviaciones de la proporción en la muestra de la población. En particular, quiere verificar si la proporción está por debajo del
por ciento del pasado. Por lo tanto, contrastará la proporción muestral
y eligirá un nivel de significación ‘estandar’ de
.
Hipótesis
Como el asistente quiere verificar si la proporción está por debajo de , va a emplear un test de una cola. Recuerda que el profesor quiere minimizar la probabilidad de no revelar que la proporción es menor que
cuando en realidad lo es. De esta manera, opta por un contraste por la derecha, es decir, coloca la afirmación de profesor como la hipótesis nula con la esperanza de rechazarla:
El asistente comienza la investigación teniendo en cuenta que la intención del profesor es minimizar la probabilidad de no detectar un descenso en la compra de libros de estadística. Un descenso real no puede, sólo, haber sido detectado si la hipótesis nula ha sido rechazada incluso si realmente es cierto. Esta situación se denomina error tipo I:Failed to parse (lexing error): '\text{H}_{1}'|\text{H}_{0}=\text{'proportion of statistics books has \emph{not} decreased'}|\text{in reality, the proportion \emph{has} decreased}.
El máximo de la probabilidad de esta situación,
, está dado por el nivel de significación
, que se ha fijado en
. Por lo tanto, el riesgo que el profesor quiere ‘minimizar’ está bajo control.
Si la hipótesis nula no es rechazada, puede ocurrir un error de tipo II:Failed to parse (lexing error): '\text{H}_{0}'|\text{H}_{1}=\text{'proportion of statistics books has decreased'}|\text{in reality, the proportion has \emph{not} decreased}.
La probabilidad de que esto ocurra (condicionado a que la hipótesis nula ha sido rechazada),
, es desconocida, debido a que la verdadera proporción
(que es un elemento del espacio paramétrico especificado por la hipótesis alternativa), es desconocida. Como ya sabemos de otros ejemplos, puede ser importante, pero las prioridades del profesor están centradas sobretodo en el error tipo I más que en el error tipo II.
Estadístico de contraste y su distribución; regiones de decisión
La función muestral ‘número de libros de estadística en una muestra de
libros’ puede servir como estadístico de contraste
. Bajo
,
tiene una distribución Binomial con parametros
y
:
. Un número relativamente alto de libros de estadística en la muestra es lo que se encuentra en la , que la proporción de libros no ha disminuido. El
es la realización de
, para la cual
es igual o superior que
, es decir, se requiere que
y
.
En la tabla de la inversa de la función de distribución acumulada de
se obtiene
.
La región de rechazo de
es por tanto
, tal que
.
Como
es una variable aleatoria discreta, el nivel de confianza no se satisface completamente:
.
La región de aceptación de
está dada por
, tal que
.
Muestreo y cálculo del estadístico de contraste
Se selecciona un subconjunto de libros de forma aleatoria de la lista de libros comparados en el último año, y se catalogan entre estadísticos y no. Como el número de libros es suficientemente grande desde un punto de vista teórico, se ha seleccionado una muestra aleatoria simple. La cantidad de libros de estadística en la muestra es
, que nos servirá como valor del estadístico de contraste
.
Decisión del contraste e interpretación
Como está en la región de aceptación de
, no se puede rechazar la hipótesis nula. En base a esta muestra de tamaño
y a un nivel de significación de
, el asistente no puede verificar estadisticamente que la proporción de libros de estadística esté por encima del
por ciento.
Potencia
Dados nuestros parámetros del test (,
,
y
), ?‘Cual es la probabilidad de no rechazar la hipótesis nula si la proporción verdadera de libros de estadística es
? Esto es, queremos calcular la probabilidad de cometer un error de tipo II dado un valor específico del conjunto paramétrico asociado con la hipótesis alternativa,
:
En la tabla de la distribución acumulada de una Binomial
encontramos esta probabilidad que es
. Si la proporción se ha incrementado a un
por ciento, todavía hay un
por ciento de posibilidades de no descubrir una desviación significativa respecto al extremo de la proporción hipotética del
por ciento. Es la probabilidad de una reclamación injustificada por parte del profesor dado que se la proporción ha aumentado al
—un incremento relativamente substancial.
La probabilidad de cometer un error de tipo II, que depende de las proporciones verdaderas alternativas
, se puede calcular mediante la potencia. En la siguiente tabla se muestran varios niveles de
y
para distintos valores de
.
![]() |
Hipótesis verdadera | ![]() |
![]() |
---|---|---|---|
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Por ejemplo, si la proporción verdadera (y por lo tanto cantidad absoluta) de libros de estadística es , la muestra no puede contener ningun libro de estadística y esperaremos
y rechazaremos la hipótesis nula. El rechazo de la hipótesis nula (
) es un suceso imposible que tiene asociado la probabilidad cero. La potenciaes la probabilidad condicionada de rechazar la hipótesis nula dado que la cantidad relativa es cero:Failed to parse (lexing error): P\left( 0\right)=P\left( V=X\in \, \text{región de rechazo de H}_{0}\,|\,\pi=0\right)=P\left('\text{H}_{1}'\,|\,0\right)=0.
Por la otra parte, si la proporción verdadera de libros de estadística es
, la potencia calculada es
donde
pueden ser obtenido de la tabla de la función de distribución acumulada como el valor de
para
.
es la probabilidad de rechazar correctamente la hipótesis nula,
. Las probabilidades de rechazo y aceptación de la hipótesis nula deben sumar siempre uno para cualquier valor del parámetro en el rango especificado de la hipótesis alternativa:
Para una proporción verdadera de
, la antigua muestra implicaría que cometemos un error tipo II, la probabilidad de dicho error se denota como
. Por lo tanto, podemos escribir
o
Como
es el valor de la potencia en el punto
, podemos calcular la probabilidad de cometer un error tipo II como
Si la proporción verdadera de libros de estadística es el
por ciento, el
por ciento de todas las muestras de tamaño
llevarán a la aceptación de la hipótesis nula, es decir, no revelará diferencias significativasa entre
y
.
El siguiente gráfico representa la potencia del test por la derecha que hemos estudiado:
,
,
y
.