Teorema de las Probabilidades Totales y Regla de Bayes

From MM*Stat International

Jump to: navigation, search
English
Português
Français
‎Español
Italiano
Nederlands


Recuérdese la descomposición disjunta que se ha introducido anteriormente en este tema como un conjunto de sucesos A_{1},A_{2},\ldots,A_{n} que satisface

  • A_{i}\neq\emptyset\quad\left(  i=1,2,\ldots,n\right)
  • A_{i} \cap A_{k}=\emptyset\quad\left(  i\neq k;i,k=1,2,\ldots,n\right)
  • A_{1}\cup A_{2}\cup\ldots\cup A_{n}=S

Teorema de la Probabilidad Total

Sea A_{1},A_{2},\ldots,A_{n} una descomposición disjunta. Entonces, para cualquier suceso B\subset S con P(B)>0: \begin{align}
P(B)  &  = P\left(  B\cap A_{1}\right)  + P\left(  B\cap A_{2}\right)  +
\ldots+ P\left(  B\cap A_{n}\right) \\
&  = P\left(  B|A_{1}\right)  P\left(  A_{1}\right)  + P\left(  B|A_{2}
\right)  P\left(  A_{2}\right)  + \ldots+ P\left(  B|A_{n}\right)  P\left(
A_{n}\right) \\
&  = \sum_{i=1}^{n}P\left(  B|A_{i}\right)  P\left(  A_{i}\right)\end{align} Hemos aplicado la regla del producto de la probabilidad P\left(
A\cap B\right) =P\left( B|A_{i}\right) P\left( A_{i}\right) .

Regla de Bayes

Sea A_{1},A_{2},\ldots,A_{n} una descomposición disjunta. Entonces, para un suceso B\subset S con P(B)>0 y dadas las probabilidades condicionadas P\left(
B|A_{1}\right)  ,P\left(  B|A_{2}\right)  ,\ldots,P\left(  B|A_{n}\right)  : P\left(  A_{j}|B\right)  = \frac{P\left(  B|A_{j}\right)  P\left(
A_{j}\right)  }{\sum_{i=1}^{n}P\left(  B|A_{i}\right)  P\left(  A_{i}\right)
} \quad\forall j=1,\ldots, n La aproximación bayesiana a la estadística interpreta que la P\left( A_{j}|B\right)  como las probabilidades a posteriori y P\left( A_{i}\right) como las probabilidades apriori. Esta aproximación conceptual a la estadística justifica la información apriori como una opinión subjetiva más que probabilidades definidas como límites de las frecuencias relativas. El problema de Monty Hall (presentador del programa de televisión ”Hagamos un trato”) está basado en la siguiente situación: Monty Hall muestra a los concursantes tres puertas A,B y C. El premio gordo está oculto detrás de una de ellas, las otras puertas contienen premios pequeños. Por ahora, supongamos que el premio está detras de la puerta B. Monty Hall pide al concursante que seleccione una puerta. Tras la elección del jugador (digamos la puerta A), una de las puertas que no contiene el premio gordo es abierta (la puerta C). Ahora, el jugador puede decidir si continua con su elección inicial (puerta A) o si quiere cambiar a la otra puerta cerrada (puerta B). ?‘Cuál es la probabilidad de que el premio gordo este detrás la puerta inicialmente seleccionada (A) o detrás de la otra (no abierta ni elegida) puerta (B)? Este ejemplo interactivo nos permite jugar al juego con “virtual Monty” y estudiar las frecuencias relativas de ganancia dependiendo de la estrategia. La definición estadística de probabilidad garantiza que la pregunta será contestada después de repetir el juego el suficiente número de veces. Inténtalo!!!

Es folnode7 e lev2 2.gif

Solución: Definamos los sucesos A : \ \text{Premio gordo tras puerta A} B : \ \text{Premio gordo tras puerta B} C : \ \text{Premio gordo tras puerta C} a : \ \text{Monty abre la puerta A} b : \ \text{Monty abre la puerta B} c : 
\text{Monty abre la puerta C} Inicialmente, la probabilidad de elegir la puerta correcta es 1/3., P(A)=P(B)=P(C)=1/3 Estas probabilidades son válidas antes de que Monty abra una puerta; podemos denotarlas como probabilidades apriori. Supongamos que elige la puerta A. Ahora, Monty abre una de las otras puertas que no contiene el premio gordo. Existen dos posibles situaciones:

  • Situación 1

    Si el premio esta detrás de la puerta (A) entonces Monty puede abrir cualquiera de las otras dos puertas restantes (puerta B o C). Supongamos que su decisión es aleatoria—esto implica que ambas puertas tienen la misma probabilidad 1/2. Si el premio no está detrás de su puerta, entonces tiene que estar o en la puerta B o C y Monty tiene que abrir (es decir, el abrirá con probabilidad 1) la otra puerta.

Supongamos que Monty abre la puerta B. Matemáticamente, esto significa \text{Situación 1:}\ P(b|A) = \frac{1}{2} \text{Situación 2:}\ P(b|C) = 1 ya que el jugador no sabe cual de las dos situaciones ha ocurrido. Cuando Monty abre la puerta, tu puedes mantener tu decisión original o puedes cambiarla y abrir la puerta C. Qué decisión es mejor?, es decir, ?‘cuál de las dos puertas A o C es más probable que esconda el premio gordo, si sabemos que Monty tiene que abrir la puerta B? Nos interesa calcular las probabilidades P(A|b) y P(C|b). Las probabilidades a priori eran P(A)=P(C)=\frac{1}{3}. Cuando Monty abre la puerta B, podemos calcular las probabilidades a posteriori aplicando la regla de Bayes y el Teorema de las Probabilidades Totales: \begin{align}
P(A|b)  &  =\frac{P(b|A)\cdot P(A)}{P(b)}=\frac{\frac{1}{2}\cdot\frac{1}{3}
}{\frac{1}{2}}=\frac{1}{3}\\
P(C|b)  &  =\frac{P(b|C)\cdot P(C)}{P(b)}=\frac{1\cdot\frac{1}{3}}{\frac{1}
{2}}=\frac{2}{3}\\
&\end{align} Cambiar la decisión se la solución correcta! Descripción del ejemplo interactivo: En este ejemplo se puede decidir el número de rondas n, el número seis X y la probabilidad P del suceso, de obtener seis cuando se tira un dado “cargado”. Para estas entradas, se obtiene una probabilidad de que el dado usado en el juego estubiera cargado. Lea cuidadosamente la siguiente historia antes de comenzar con el ejemplo interactivo ! La Historia: Tres hermanos estan jugando a los dados. El más pequeño (un chico) da un dado a cada una de las hermanas. Tiran el dado n veces y aquella que obtenga el seis mas frecuentemente, gana. Las hermanas recuerdan que uno de los dados está ”cargado”. La probabilidad de obtener un seis con este dado es 1/3, la probabilidad de los otros números es 2/15. La primera hermana lanza el dado n veces y obtiene seis X. La otra hermana quiere calcular la probabilidad de que su dado esté cargado. Se puede hacer con facilidad. Veamos el número actual de 6 que pueden ser 0,1,2,\dots ,\text{o} n. Para simplificar, supongamos n=3  Para un dado equilibrado lo escribiremos como \ W=0, para un dado cargado como,  W=1.  . Todos los lanzamientos son independientes y por lo tanto obtenemos: P(X=0|W=0)=P(\text{num 6 en tres tiradas})=5/6\cdot5/6\cdot5/6=0.5787 P(X=1|W=0)=P(\text{solo un 6 en tres tiradas})=1/6\cdot5/6\cdot
5/6\cdot3=0.3472 P(X=2|W=0)=P(\text{exactamente dos 6 en tres tiradas})=1/6\cdot
1/6\cdot5/6\cdot3=0.0694 P(X=3|W=0)=P(\text{en las tres tiradas fueron 6})=1/6\cdot1/6\cdot1/6=0.0046 . Para el mismo experimento con el dado cargado (W=1) se obtiene: P(X=0|W=1)=2/3\cdot2/3\cdot2/3=0.2963 P(X=1|W=1)=1/3\cdot2/3\cdot2/3\cdot3=0.4444 P(X=2|W=1)=1/3\cdot1/3\cdot2/3\cdot3=0.2222 P(X=3|W=1)=1/3\cdot1/3\cdot1/3=0.0370 La primera de las hermanas obtuvo dos 6 en tres tiradas (X=2). ?‘Cuál es la probabilidad de que ella jugase con el dado cargado? Queremos calcular la probabilidad P(W=1|X=2). De acuerdo con la regla de Bayes tenemos P(W=1|X=2)=\frac{P(X=2|W=1)P(W=1)}{P(X=2|W=0)P(W=0)+P(X=2|W=1)P(W=1)} Utilizando P(W=1)=P(W=0)=1/2 se obtiene en el numerador 0.2222\cdot0.5=0.1111 y en el denominador 0.0694\cdot0.5+0.2222\cdot0.1458 por lo que la probabilidad P(W=1|X=2)=0.1111/0.1458=0.762. El ejemplo interactivo: Selecciona X (el número de 6), n (el número de tiradas) y p (la probabilidad de obtener un 6 en el dado cargado) y deja al ordenador calcular la probabilidad P(W=1|X). Recomendación: Siempre selecciona el valor de un único parámetro al tiempo y observa la influencia en el cambio del resultado. Suponiendo que el 0.5 por ciento de la población está infectada con un peculiar virus que produce una aguda enfermedad sólo tras un largo periodo de tiempo. Un estudio clínico muestra que 99 por ciento de los individuos que sufren de síntomas confirman una infección con una prueba viral positiva. Por la otra parte, existe un 2 por ciento de la población que no desarrolla los síntomas pero que da positivo en el test. ?‘Cuál es la probabilidad de que una persona que ha dado positivo en el test este realmente infectada? Vamos a formalizar el problema. En lugar de utilizar la notación teórica de conjuntos vamos a definir una variable indicador para las dos variables binarias correspondientes a infección (I) y a la prueba o test (T): \begin{align}
I  &  =\left\{
\begin{array}
[c]{ll}
1 & \text{si una persona está infectada}\\
0 & \text{si una persona no está infectada}
\end{array}
\right. \\
T  &  =\left\{
\begin{array}
[c]{ll}
1 & \text{si el test es positivo}\\
0 & \text{si el test es no positivo}
\end{array}
\right.\end{align} Utilizando lo anterior sabemos las siguientes probabilidades.

P\left(  I=1\right)  =0.005
P\left(  T=1|I=1\right)  =0.99
P\left(  T=1|I=0 \right)  =0.02

Queremos calcular P\left( I=1|T=1\right) . La definición de probabilidad condicionada incluye probabilidades que no estan fácilmente disponibles: P\left(  I=1|T=1\right)  =\frac{P\left[  \left(  I=1\right)  \cap\left(  T=1
\right)  \right]  }{P\left(  T=1\right)  }, \text{ para } P\left(  T=1 \right)
>0 Sustituyendo el numerador por las cantidades conocidas P\left(  T=1|I=1\right)  =\frac{P\left[  \left(  I=1\right)  \cap\left(  T=1
\right)  \right]  }{P\left(  I=1\right)  }, \text{ para } P\left(  I=1 \right)
>0 que provoca P\left[  \left(  I=1\right)  \cap\left(  T=1 \right)  \right]  =P\left(
T=1|I=1\right)  P\left(  I=1\right) El denominador se puede calcular utilizando el teorema de las probabilidades totales: P\left(  T=1\right)  =P\left(  I=1|T=1\right)  P\left(  I=1\right)  + P\left(
T=1|I=1\right)  P\left(  I=0\right)  . De esta manera tenemos P\left(  I=1|T=1\right)  =\frac{P\left(  T=1|I=1\right)  P\left(  I=1\right)
}{P\left(  I=1|T=1\right)  P\left(  I=1\right)  + P\left(  T=1|I=1\right)
P\left(  I=0\right)  }, Realizando el cálculo se obtiene un resultado un tanto sorprendente: P\left(  I=1|T=1\right)  =\frac{0.99 \cdot0.005}{0.99 \cdot0.005 + 0.02
\cdot0.995}=0.199. De este modo, una persona seleccionada al azar que ha dado positivo en el test tiene un 80 por ciento de posibilidades de no estar infectado.  Pero no nos olvidemos de un supuesto fundamental que hemos hecho: la proporción de infectados ha de ser la misma en la población que en la muestra de personas a las que se realizó la prueba. Esto es cierto para pruebas clinicas de gran escala. Pero en la práctica, normalmente existe una razón para realizar el test a una persona, por ejemplo, que ella/el haya mantenido contacto con una persona infectada. En este ejemplo vamos a aplicar tanto el teorema de las probabilidades totales como la regla de Bayes. Wolfram tiene una bodega de vino. Habiendo invitado a unos amigos a cenar, considera sacar vinos bastante baratos. Sabe que, normalmente, sus invitados compran el vino en supermercados.  Por lo tanto decide comprar buena comida pero no gastarse mucho en un vino para acompañarla. Sus existencias consisten en Qualitätswein, Kabinett and Spätlese en proporciones 5:3:2. El porcentaje de vino blanco estas clases es respectivamente 1/5, 1/3 y 1/4. Desea calcular la probabilidad de sacar una botella de vino blanco si se elige una de forma aleatoria. El estima probabilidades de los porcentajes relativos en la población de existencias:

A_{1}\equiv\left\{  \text{Qualitätswein}\right\}  P\left(  A_{1}
\right)  =0.5
A_{2}\equiv\left\{  \text{Kabinett}\right\}  P\left(  A_{2} \right)
=0.3
A_{3}\equiv\left\{  \text{Spätlese}\right\}  P\left(  A_{3} \right)
=0.2

Esta clasificación establece una descomposición disjunta de las existencias de vino de Wolfram: A_{1}\cup A_{2}\cup A_{3}=S A_{1}\cap A_{2}=\emptyset, A_{1}\cap A_{3}=\emptyset, A_{2}\cap
A_{3}=\emptyset. Sea B el suceso que representa seleccionar una botella de vino blanco. Entonces sabemos que:

P\left(  B|A_{1} \right)  =1/5
P\left(  B|A_{2} \right)  =1/3
P\left(  B|A_{3} \right)  =1/4

Como no tiene tiempo, Wolfram decide encargar la comida a un gourmet. Ahora ya tiene tiempo para realizar un diagrama de Venn:

Es folnode7 e k 1.gif

Si A_{1},A_{2} y A_{3} son una descomposición disjunta, entonces A_{1}\cap B, A_{2}\cap B y A_{3}\cap B deben ser disjuntos también. Por lo tanto, para B= \left( A_{1}\cap B
\right) \cup\left( A_{2}\cap B\right) \cup\left(
A_{3}\cap B \right)  \begin{align}
P\left(  B \right)   &  = P \left[  \left(  A_{1}\cap B \right)  \cup\left(
A_{2}\cap B\right)  \cup\left(  A_{3}\cap B \right)  \right] \\
&  = P \left(  A_{1}\cap B \right)  + P\left(  A_{2}\cap B\right)  + P\left(
A_{3}\cap B \right)\end{align} Como no sabe las probabilidades para la unión de conjuntos de la parte derecha, Wolfram aplica la regla del producto, substituyendo P\left(
B|A_{i}\right)  P\left(  A_{i}\right)  por P\left(  A_{i}\cap B\right)  : \begin{align}
P\left(  B \right)   &  = P\left(  B|A_{1}\right)  P\left(  A_{1}\right)  +
P\left(  B|A_{2}\right)  P\left(  A_{2}\right)  + P\left(  B|A_{3}\right)
P\left(  A_{3}\right) \\
&  = 1/5 \dot0.5 + 1/3 \cdot0.3 + 1/4 \cdot0.2 = 0.25\end{align} Si se realiza una elección aleatoria de una botella, ésta resultará que es de vino blanco con un 25 por ciento de probabilidad. Sabiendo que Wolfram ha seleccionado una botella de vino blanco, Cuál es la probabilidad de que sea Qualitätswein, esto es, cuál es P\left( A_{1}|B\right)  ? Wolfram quiere aplicar la definición de probabilidad condicionada, P\left(  A_{1}|B \right)  =\frac{P\left(  A_{1}\cap B\right)  }{P\left(
B\right)  } Ya ha calculado P\left(  B\right)  mediante el teorema de las probabilidades totales. Pero, ?‘qué ocurre con el numerador de la parte derecha? Wolfram decide escribir de forma distinta la definición de probabilidad condicionada de B, dado A_{1} utilizando la regla del producto puede substituir en el numerador: \begin{align}
P\left(  B|A_{1}\right)   &  =\frac{P\left(  A_{1}\cap B\right)  }{P\left(
A_{1}\right)  }\\
\Leftrightarrow P\left(  A_{1}\cap B\right)   &  = P\left(  B|A_{1}\right)
P\left(  A_{1}\right)\end{align} Lo que lleva a \begin{align}
P\left(  A_{1}|B \right)   &  =\frac{P\left(  A_{1}\cap B\right)  }{P\left(
B\right)  }\\
&  =\frac{P\left(  B|A_{1}\right)  P\left(  A_{1}\right)  }{P\left(
B|A_{1}\right)  P\left(  A_{1}\right)  + P\left(  B|A_{2}\right)  P\left(
A_{2}\right)  + P\left(  B|A_{3}\right)  P\left(  A_{3}\right)  }\\
&  = \frac{P\left(  B|A_{1}\right)  P\left(  A_{1}\right)  }{\sum_{i=1}
^{3}P\left(  B|A_{i}\right)  P\left(  A_{i}\right)  }\\
&  = \frac{0.2 \cdot0.5}{0.25} = 0.4\end{align}