2 votos

Buenas formas de abordar este juego de probabilidad/valor esperado dinámico

Hay 3 monedas etiquetadas como A, B y C. Te dicen que las monedas tienen probabilidades de 0.75, 0.5 y 0.25 de caer en cara pero no sabes qué moneda tiene qué probabilidad. Para investigar, puedes pagar por las siguientes opciones tantas veces como desees:

  • Pagar $5 para seleccionar cualquier par de monedas, lanzarlas ambas y que te digan cuántas monedas salieron en cara (no te dicen qué moneda cae en qué lado, solo la suma del número de caras, p. ej. si eliges el par AB para lanzar, si una cae en cara y la otra en cruz, simplemente te dicen que hubo 1 cara entre el par)

  • Pagar $15 para seleccionar una moneda, lanzarla y ver el resultado

Tu tarea es intentar identificar la moneda que tiene la menor probabilidad de caer en cara. Ganarás $200 si lo haces correctamente. ¿Cómo jugarías para maximizar tus ganancias esperadas en este juego?

3voto

Cody Brimhall Puntos 762

Solo para proporcionar un marco de referencia: si solo adivinas cuál es la moneda de 0.25, sin lanzar ninguna moneda, tus ganancias esperadas son de 200/3= 66.67 dólares, así que la pregunta es si podemos superar eso lanzando monedas.

Por ejemplo, gastemos 15 dólares para lanzar una sola moneda. P(cara)= 0.5 ya que es igualmente probable que sea la moneda de 0.25, 0.5 o 0.75. También hay que tener en cuenta que p(esta moneda es la de 0.25)=1/3. La idea es que si lanzamos esta moneda y sale cruz, tal vez nos indique alguna información útil. Utilizando la fórmula de Bayes:

P(esta es la moneda de 0.25|cruz)= p(cruz|moneda de 0.25)* p(0.25)/p(cruz)

\= 0.75*(1/3)/0.5= 0.5

Así que si suponemos que esta moneda es la de 0.25 nuestras ganancias esperadas son 0.5*200, menos la tarifa de 15 que equivale a 85, una mejora.

Pero ¿qué pasa si sale cara? Entonces la fórmula de Bayes nos da

p(0.25|cara)=0.25*(1/3)/0.5= 1/6.

Aquí lo mejor que podemos hacer es seleccionar al azar una de las otras dos monedas, cada una de las cuales debe tener una probabilidad de 5/12 de ser la moneda de 0.25, para unas ganancias esperadas de 5/12 *200 -15 = 68.3 dólares, todavía una ligera mejora.

Entonces esto no es de ninguna manera exhaustivo - otras ideas de lanzamiento de moneda deben ser estudiadas, pero parece complicarse rápidamente.

2voto

dotnetcoder Puntos 1262

Creo que una forma apropiada de abordar esto es etiquetarlo y realizar un análisis bayesiano.

Considera las etiquetas H, F, T para Cabeza-Moneda, Moneda Justa y Cola-Moneda para lo que una moneda está cargada hacia.

La tarea es identificar la etiqueta, T, lo más rápido posible para extraer la máxima recompensa, eligiendo posiblemente pagar por alguna información estadísticamente aleatoria. Esto hace que el juego sea dinámico ya que la nueva información puede llevar a estrategias óptimas dependientes de esa etapa.

Sea $P(I_1, ..., I_n, A^H, B^F, C^T)$ la probabilidad de que las monedas A, B, C estén etiquetadas como H, F y T respectivamente con los resultados de n piezas de información, cada una posiblemente obtenida por algún costo (diferente).

En cualquier etapa se puede hacer una suposición acerca de qué moneda está etiquetada como T, maximizando obviamente la probabilidad.

Como ejemplo, supongamos que se pagan 15\$ para obtener un solo lanzamiento de moneda en A y que el resultado es Colas ($I_1=\{A \; lanzamiento = Colas\}$):

$$ P(I_1, A^T, B^F, C^H) = \frac{1}{6} * 0.75 = 0.125 \propto 0.250 \\ P(I_1, A^T, B^H, C^F) = \frac{1}{6} * 0.75 = 0.125 \propto 0.250 \\ P(I_1, A^F, B^T, C^H) = \frac{1}{6} * 0.50 = 0.083 \propto 0.166 \\ P(I_1, A^F, B^H, C^T) = \frac{1}{6} * 0.50 = 0.083 \propto 0.166 \\ P(I_1, A^H, B^T, C^F) = \frac{1}{6} * 0.25 = 0.042 \propto 0.083 \\ P(I_1, A^H, B^F, C^T) = \frac{1}{6} * 0.25 = 0.042 \propto 0.083 \\ $$

Lo que realmente estamos buscando es la probabilidad de estado dada la información, por lo tanto:

$$P(I_1, A^X, B^Y, C^Z) = P(A^X, B^Y, C^Z|I_1) P(I_1)$$

$P(I_1)$ es 0.5, porque en ausencia de otra información la probabilidad de voltear cualquier moneda en cara o cruz es del 50%. Considera solo las dos primeras líneas aquí:

$$ P(I_1, A^T, B^F, C^H) = 0.125 = P(A^T, B^F, C^H | I_1) P(I_1) \\ P(I_1, A^T, B^H, C^F) = 0.125 = P(A^T, B^H, C^F | I_1) P(I_1) \\ \implies P(A^T, B^H, C^F | I_1) = 0.25 \\ \implies P(A^T, B^F, C^H | I_1) = 0.25 \\ \implies P(A^T|I_1) = 0.5 $$

En esta etapa, la ganancia es como se describe en la respuesta de @dm63.

También podemos considerar ahora una segunda pieza de información, $I_2$. Supongamos que la moneda B es lanzada y sale Cabeza.

En este punto las redes bayesianas se complican. Nota que,

$$P(I_2, I_1, A^X, B^Y, C^Z) = P(A^X, B^Y, C^Z | I_2, I_1) P(I_2 | I_1) P(I_1)$$

Podemos calcular el lado izquierdo como se hizo antes en cada caso, conocemos $P(I_1)$ y podemos usar las probabilidades de estado derivadas de $I_1$ para evaluar $P(I_2|I_1)$. De antes,

$$ P(B^F|I_1) = 0.083 + 0.250 = 0.333 \\ P(B^H|I_1) = 0.250 + 0.166 = 0.416 \\ P(B^T|I_1) = 0.083 + 0.166 = 0.249 \\ $$

Por lo tanto, que B salga Cabeza dado $I_1$ es: $0.333 * 0.5 + 0.416 * 0.75 + 0.249 * 0.25 = 0.541 $

Así que tenemos nuestras estimaciones de estado revisadas dadas $I_1, I_2$:

$$ P(A^T, B^F, C^H | I_1, I_2) = 0.231 \\ P(A^T, B^H, C^F| I_1, I_2) = 0.347 \\ P(A^F, B^T, C^H| I_1, I_2) = 0.077 \\ P(A^F, B^H, C^T| I_1, I_2) = 0.230 \\ P(A^H, B^T, C^F| I_1, I_2) = 0.039 \\ P(A^H, B^F, C^T| I_1, I_2) = 0.077 \\ $$

Por lo tanto, $A^T$ es 0.578, $B^T$ es 0.116 y $C^T$ es 0.307. La expectativa en este caso al suponer que A tras haber gastado 30\$ es de 85.6\$.

En general, se puede esperar que un agente de aprendizaje por refuerzo aprenda qué hacer basado en sus elecciones de adivinar o jugar por nueva información. Se pueden utilizar las opciones bayesianas como heurísticas para darle a un agente una idea de qué jugar en cada iteración.

-1voto

Philipp Puntos 173

Dado que puedes realizar la opción (1.) para ambas monedas tantas veces como desees, si repites esa opción N veces, donde N es un número suficientemente grande como 1 millón, ¿no producirían las siguientes combinaciones un resultado como:

  • A&B = (0.5 $\cdot$ 0.75 + 0.5 $\cdot$ 0.50) $\cdot$ 1,000,000 ~= 625,000 caras
  • B&C = (0.5 $\cdot$ 0.50 + 0.5 $\cdot$ 0.25) $\cdot$ 1,000,000 ~= 375,000 caras
  • A&C = (0.5 $\cdot$ 0.75 + 0.5 $\cdot$ 0.25) $\cdot$ 1,000,000 ~= 500,000 caras

Si obtienes los últimos 2 resultados (que contienen C), puedes usar la opción (2.) para identificar la moneda con menor probabilidad, es decir, C, utilizando dicha opción con cualquiera de las 2 monedas involucradas en la opción inicial, es decir, la opción (1.)

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X