Creo que una forma apropiada de abordar esto es etiquetarlo y realizar un análisis bayesiano.
Considera las etiquetas H, F, T para Cabeza-Moneda, Moneda Justa y Cola-Moneda para lo que una moneda está cargada hacia.
La tarea es identificar la etiqueta, T, lo más rápido posible para extraer la máxima recompensa, eligiendo posiblemente pagar por alguna información estadísticamente aleatoria. Esto hace que el juego sea dinámico ya que la nueva información puede llevar a estrategias óptimas dependientes de esa etapa.
Sea $P(I_1, ..., I_n, A^H, B^F, C^T)$ la probabilidad de que las monedas A, B, C estén etiquetadas como H, F y T respectivamente con los resultados de n piezas de información, cada una posiblemente obtenida por algún costo (diferente).
En cualquier etapa se puede hacer una suposición acerca de qué moneda está etiquetada como T, maximizando obviamente la probabilidad.
Como ejemplo, supongamos que se pagan 15\$ para obtener un solo lanzamiento de moneda en A y que el resultado es Colas ($I_1=\{A \; lanzamiento = Colas\}$):
$$ P(I_1, A^T, B^F, C^H) = \frac{1}{6} * 0.75 = 0.125 \propto 0.250 \\ P(I_1, A^T, B^H, C^F) = \frac{1}{6} * 0.75 = 0.125 \propto 0.250 \\ P(I_1, A^F, B^T, C^H) = \frac{1}{6} * 0.50 = 0.083 \propto 0.166 \\ P(I_1, A^F, B^H, C^T) = \frac{1}{6} * 0.50 = 0.083 \propto 0.166 \\ P(I_1, A^H, B^T, C^F) = \frac{1}{6} * 0.25 = 0.042 \propto 0.083 \\ P(I_1, A^H, B^F, C^T) = \frac{1}{6} * 0.25 = 0.042 \propto 0.083 \\ $$
Lo que realmente estamos buscando es la probabilidad de estado dada la información, por lo tanto:
$$P(I_1, A^X, B^Y, C^Z) = P(A^X, B^Y, C^Z|I_1) P(I_1)$$
$P(I_1)$ es 0.5, porque en ausencia de otra información la probabilidad de voltear cualquier moneda en cara o cruz es del 50%. Considera solo las dos primeras líneas aquí:
$$ P(I_1, A^T, B^F, C^H) = 0.125 = P(A^T, B^F, C^H | I_1) P(I_1) \\ P(I_1, A^T, B^H, C^F) = 0.125 = P(A^T, B^H, C^F | I_1) P(I_1) \\ \implies P(A^T, B^H, C^F | I_1) = 0.25 \\ \implies P(A^T, B^F, C^H | I_1) = 0.25 \\ \implies P(A^T|I_1) = 0.5 $$
En esta etapa, la ganancia es como se describe en la respuesta de @dm63.
También podemos considerar ahora una segunda pieza de información, $I_2$. Supongamos que la moneda B es lanzada y sale Cabeza.
En este punto las redes bayesianas se complican. Nota que,
$$P(I_2, I_1, A^X, B^Y, C^Z) = P(A^X, B^Y, C^Z | I_2, I_1) P(I_2 | I_1) P(I_1)$$
Podemos calcular el lado izquierdo como se hizo antes en cada caso, conocemos $P(I_1)$ y podemos usar las probabilidades de estado derivadas de $I_1$ para evaluar $P(I_2|I_1)$. De antes,
$$ P(B^F|I_1) = 0.083 + 0.250 = 0.333 \\ P(B^H|I_1) = 0.250 + 0.166 = 0.416 \\ P(B^T|I_1) = 0.083 + 0.166 = 0.249 \\ $$
Por lo tanto, que B salga Cabeza dado $I_1$ es: $0.333 * 0.5 + 0.416 * 0.75 + 0.249 * 0.25 = 0.541 $
Así que tenemos nuestras estimaciones de estado revisadas dadas $I_1, I_2$:
$$ P(A^T, B^F, C^H | I_1, I_2) = 0.231 \\ P(A^T, B^H, C^F| I_1, I_2) = 0.347 \\ P(A^F, B^T, C^H| I_1, I_2) = 0.077 \\ P(A^F, B^H, C^T| I_1, I_2) = 0.230 \\ P(A^H, B^T, C^F| I_1, I_2) = 0.039 \\ P(A^H, B^F, C^T| I_1, I_2) = 0.077 \\ $$
Por lo tanto, $A^T$ es 0.578, $B^T$ es 0.116 y $C^T$ es 0.307. La expectativa en este caso al suponer que A tras haber gastado 30\$ es de 85.6\$.
En general, se puede esperar que un agente de aprendizaje por refuerzo aprenda qué hacer basado en sus elecciones de adivinar o jugar por nueva información. Se pueden utilizar las opciones bayesianas como heurísticas para darle a un agente una idea de qué jugar en cada iteración.