2 votos

Estrategia óptima en el juego de 3 dados

En una reciente entrevista recibí la siguiente pregunta (un juego de optimización/estrategia)... que me dejó un poco perplejo. Las reglas del juego, empiezas con 0 puntos, entonces:

  • Tira tres dados justos de seis caras;

    Ahora tienes la opción:

  • Pégate, es decir, acepta los valores mostrados en tus dados como la puntuación de tu turno. Hay una advertencia, si dos o más dados muestran los mismos valores, entonces todos ellos se voltean al revés - por ejemplo, 1 se convierte en 6

O

  • volver a tirar los dados. Puedes elegir mantener cualquier combinación de los dados en el valor actual mostrado (así que puedes elegir mantener 1 dado igual y luego volver a tirar los otros dos). Volver a tirar los dados te cuesta 1 punto, por lo que durante durante el juego y quizás incluso al final, su puntuación puede ser negativa.

Puedes tirar un número infinito de veces...

Mis pensamientos:

  • Así que claramente la mejor puntuación posible es 18 y se consigue se consigue sacando tres 1 en la primera tirada
  • La penalización a la repetición de la tirada evita que se ruede eternamente para obtener 18.
  • Si el valor de los dados es mayor que el valor esperado de volver a lanzarlos (teniendo en cuenta la penalización), entonces deberías pegar...

Supongo que lo que estoy preguntando es cómo calcular el valor esperado de volver a lanzarlos (teniendo en cuenta la penalización) y cómo encaja esto en la estrategia óptima...

Gracias por toda la ayuda de antemano.

\========================================================================

.

1 votos

Bonito puzzle, sólo para confirmar: digamos que la primera tirada es $(1, 2, 3)$ y decido volver a lanzar el 1. ¿Qué pasa si lanzo el 2? ¿El 2 ya lanzado también se volteará para obtener $(6, 6, 3)$ ?

0 votos

Así que si vuelves a tirar los dados con valor 2 (supongo que estás pensando en términos de una matriz 0,1,2 contando en tu comentario) y obtienes un 1, entonces el resultado sería (6,6,6) igual a 18, pero como vuelves a tirar el resultado sería 17 (las reglas establecen que si dos o más son iguales todos se voltean) gracias.

0 votos

Si en realidad querías decir que tiraste los dados con valor uno (y yo interrumpí mal tu pregunta), y recibiste un valor de 1 otra vez. Entonces eso cuenta como una tirada (así que -1 del total general) y el número que se te presenta es un 1. Así que tienes (1,2,3) otra vez

1voto

dotnetcoder Puntos 1262

Estoy de acuerdo en que esto se sale del tema, así que permítanme que intente remontarlo con una respuesta general.

Una solución común a los problemas financieros y probabilísticos es reducirlos para explorar casos más sencillos, de los que se pueden deducir patrones.

  1. Considere sólo un dado

Si sólo tuvieras un dado el volteo es irrelevante. La solución es mantener tu puntuación siempre que sea mayor que la expectativa que es: (3,5 - tiradas + 1). Es decir, si sacas un 4 en la primera tirada: te lo quedas. Si sacas un 3 en la segunda tirada, te lo quedas.

  1. Considera dos dados

Supongamos ahora que el dado sólo tiene dos caras {1,2}. Entonces tienes 4 resultados posibles:

  • (1,1): puntuación 4 - no repetir la tirada.
  • (1,2): puntuación de 3 - no repetir la tirada.
  • (2,1): simétrico con lo anterior
  • (2,2): puntuación de 2. Lo óptimo es volver a tirar sólo 1 dado: el 50% de la puntuación aumenta a 3, el 50% se queda en 2.

La expectativa de este juego es

¿Y si los dados tuvieran caras {1,2,3}?

  • (1,1): puntuación de 6 - no repetir la tirada.
  • (1,2): puntuación de 3 - volver a tirar el 2: el 33% de la puntuación aumenta a 5, el 33% se reduce a 2, el 33% se queda en 3, es decir, ganancia de expectativa de 0,333.
  • (1,3): puntuación de 4 - no repetir la tirada.
  • (2,1): simétrico con el anterior.
  • (2,2): puntuación de 4 - no repetir la tirada.
  • (2,3): puntuación de 5 - no repetir la tirada.
  • (3,1): simétrico con el anterior.
  • (3,2): simétrico con el anterior.
  • (3,3): puntuación de 2 - volver a tirar 1 dado: 3% de aumento de la puntuación a 5, 33% se queda en 2, 33% aumenta a 3, es decir, ganancia de expectativa de 1,33

\=============

Otra forma de enfocar el problema es pensar desde otra perspectiva. Supongamos que tu objetivo es alcanzar el máximo de 18 puntos, ¿cuántas tiradas se necesitarían de media?

1 votos

Tu respuesta no es sensata porque no tienes en cuenta el valor de la opción de continuar después de cada lanzamiento. Para ilustrarlo, imagine el caso de un dado con una penalización muy pequeña. En este caso, está claro que seguirás tirando hasta que saques un 6, por mucho que tardes.

0 votos

Hola: necesitas escribir la expectativa como una función de sí misma y entonces puedes resolverla. No tengo tiempo para intentarlo pero este enlace debería dar una idea de a qué me refiero. El problema consiste en lanzar tiros libres, así que es totalmente diferente, pero la técnica sería la misma. stats.stackexchange.com/questions/495990/

0 votos

@JamesG95 la pena se define como 1, por lo que en el caso de que no es eficaz para seguir rodando. Estoy de acuerdo si la penalización fuera menor se sigue rodando.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X