5 votos

De Decisión de Markov Proceso en el que las acciones no tienen impacto en el sistema

Me encontré con un par de instancias de trabajos reclamando a formular una de markov procesos de decisión de estrategias de negociación entrenados en la cartera de pedidos de datos. Dicen resolverlo mediante aprendizaje por refuerzo, pero sin embargo, en algún lugar de la exposición que iba a hacer la suposición de que sus acciones tienen un impacto cero en el sistema.

Así que mi pregunta es, ¿qué hay allí para refuerzo de aprender, cuando sus acciones no tienen impacto en el sistema?

No es ser simplemente "aprender de la historia"? Lo que significa que acabaría siendo entrenados tal que sólo recoge lo que históricamente le da el mejor resultado?

1voto

El aprendizaje por refuerzo, en términos generales, no necesita que sus acciones tienen un impacto en el sistema. Sólo se requiere que haya estados, acciones que pueden ser tomadas en esos estados (y potencialmente estocástico resultados) y de recompensas (de nuevo, potencialmente estocástico) que son el resultado de las acciones adoptadas, en particular de los estados.

También sí, sería aprender de la historia. ¿Hay algo de malo en particular acerca de que aunque?

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X