Me encontré con un par de instancias de trabajos reclamando a formular una de markov procesos de decisión de estrategias de negociación entrenados en la cartera de pedidos de datos. Dicen resolverlo mediante aprendizaje por refuerzo, pero sin embargo, en algún lugar de la exposición que iba a hacer la suposición de que sus acciones tienen un impacto cero en el sistema.
Así que mi pregunta es, ¿qué hay allí para refuerzo de aprender, cuando sus acciones no tienen impacto en el sistema?
No es ser simplemente "aprender de la historia"? Lo que significa que acabaría siendo entrenados tal que sólo recoge lo que históricamente le da el mejor resultado?