Una de las principales ventajas de los enfoques de aprendizaje de refuerzo (profundo) (en comparación con los enfoques de aprendizaje profundo supervisado más conocidos) es el hecho de que nos permite tener en cuenta automáticamente la secuencialidad. Está claro que la acción óptima en el tiempo $t$ no tiene que ser necesariamente el que maximiza la expectativa de recompensa inmediata (ser codicioso no es necesariamente óptimo a largo plazo). Por lo tanto, el marco de (D)RL parece adecuado para la optimización de carteras en las que nos interesa maximizar un determinado objetivo (por ejemplo, el coeficiente de Sharpe) a largo plazo.
Sin embargo, muchos trabajos que tratan de aplicaciones de (D)RL en la optimización de carteras utilizan datos históricos del mercado para construir un MDP determinista en el que entrenar el modelo. En estos enfoques, el estado en el momento $t$ es una lista frecuente de rendimientos históricos para un conjunto de activos elegidos. Tal MDP es determinista en el sentido de que
1) el estado en $t+1$ ( $s_{t+1}$ ) no dependerá de la acción en $t$ ( $a_t$ ) ya que consiste en datos históricos (ya fijados)
2) la recompensa en $t+1$ ( $r_{t+1}$ ) será una función determinista de la acción y el estado anteriores ( $a_t, s_t$ )
Por lo tanto, la acción óptima en $t$ será codicioso (ya que cualquier cosa que hagamos no afectará al siguiente estado) y las ventajas del enfoque DRL parecen desaparecer mientras que sus desventajas (ineficiencia de la muestra, inestabilidad, etc.) siguen ahí.
Mi pregunta es la siguiente: ¿Por qué debería uno intentar utilizar el aprendizaje por refuerzo (profundo) para la optimización de carteras cuando se dan datos históricos del mercado (es decir, MDP determinista para entrenar)?
Adenda: Tengo claro que podemos introducir artificialmente la secuencialidad, por ejemplo, incluyendo las ponderaciones de la cartera actual en el vector de estado (para tener en cuenta, por ejemplo, los costes de negociación), pero me parece que a) con costes de negociación pequeños, la acción óptima se acercará a la codiciosa, por lo que no se conseguirá la secuencialidad completa deseable para los enfoques basados en la RL b) muchos investigadores que utilizan los enfoques de la DRL ignoran por completo los costes de negociación y no parecen preocuparse por lo que he descrito anteriormente