3 votos

¿Por qué utilizar el aprendizaje por refuerzo para la optimización de carteras con datos históricos de mercado?

Una de las principales ventajas de los enfoques de aprendizaje de refuerzo (profundo) (en comparación con los enfoques de aprendizaje profundo supervisado más conocidos) es el hecho de que nos permite tener en cuenta automáticamente la secuencialidad. Está claro que la acción óptima en el tiempo $t$ no tiene que ser necesariamente el que maximiza la expectativa de recompensa inmediata (ser codicioso no es necesariamente óptimo a largo plazo). Por lo tanto, el marco de (D)RL parece adecuado para la optimización de carteras en las que nos interesa maximizar un determinado objetivo (por ejemplo, el coeficiente de Sharpe) a largo plazo.

Sin embargo, muchos trabajos que tratan de aplicaciones de (D)RL en la optimización de carteras utilizan datos históricos del mercado para construir un MDP determinista en el que entrenar el modelo. En estos enfoques, el estado en el momento $t$ es una lista frecuente de rendimientos históricos para un conjunto de activos elegidos. Tal MDP es determinista en el sentido de que
1) el estado en $t+1$ ( $s_{t+1}$ ) no dependerá de la acción en $t$ ( $a_t$ ) ya que consiste en datos históricos (ya fijados)
2) la recompensa en $t+1$ ( $r_{t+1}$ ) será una función determinista de la acción y el estado anteriores ( $a_t, s_t$ )

Por lo tanto, la acción óptima en $t$ será codicioso (ya que cualquier cosa que hagamos no afectará al siguiente estado) y las ventajas del enfoque DRL parecen desaparecer mientras que sus desventajas (ineficiencia de la muestra, inestabilidad, etc.) siguen ahí.

Mi pregunta es la siguiente: ¿Por qué debería uno intentar utilizar el aprendizaje por refuerzo (profundo) para la optimización de carteras cuando se dan datos históricos del mercado (es decir, MDP determinista para entrenar)?

Adenda: Tengo claro que podemos introducir artificialmente la secuencialidad, por ejemplo, incluyendo las ponderaciones de la cartera actual en el vector de estado (para tener en cuenta, por ejemplo, los costes de negociación), pero me parece que a) con costes de negociación pequeños, la acción óptima se acercará a la codiciosa, por lo que no se conseguirá la secuencialidad completa deseable para los enfoques basados en la RL b) muchos investigadores que utilizan los enfoques de la DRL ignoran por completo los costes de negociación y no parecen preocuparse por lo que he descrito anteriormente

1voto

William Puntos 16

El hecho de que acabes con un MDP determinista o estocástico depende totalmente de lo que trates como estado y/o recompensa. Incluso trabajando con datos de precios históricos fijos, las diferentes acciones (secuencia) conducirán a una relación riqueza terminal/escape totalmente diferente, lo que hace legítimo, o incluso favorable, aplicar la RL. Incluso se puede adoptar el tipo de entrenamiento bootstrapping con datos reales fijos para aumentar la aleatoriedad en el problema de RL. Se pueden encontrar dos buenos documentos de referencia aquí:

https://arxiv.org/abs/1904.11392

https://arxiv.org/abs/1907.11718

Espero que esto ayude.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X