¿Por qué utilizar el aprendizaje por refuerzo para la optimización de carteras con datos históricos de mercado?

Question

¿Por qué utilizar el aprendizaje por refuerzo para la optimización de carteras con datos históricos de mercado?

Preguntado el 12 de Noviembre, 2019: Cuando se hizo la pregunta
900 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Una de las principales ventajas de los enfoques de aprendizaje de refuerzo (profundo) (en comparación con los enfoques de aprendizaje profundo supervisado más conocidos) es el hecho de que nos permite tener en cuenta automáticamente la secuencialidad. Está claro que la acción óptima en el tiempo $t$ no tiene que ser necesariamente el que maximiza la expectativa de recompensa inmediata (ser codicioso no es necesariamente óptimo a largo plazo). Por lo tanto, el marco de (D)RL parece adecuado para la optimización de carteras en las que nos interesa maximizar un determinado objetivo (por ejemplo, el coeficiente de Sharpe) a largo plazo.

Sin embargo, muchos trabajos que tratan de aplicaciones de (D)RL en la optimización de carteras utilizan datos históricos del mercado para construir un MDP determinista en el que entrenar el modelo. En estos enfoques, el estado en el momento $t$ es una lista frecuente de rendimientos históricos para un conjunto de activos elegidos. Tal MDP es determinista en el sentido de que
1) el estado en $t+1$ ( $s_{t+1}$ ) no dependerá de la acción en $t$ ( $a_t$ ) ya que consiste en datos históricos (ya fijados)
2) la recompensa en $t+1$ ( $r_{t+1}$ ) será una función determinista de la acción y el estado anteriores ( $a_t, s_t$ )

Por lo tanto, la acción óptima en $t$ será codicioso (ya que cualquier cosa que hagamos no afectará al siguiente estado) y las ventajas del enfoque DRL parecen desaparecer mientras que sus desventajas (ineficiencia de la muestra, inestabilidad, etc.) siguen ahí.

Mi pregunta es la siguiente: ¿Por qué debería uno intentar utilizar el aprendizaje por refuerzo (profundo) para la optimización de carteras cuando se dan datos históricos del mercado (es decir, MDP determinista para entrenar)?

Adenda: Tengo claro que podemos introducir artificialmente la secuencialidad, por ejemplo, incluyendo las ponderaciones de la cartera actual en el vector de estado (para tener en cuenta, por ejemplo, los costes de negociación), pero me parece que a) con costes de negociación pequeños, la acción óptima se acercará a la codiciosa, por lo que no se conseguirá la secuencialidad completa deseable para los enfoques basados en la RL b) muchos investigadores que utilizan los enfoques de la DRL ignoran por completo los costes de negociación y no parecen preocuparse por lo que he descrito anteriormente

Preguntado el 12 de Noviembre, 2019 por A. Rex

Answer 1

1 Respuestas

Answer 2

1voto

William Puntos 16

El hecho de que acabes con un MDP determinista o estocástico depende totalmente de lo que trates como estado y/o recompensa. Incluso trabajando con datos de precios históricos fijos, las diferentes acciones (secuencia) conducirán a una relación riqueza terminal/escape totalmente diferente, lo que hace legítimo, o incluso favorable, aplicar la RL. Incluso se puede adoptar el tipo de entrenamiento bootstrapping con datos reales fijos para aumentar la aleatoriedad en el problema de RL. Se pueden encontrar dos buenos documentos de referencia aquí:

https://arxiv.org/abs/1904.11392

https://arxiv.org/abs/1907.11718

Espero que esto ayude.

Respondido el 28 de Mayo, 2020 por William (16 Puntos )

¿Por qué utilizar el aprendizaje por refuerzo para la optimización de carteras con datos históricos de mercado?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

Finanhelp.com

Powered by:

¿Por qué utilizar el aprendizaje por refuerzo para la optimización de carteras con datos históricos de mercado?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

Finanhelp.com

Powered by: