5 votos

¿Predecir los mercados financieros a la manera de un videojuego?

DeepMind han demostrado increíbles capacidades de un agente de aprendizaje de la máquina de refuerzo para jugar competentemente a los videojuegos de Atari. Es muy sorprendente que durante el entrenamiento nada más que los marcos de la imagen del juego y la puntuación se proporcionaron a la deep Q-network (DQN). El agente aprendió las acciones apropiadas para jugar con precisión un juego y operar de manera competente sin ninguna adaptación específica al código fuente o a los hiperparámetros de la red. Simplemente necesita entrenamiento en un gran número de secuencias de juego para aprender un nuevo juego.

¿Podría adaptarse esta tecnología de manera viable para permitir que un agente de aprendizaje automático tome medidas comerciales competentes y adecuadas en los mercados financieros? Como jugar al Pong, pero con los mercados? ¡Un alto puntaje sería bastante agradable!

¿Alguien tiene experiencia para articular o aconsejar sobre cómo se podría experimentar esto en la práctica?

4 votos

He visto el breve documental sobre DeepMind en Internet. Creo que la razón por la que funcionó en el juego de Atari es porque el videojuego era predecible, la pelota rebota de un lado a otro y la máquina aprende a posicionarse rápidamente para evitar que la pelota caiga... ¡en los mercados qué decir que la pelota no seguirá cayendo!

0 votos

@Rime ¿Permitir que el agente tenga un stop loss como una de las acciones disponibles que puede tomar? En algunos de los juegos de Atari por ejemplo había 18 acciones posibles diferentes. En los mercados financieros podría reducirse a tres, ir largo, ir corto, ir plano?

0 votos

Bienvenido a Quant.SE y gracias por esta pregunta tan interesante. Quizás quieras echar un vistazo a mi respuesta aquí: quant.stackexchange.com/a/969/12

4voto

mfraser Puntos 71

Es una pregunta interesante.

Yo reformularía un poco tu pregunta e intentaría un intento de respuesta de por qué el uso de redes neuronales no es una buena idea para predecir la dirección del mercado.

En mi opinión, una razón principal sería que no es posible experimentar una estrategia sin modificar el comportamiento del mercado y, por tanto, es imposible repetir el mismo experimento una y otra vez, lo cual es un requisito previo de la formación.

Haciendo una analogía con el aprendizaje automático de los videojuegos, es como si al volver a empezar el nivel, las trampas en las que habías perdido hubieran sido sustituidas por otras nuevas en las que nunca habías pensado.

Animo a otros miembros de quant.stackexchange a que compartan su opinión sobre el tema.

0 votos

Entonces, ¿crees que debería entrenarse en periodos diferentes cada vez, de modo que no pueda aprender a recordar el futuro y sólo tenga el pasado como referencia? Siempre me ha parecido interesante la idea de que todo es markoviano. Si fuera así, ¿cómo podría ser el pasado una herramienta útil para el entrenamiento?

0 votos

Markov está bien, porque significa que hay una especie de matriz de transición global que es siempre la misma. Lo que quería decir es que, lógicamente, es incorrecto decir que usted backtested su estrategia en el pasado con los mercados, porque el pasado habría sido diferente con usted es participante del mercado aplicando su estrategia.

0 votos

Sí, eso es parte de la aproximación - depende del tamaño de las operaciones que su estrategia está destinada a hacer - usted tiene que modelar lo que usted está buscando para tomar ventaja de; si usted quiere hacer un modelo que ejecuta grandes operaciones de manera eficiente, obviamente, usted tiene que tener en cuenta su influencia en el libro de órdenes, si usted está buscando sólo pequeñas operaciones, o cosas otc, entonces no va a importar tanto.

3voto

Chimera Puntos 131

Z. Jiang, D. Xu, J. Liang, en A Deep Reinforcement Learning Framework for the Financial Portfolio Management Problem. demostrar un marco de RL profundo para el comercio. El enfoque se basa en el flujo tensorial y utiliza ideas similares al Open AI Gym utilizado por Deepmind para videojuegos.

En mi blog Optimización de una cartera de criptomonedas con aprendizaje profundo por refuerzo Recojo su marco y veo cómo se comporta la misma estrategia tras la caída de las criptomonedas.

Eche un vistazo.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X