12 votos

Ejecución óptima y aprendizaje por refuerzo

Supongamos un problema bastante sencillo: hay que comprar (resp vender) un número determinado de acciones V en un horizonte temporal fijo H con el objetivo de minimizar el capital gastado (resp maximizar los ingresos).
Hay algunos trabajos de investigación en la web que afirman que el uso de algoritmos de aprendizaje de refuerzo puede ayudar a tomar decisiones. Véase, por ejemplo:

1/ Nevmyvaka and Kearns: Reinforcement Learning for Optimized Trade Execution 

Para ello, estos trabajos emplean estrategias de asignación dinámicas basadas en la cartera de pedidos limitada o en los diferenciales entre oferta y demanda. A diferencia del documento clásico

2/Almgren and Chriss: Optimal Execution of Portfolio Transactions

no asumen una dinámica de precios de los valores de la que derivan su estrategia. En su lugar, utilizan los resultados del backtest en un conjunto de pruebas para medir el rendimiento de su programa. Por supuesto, esto también supone hipótesis restrictivas sobre la dinámica del libro de órdenes de límite que son difíciles de probar.

Mi pregunta es doble: ¿conocéis buenos trabajos de investigación que utilicen el Aprendizaje por Refuerzo (u otro método de Aprendizaje Automático) para este problema? Por bueno me refiero a que el conjunto de pruebas es grande (no sólo unos pocos días de backtest) y hay un verdadero esfuerzo para ser claro acerca de la hipótesis y tener lo menos posible.

¿Alguno de vosotros lo ha aplicado en un entorno de trading real o conoce a alguien que lo haya hecho?

4 votos

Me gusta la pregunta, pero por favor evite los acrónimos como "ML", "RL", dificulta la lectura. He corregido la única que conocía, pero "LOB" ni idea. También podríais crear enlaces para los documentos para mejorar la calidad de la pregunta.

0 votos

@SRKX Siento que tengas razón. +1

12voto

John Rennie Puntos 6821

En primer lugar, somos pocos los quants y los académicos que utilizamos todo el conjunto de herramientas del aprendizaje automático: algoritmos estocásticos, hasta el trading óptimo. Aquí hay al menos dos documentos:

Kearns y sus coautores también aportan una gran cantidad de investigaciones útiles (véase Aprendizaje por refuerzo para optimizar la ejecución de las operaciones ).

Nuestro enfoque no sólo consiste en probar algunas técnicas de aprendizaje automático, sino también en utilizar las potentes herramientas matemáticas que permitieron demostrar su eficacia para probar que algunos algoritmos convergen a soluciones óptimas.

De forma más cuantitativa, la mayor parte del aprendizaje automático proviene de un descenso de gradiente en línea sobre un criterio dado, dando lugar a un descenso de gradiente estocástico. La estocasticidad proviene de esto:

  1. Usted quiere minimizar $\mathbb{E}||y-f_{\theta}(x)||^2$ con respecto a $\theta$
  2. Si construyes: $$\theta(n+1)=\theta(n)-\gamma(n)\times \frac{\partial \mathbb{E}||y-f_{\theta}(x)||^2}{\partial\theta(n)}$$
  3. Entonces, si existe, $\theta(\infty)$ es un mínimo potencial para los criterios definidos en el paso 1
  4. Ahora sólo hay que construir $\theta(n)$ simultáneamente con la observación de pares $(x_n,y_n)$ : $$\theta(n+1)=\theta(n)-\gamma(n)\times \frac{\partial ||y_n-f_{\theta}(x_n)||^2}{\partial\theta(n)}$$
  5. Bajo algunas condiciones de ergodicidad, el límite de esta $\theta$ será el mismo que el anterior (lote) (también es necesario que $\sum_n \gamma(n)>\infty$ y $\sum_n \gamma(n)^2<\infty$ es el célebre Robbins-Monro teorema).

Es realmente adecuado para el comercio de algo, pero hay que aplicar este enfoque no a ciegas a cualquier proceso estocástico $(x_n,y_n)$ sino a las ergódicas.

El flujo de órdenes en relación con el punto medio parece ser más ergódico que el propio precio, por lo que debería ser más eficiente utilizar el aprendizaje automático en los datos intradiarios que en los diarios.

[ACTUALIZACIÓN en enero de 2020] Quería hacer un añadido en torno a dos papeles

  • en Mejora de los algoritmos de aprendizaje por refuerzo: hacia políticas de tasa de aprendizaje óptimas En este artículo, de Mounjid y L, mostramos el papel de la tasa de aprendizaje en el aprendizaje por refuerzo y ofrecemos dos ejemplos de negociación óptima: (1) la programación óptima del comercio y (2) la colocación óptima en un libro de órdenes. Esto demuestra que si se construye cuidadosamente el algoritmo, éste puede encontrar el óptimo. Además, marcamos la diferencia entre ' original ' RL (cuando realmente descubres las dinámicas que tienes que controlar mientras intentas controlarlas), y algo que se acerca más al viejo ' iteraciones de política-valor de Howard (véase por ejemplo Programación dinámica, cadenas de Markov y el método de aproximaciones sucesivas (¡por DJ White en 1964!) cuando se tiene acceso a un simulador. En este último caso, el exploración-explotación aspecto del aprendizaje no es un gran problema.
  • en Aprendizaje de un control funcional para las finanzas de alta frecuencia por Leal, Laurière y L. Proporcionamos otra forma de extender el control óptimo del comercio al aprendizaje automático: ' simplemente ' escriba el problema de programación óptima (por ejemplo, en 70 intervalos de 5 minutos) con un controlador de bucle cerrado emulado por una red neuronal, y espere a que el final del día (simulado) se retropropague sobre los 70 usos de su controlador neuronal. No es necesario pasar por una aproximación de una función Q. Es sencillo y puede compararse fácilmente con un enfoque sin aprendizaje.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X