Supongamos un problema bastante sencillo: hay que comprar (resp vender) un número determinado de acciones V en un horizonte temporal fijo H con el objetivo de minimizar el capital gastado (resp maximizar los ingresos).
Hay algunos trabajos de investigación en la web que afirman que el uso de algoritmos de aprendizaje de refuerzo puede ayudar a tomar decisiones. Véase, por ejemplo:
1/ Nevmyvaka and Kearns: Reinforcement Learning for Optimized Trade Execution
Para ello, estos trabajos emplean estrategias de asignación dinámicas basadas en la cartera de pedidos limitada o en los diferenciales entre oferta y demanda. A diferencia del documento clásico
2/Almgren and Chriss: Optimal Execution of Portfolio Transactions
no asumen una dinámica de precios de los valores de la que derivan su estrategia. En su lugar, utilizan los resultados del backtest en un conjunto de pruebas para medir el rendimiento de su programa. Por supuesto, esto también supone hipótesis restrictivas sobre la dinámica del libro de órdenes de límite que son difíciles de probar.
Mi pregunta es doble: ¿conocéis buenos trabajos de investigación que utilicen el Aprendizaje por Refuerzo (u otro método de Aprendizaje Automático) para este problema? Por bueno me refiero a que el conjunto de pruebas es grande (no sólo unos pocos días de backtest) y hay un verdadero esfuerzo para ser claro acerca de la hipótesis y tener lo menos posible.
¿Alguno de vosotros lo ha aplicado en un entorno de trading real o conoce a alguien que lo haya hecho?
4 votos
Me gusta la pregunta, pero por favor evite los acrónimos como "ML", "RL", dificulta la lectura. He corregido la única que conocía, pero "LOB" ni idea. También podríais crear enlaces para los documentos para mejorar la calidad de la pregunta.
0 votos
@SRKX Siento que tengas razón. +1