Yo diría que la mayoría de los métodos de ML corren el riesgo de sobreajustarse y depende mucho de la clase de activos. El único ámbito en el que los métodos de ML más sofisticados, como el aprendizaje profundo, parecen marcar una diferencia importante es el de la renta variable en efectivo, donde el espacio de características es muy rico (PNL, noticias y anuncios, beneficios corporativos, otros datos financieros) y los datos son relativamente buenos.
Pero muchos de los chicos de la ML que empiezan a intentar hacer tarifas se llevan una gran decepción. Escuché a un tipo que tenía un fondo de capital decente y quería hacer tipos, y se puso a analizar las declaraciones de la Fed (bfd, ya lo he hecho, y qué), y luego empezó a preguntar por qué estaban hablando de subir cuando los PMIs estaban tan bajos (¡duh! no había estado mirando las noticias). Básicamente, FI es mucho más difícil. Demasiados productos y poca diferenciación ¿el anuncio afecta al 2y o al 5y? No digo que no sea factible en algún momento pero ahora no lo es.
En pocas palabras, las DNN funcionan por reducción de dimensiones. Tienes la posibilidad de tener miles, quizás decenas de miles o más parámetros. Si tienes petabytes de datos de imágenes, entonces estás haciendo un buen trabajo con la reducción de dimensiones. En la mayoría de las operaciones no tenemos grandes datos. Tener más datos (series temporales más largas) no es tan bueno como aumentar la dimensión transversal porque de todas formas tenemos series no estacionarias. Aparte de la renta variable, el análisis de los libros de órdenes limitadas puede ser un área en la que la DNN puede tener aplicaciones, aunque la evidencia es mixta (el conocimiento del dominio es siempre más importante que simplemente arrojar datos en algún modelo... GIGO).
La no estacionariedad por sí sola reducirá la complejidad de cualquier buen modelo. El reciente documento de AQR sobre el uso de redes neuronales (para la extracción de factores de EQUIDAD) mostró que las redes neuronales superaban a los modelos lineales, pero que las redes óptimas eran de hecho bastante superficiales (véase Valoración empírica de activos mediante aprendizaje automático ).
En general, las aplicaciones ingenuas de las NN a las finanzas están condenadas desde el principio. El artículo de Cont y Sirignano que aplica los LSTM a los LOBs sobre una base de un solo nombre y de un conjunto de datos muestra los límites del enfoque, donde encontraron que los datos de un conjunto de datos funcionaban mucho mejor (datos de un conjunto de datos = 1/300 más o menos el número de parámetros que los modelos de un solo nombre). Lo llaman "reglas universales", pero su interpretación es muy generosa: es que no había suficientes datos (véase Modelo universal aprendido por NN . Está bastante claro que un gran modelo aplicado a toneladas de datos parece dar lugar a una falta de comprensión. El conocimiento del dominio y unos toques más ligeros permiten obtener resultados mucho más sólidos.
2 votos
Yo diría que la mayoría de los métodos de ML corren el riesgo de sobreajustarse y depende mucho de la clase de activos. El único ámbito en el que los métodos de ML más sofisticados, como el aprendizaje profundo, parecen marcar una diferencia importante es el de la renta variable en efectivo, donde el espacio de características es muy rico (PNL, noticias y anuncios, beneficios corporativos, otros datos financieros) y los datos son relativamente buenos.