44 votos

Aprendizaje automático frente a regresión y/o ¿Por qué seguir utilizando este último?

Vengo de un campo diferente (Machine learning/AI/data science), pero pretendo hacer una pregunta filosófica con el máximo respeto: ¿Por qué los analistas financieros cuantitativos (analistas/comerciantes/etc.) prefieren (o al menos lo parecen) los métodos estadísticos tradicionales (tradicionales = frecuentista/regresión/métodos de correlación normal/análisis de t) en lugar de los métodos más nuevos de IA/aprendizaje automático? He leído un millón de modelos, pero parece sesgado? Antecedentes: Recientemente me uní a una empresa de gestión de activos de 1B AUM (sé que no es una tonelada). Me pidieron que construyera un nuevo modelo para una estrategia de rotación de sectores (básicamente para predecir qué sector del SP 500 lo haría mejor en 6 meses - elegí usar los rendimientos de 6 meses) que emplean y mi primera inclinación fue combinar ARIMA (tradicional) con random forest (selección de características) y un clasificador categórico (basado en la desviación estándar de la distribución normal) impulsado por el gradiente para los ETFs en cada sector. No es por ser grosero, pero superé la puntualidad de ValuLine para cada sector. Utilicé los rendimientos mencionados anteriormente como mi indicador y más o menos tiré todo a la pared para los predictores inicialmente (básicamente sólo peinando FRED), luego usé randomForest para seleccionar características. Terminé combinando la EMA y el porcentaje de cambio para crear un modelo bastante sólido que, como dije, superó a ValuLine.

He leído mucha literatura y no he visto a nadie hacer algo así. ¿Alguna ayuda en términos de señalarme en la dirección correcta para la literatura? ¿O alguna respuesta a la idea general de por qué no hay más aprendizaje automático en los mercados de valores (olvidando el análisis social/noticias)? EDIT: Para aclarar, estoy realmente interesado en las predicciones a largo plazo (creo que Shiller tenía razón) basadas en predictores macro.

Gracias

PS- He estado al acecho durante un tiempo. Gracias por todas las increíbles preguntas, respuestas y discusiones.

15 votos

Con el debido respeto, pero ¿por qué creer desde el principio que se tiene alguna información o puntos de datos a mano que ayuden a predecir qué sectores superan al mercado en general en 6 meses? Si tuviera que resumir mi opinión sobre los mercados financieros, diría que el éxito tiene todo que ver con la gestión del riesgo de forma inteligente, así como con el aprovechamiento de las oportunidades en tiempos de ineficiencia del mercado, y tiene muy poco o nada que ver con la previsión del futuro.

14 votos

Hice unas prácticas en una empresa de compra al principio de mi carrera y rechacé una oferta para unirme a ella porque consideré que su esfuerzo por rotar los fundamentos de las empresas millones de veces con la esperanza de descubrir un modelo predictivo de múltiples factores era infructuoso y ridículo. Era un fondo que gestionaba cerca de 100.000 millones de dólares y todos se iban a casa contentos cada día sabiendo que tenían su base garantizada y sus primas embolsadas y descuidando el hecho de que generaban rentabilidades muy similares a sus índices de referencia. Simplemente pregunto por qué crees que unas métricas que ya están tasadas en los activos deberían tener poder predictivo....

1 votos

Usted ganaría necesariamente a ValuLine porque se ajusta a los datos de la muestra... Si yo estuviera usando su enfoque de investigación podría construir un modelo que tiene un retorno en cualquier punto de $\mathbb{R}$ de mi elección.

51voto

WalterJ89 Puntos 175

A causa de:

  • El dominio (extremo) del ruido sobre la señal
  • La prevalencia de patrones no repetitivos (muchos de los cuales sabemos que no se van a repetir)
  • Un tamaño de muestra patético para la validación cruzada
  • Cambios de régimen debidos a acontecimientos exógenos. Éstos suelen producirse en la ventana de valores cruzados, lo que lo hace aún peor. (CFG, integración financiera, cambios en la legislación comercial, ajustes de los tipos de interés por parte de los bancos centrales, algún idiota en un banco estaba ocultando operaciones y pierde 5.000 millones de dólares, etc.).
  • Es bien sabido que las relaciones no lineales suelen ser sólo artefactos del conjunto de datos de la muestra

También está lo siguiente:

  • Gran parte de las variaciones de precios se deben a noticias como la caída de un avión o el anuncio de una fusión. ¿Intenta usted predecir noticias (!?) haciendo que su modelo aprenda relaciones no lineales en los datos de precios? Debería estar claro que, si el precio de American Airlines cae debido a un secuestro terrorista, no va a ser útil que un bosque aleatorio aprenda los patrones resultantes, ya que no se repetirá.

Debido a estos factores, muchos (econometristas y profesionales) tratarán de utilizar conocimientos a priori para seleccionar características e imponer restricciones al modelo en un intento de mejorar la generalización. Los econometristas consideran que esto es necesario, ya que los datos son demasiado escasos, ruidosos y no estacionarios (es decir, por las razones anteriores).

Esto no quiere decir que no se puedan aplicar métodos de "aprendizaje automático" como Lasso, NNG, Elastic Nets o Ridge. Dan lugar a modelos esencialmente lineales y se le pueden imponer las restricciones a priori que sean a través de los metaparámetros en la función de pérdida o utilizando una variante que preserve las jerarquías al utilizar interacciones de la función indicadora (Tibshirani 2013...). Editar: Todavía tendrá que seleccionar qué características entran en el algoritmo (como una imposición a priori), pero puede usarlas para lograr un poco más de escasez de lo que tendría de otra manera e introducir algún sesgo en su expectativa condicional (o probabilidad de estado si está haciendo GLM categórico multinomial) para mejorar la varianza de la distribución de muestreo.

Sin embargo, estoy abierto a los bosques aleatorios con las restricciones a priori adecuadas.

De hecho, hay cientos de trabajos que utilizan el aprendizaje automático para predecir los mercados financieros. Basta con buscar en Google una tontería como "fuzzy bayesian expert adaptive learners with PSO training S&P 500" y obtendrá una lección sobre el efecto cajón de sastre, el sesgo de publicación y las metodologías de investigación deficientes (por ejemplo, seleccionar 3 de 50 algoritmos y 2 de 50 índices y esperar que convenza a la gente).

Sin embargo, lo anterior es una visión optimista del sector. Según las personas con las que he hablado en fondos de baja frecuencia, simplemente desconocen el aprendizaje automático y no podrían aplicarlo porque carecen de conocimientos y habilidades. Si realmente estuvieran interesados en ser verdaderos quants, quién sabe el daño que podrían hacer con el deep learning o algo así.

Si quieres hacer un verdadero aprendizaje automático en las finanzas y realmente hacer algo que sea meritocrático/habilidoso/científico en lugar de casi completamente aleatorio y lleno de gente que practica tonterías, ve a una empresa de HFT (no es que la mayoría de la gente practique tonterías en los fondos de baja frecuencia, sólo que muchos lo hacen y esto es algo que es absolutamente imposible de conseguir en HFT). Dicho esto, me siento continua y sistemáticamente decepcionado cuando oigo hablar de los métodos de investigación de los fondos quant de baja frecuencia.

5 votos

Si pudiera, le daría varios upvote. Sin embargo, estoy ligeramente en desacuerdo con tus afirmaciones sobre el hft. Yo categorizaría los requisitos de "quant IQ" para implementar algoritmos de hft como muy bajos, por otro lado, sé un programador de primera clase y lo más probable es que ganes más que cualquiera de los quants en una casa de hft meritocrática.

2 votos

@MattWolf Hmm hay competencia tanto en el algo como en el espacio de hardware/software. Para el desarrollo de algo se requiere un coeficiente intelectual cuantitativo (no es todo Confíen en mí: las experiencias de ultra HFT pueden diferir). Hay muchas oportunidades para el aprendizaje automático no lineal real. Si sólo se tratara de programación de latencia ultrabaja, no habría empresas que contrataran a matemáticos, estadísticos y similares con poca o ninguna experiencia en programación orientada a objetos.

1 votos

@MattWolf Dicho esto, no es necesario ser un genio de las matemáticas con lápiz y papel, como puede ser necesario (o beneficioso) en algunas funciones de fijación de precios de derivados. Lo que se necesita es alguien que pueda obtener fácilmente el 0,2% superior en las pruebas de coeficiente intelectual cuantitativo, ya que estos son los problemas que surgen todo el tiempo, alguien que sabe mucho sobre la minería de datos, y un gran programador.

11voto

penti Puntos 93

Yo era como tú cuando empecé: Había aprendido mucho sobre aprendizaje automático (principalmente redes neuronales y algoritmos genéticos/programación) y lo utilizaba mucho. También había aprendido sobre estadística clásica, pero no tanto como sobre ML.

El problema con el ML es - tal como lo veo hoy en día - que a menudo se está tomando un mazo para romper una nuez, es decir: Dado que los mercados financieros son tan altamente estocásticos, se produce un exceso de ajuste y a menudo se confunde el ruido con la señal.

Véase también aquí: http://datagrid.lbl.gov/backtest/

¿Por qué es un problema con ML? Porque tienes muchos parámetros con los que jugar. Tomemos como ejemplo las RNA: ¿Cuántas capas? ¿Cuántas neuronas? ¿Qué algoritmo de aprendizaje (cada uno con muchos parámetros diferentes)? ¿Qué criterio de parada? ¿Cómo encontrar la mejor combinación de estos parámetros, con algoritmos genéticos? ¿O simplemente como un arte? ¿Combinar diferentes modelos con un enfoque de conjunto? Y así sucesivamente...

Luego viene la interpretabilidad porque las RNA son una caja negra. Aunque los resultados sean prometedores, no se sabe qué ha aprendido realmente el modelo.

Véase también aquí: https://neil.fraser.name/writing/tank/

Con los años he llegado a apreciar las estadísticas clásicas porque siguen siendo la referencia. Estoy de acuerdo en que se trata principalmente de modelos lineales y gaussianos, algo que es claramente erróneo en los mercados financieros, ¡pero es un punto de partida!

Véase también aquí: http://www.johndcook.com/blog/2012/01/04/nonlinear-is-not-a-hypothesis/

Hoy en día trato de utilizar métodos de modelado que representan un punto dulce:

  • Deben ser lo suficientemente sencillas como para poder ser interpretadas,
  • deben ser lo suficientemente complejos como para reproducir los hechos estilizados más importantes de los mercados financieros,
  • debe haber algún tipo de intuición económica para que funcionen.

Así que mi humilde conclusión es que sería un error utilizar sólo la regresión lineal y la distribución normal, pero sería igualmente erróneo utilizar algún tipo de algoritmo súper ML para encontrar la solución correcta para usted. Cuando he aprendido una cosa a lo largo de los años es que modelar el mercado de valores es, ante todo, una lección continua de humildad... y todavía tienes que pensar tú mismo.

1 votos

Estoy de acuerdo, aunque algunos modelos de ML pueden producir una importancia variable y la gente está ideando formas de hacerlo con NN, al final del día, ¿puedes llevar este modelo a tu jefe o gestor de riesgos y ser como, hey, puedo predecir el futuro, pero no puedo decirte por qué? Además, al hacer ML, puedes poner un montón de características inútiles, pero no puedes eliminarlas porque no sabes cuáles son inútiles.

8voto

Probablemente se deba a los sólidos fundamentos estadísticos que existen desde hace tiempo en la economía y la econometría y, en general, en la predicción del riesgo. Por ejemplo, fíjese en las investigaciones actuales sobre las distribuciones de cola gorda y los cálculos de la pérdida esperada de cola (ETL), etc. Estos estudios ajustan las distribuciones de probabilidad t de Student, Normal, Estable y Pareto a los datos e informan de que, por ejemplo, la distancia de bondad de ajuste de Kolmogorov o Anderson-Darling es menor para la distribución normal, es decir, la distribución normal no recupera el área de las colas tan bien como la estable y la t de Student (para f.d. variables). A continuación, pasando a los análisis de series temporales, sigue teniendo mucho mérito el uso de ajustes de tipo ARIMA, ARMA, ARCH y GARCH para explicar las medias y varianzas condicionales y la autocorrelación. Se puede utilizar simplemente un puñado de los métodos mencionados anteriormente y realizar una cantidad increíble de predicciones de riesgo que tienen un mérito científico en la gestión del riesgo financiero.

A continuación, en lo que respecta al ML, cuanto más se profundiza en el aprendizaje no lineal de la matriz (ISOMAP, mapas propios laplacianos, etc.), la metaheurística (algoritmos evolutivos y estrategias evolutivas como los algoritmos genéticos, la autoadaptación de la matriz de covarianza, la optimización de colonias de hormigas, la optimización de enjambres de partículas), el aprendizaje neural adaptativo (RNA) y muchos otros métodos supervisados de ML e IA, se está alejando esencialmente del descenso de gradiente basado en la derivada determinista y estocástica y de los métodos de Newton-Raphson, que proporcionan incertidumbre en los parámetros.

Recientemente, he empezado a utilizar la optimización por enjambre de partículas para casi todo lo que optimizo. Claro, Newton-Raphson es más rápido, es más consistente, y puede proporcionar la incertidumbre de los parámetros, pero como yo lo veo, para modelar correctamente el riesgo uno necesita combinar realizaciones de muchas distribuciones diferentes para construir una distribución de incertidumbre final. Por esta razón, la mayoría de las veces, cuando no me interesan los errores de tipo I y II, la potencia, el AIC, etc., o los errores estándar de los coeficientes, suelo arrojar estimaciones puntuales y utilizarlas como entradas para el análisis de Monte Carlo.

En cuanto a los bosques aleatorios (RF), es uno de los mejores clasificadores no supervisados y supervisados que existen. El RF combina simultáneamente el bootstrapping de las muestras de entrenamiento y la selección aleatoria de características para entrenar cada árbol. Los objetos de prueba desconocidos que no se encuentran en la muestra de entrenamiento de bootstrap (denominados out-of-bag, OOB) se "descartan" en cada árbol entrenado. La importancia de las características se determina comparando la precisión de la clasificación entre los valores permutados y no permutados de las características $j$ para todos los objetos de la OOB a través de la caída en el mismo árbol entrenado. Breiman sugirió que se utilizaran al menos 5.000 árboles ("no seas tacaño") y, de hecho, en su principal artículo de ML sobre RF se utilizaron 50.000 árboles por ejecución.

Las redes neuronales artificiales (RNA) han demostrado ser un aproximador universal; sin embargo, resultan bastante caras en comparación con Newton-Raphson, siempre que se conozca la función objetivo que se está ajustando (optimizando). Si no se conoce la ecuación objetivo, entonces una RNA puede ser tremendamente beneficiosa. Como he dicho a otros colegas, en estos casos, "la RNA es la ecuación". Para este último marco, en el que la RNA es la ecuación, si se extraen cuantiles aleatorios de las distribuciones para varios factores de riesgo, y se sujeta cada conjunto de cuantiles a los nodos de entrada de la RNA, se entrena utilizando CV, la utilidad de una RNA combinada con Monte Carlo será inmensa.

Dado que se tarda una década o más en aprender ML e IA a un nivel en el que se pueda abordar la mayoría de los problemas, no cabría esperar que alguien con una amplia formación en QF fuera capaz de aprenderlo rápidamente, ni que los resultados fueran mejores. El ML y la IA se implementan mejor para problemas casi NP-difíciles, como la programación de horarios, turnos y aerolíneas, y la logística, donde no hay una solución analítica de forma cerrada (ecuación) que describa su modelo.

6voto

Iba a comentar pero resultó ser bastante elaborado.

Mi experiencia con ciertos métodos de IA/ML es que no son deterministas. Por ejemplo, el RBM, un paradigma muy extendido. Para entrenar una máquina de este tipo hay dos enfoques, la retropropagación o la divergencia de Kullback-Leibler. Ambos requieren que se inicialice la máquina con un estado aleatorio. Y eso los hace no deterministas.

Aún más problemáticos son, por ejemplo, los métodos como el Recocido Simulado o la Programación Genética para encontrar máximos o mínimos en un paisaje en el que cada paso contiene un componente no determinista.

En general, no hay nada malo en una pizca de no-determinismo, especialmente en nuestra raqueta donde casi todo es un proceso estocástico. Sólo se convierte en un problema cuando se necesita un resultado reproducible, por ejemplo al comparar una sesión en vivo con algún backtest. Es muy difícil descomponer los errores de seguimiento (por ejemplo, la divergencia entre la sesión en papel y la sesión en vivo) en errores sistémicos y en la divergencia de, por ejemplo, los generadores aleatorios (o, más en general, las fuentes de no determinismo).

Editar:
A la inversa, si tratas de convertir un algoritmo no determinista en uno determinista utilizando una secuencia fija (o determinista) de ``no determinación'' el algoritmo colapsará a una variante que probablemente sea menos eficiente que uno determinista bueno (por ejemplo, SA determinista vs. búsqueda codiciosa); por supuesto, no puedo demostrarlo aquí, pero si tuviera que hacerlo, mostraría que la probabilidad de elegir una secuencia de aleatoriedad de entre todas las secuencias posibles de aleatoriedad que refleje exactamente los invariantes antes o después de cada paso de una ronda codiciosa es abismalmente pequeña.

3 votos

Cualquiera que intente generar números aleatorios por medios deterministas está, por supuesto, viviendo en un estado de pecado. -- John von Neumann Su respuesta no me explica por qué no se puede tomar una semilla fija al utilizar estos métodos.

2 votos

@BobJansen Bueno, técnicamente puedes, pero verás otros artefactos como un algoritmo SA nunca encontrar un máximo global; o si empiezas en tu paisaje en una posición ligeramente diferente pero con la misma secuencia de ``no determinación'' puede que no encuentres el mismo máximo que antes

2 votos

Esta no es la razón por la que el aprendizaje automático rara vez se utiliza en los fondos cuánticos de baja frecuencia.

2voto

nivlam Puntos 126

La principal razón para utilizar los métodos tradicionales es la interpretabilidad. Especialmente cuando se trata de carteras. Las carteras no son más que una combinación lineal de activos. Muchos métodos de aprendizaje automático son altamente no lineales y por lo tanto son difíciles de replicar con una cartera real. Por ejemplo, si quieres minimizar la volatilidad de tu cartera de acciones de mercados emergentes con una cartera de cobertura de divisas, una optimización tradicional a través de un problema de regresión te daría pesos sobre las divisas individuales, pero un método de aprendizaje automático como SVM, ANN, etc. no te da ninguna pista sobre qué comprar o vender.

Dicho esto, creo que los métodos no tradicionales podrían funcionar muy bien en la selección de características, la detección de anomalías o la clasificación. No veo ningún problema en combinarlos siempre que se pueda interpretar el modelo.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X