Vengo de un campo diferente (Machine learning/AI/data science), pero pretendo hacer una pregunta filosófica con el máximo respeto: ¿Por qué los analistas financieros cuantitativos (analistas/comerciantes/etc.) prefieren (o al menos lo parecen) los métodos estadísticos tradicionales (tradicionales = frecuentista/regresión/métodos de correlación normal/análisis de t) en lugar de los métodos más nuevos de IA/aprendizaje automático? He leído un millón de modelos, pero parece sesgado? Antecedentes: Recientemente me uní a una empresa de gestión de activos de 1B AUM (sé que no es una tonelada). Me pidieron que construyera un nuevo modelo para una estrategia de rotación de sectores (básicamente para predecir qué sector del SP 500 lo haría mejor en 6 meses - elegí usar los rendimientos de 6 meses) que emplean y mi primera inclinación fue combinar ARIMA (tradicional) con random forest (selección de características) y un clasificador categórico (basado en la desviación estándar de la distribución normal) impulsado por el gradiente para los ETFs en cada sector. No es por ser grosero, pero superé la puntualidad de ValuLine para cada sector. Utilicé los rendimientos mencionados anteriormente como mi indicador y más o menos tiré todo a la pared para los predictores inicialmente (básicamente sólo peinando FRED), luego usé randomForest para seleccionar características. Terminé combinando la EMA y el porcentaje de cambio para crear un modelo bastante sólido que, como dije, superó a ValuLine.
He leído mucha literatura y no he visto a nadie hacer algo así. ¿Alguna ayuda en términos de señalarme en la dirección correcta para la literatura? ¿O alguna respuesta a la idea general de por qué no hay más aprendizaje automático en los mercados de valores (olvidando el análisis social/noticias)? EDIT: Para aclarar, estoy realmente interesado en las predicciones a largo plazo (creo que Shiller tenía razón) basadas en predictores macro.
Gracias
PS- He estado al acecho durante un tiempo. Gracias por todas las increíbles preguntas, respuestas y discusiones.
15 votos
Con el debido respeto, pero ¿por qué creer desde el principio que se tiene alguna información o puntos de datos a mano que ayuden a predecir qué sectores superan al mercado en general en 6 meses? Si tuviera que resumir mi opinión sobre los mercados financieros, diría que el éxito tiene todo que ver con la gestión del riesgo de forma inteligente, así como con el aprovechamiento de las oportunidades en tiempos de ineficiencia del mercado, y tiene muy poco o nada que ver con la previsión del futuro.
14 votos
Hice unas prácticas en una empresa de compra al principio de mi carrera y rechacé una oferta para unirme a ella porque consideré que su esfuerzo por rotar los fundamentos de las empresas millones de veces con la esperanza de descubrir un modelo predictivo de múltiples factores era infructuoso y ridículo. Era un fondo que gestionaba cerca de 100.000 millones de dólares y todos se iban a casa contentos cada día sabiendo que tenían su base garantizada y sus primas embolsadas y descuidando el hecho de que generaban rentabilidades muy similares a sus índices de referencia. Simplemente pregunto por qué crees que unas métricas que ya están tasadas en los activos deberían tener poder predictivo....
1 votos
Usted ganaría necesariamente a ValuLine porque se ajusta a los datos de la muestra... Si yo estuviera usando su enfoque de investigación podría construir un modelo que tiene un retorno en cualquier punto de $\mathbb{R}$ de mi elección.
6 votos
De alguna manera, nadie ha mencionado que, esencialmente, los métodos de regresión son un subconjunto de ML y pueden considerarse casos límite de varios algoritmos de ML. A primera vista, esto podría significar que los resultados que proporciona el ML deberían ser siempre mejores, pero no es así porque es muy fácil sobreajustar o sesgar o simplemente utilizar mal una técnica más compleja. Aunque la mayoría de los algoritmos de ML se consideran cajas negras, es muy fácil producir un mal modelo si no se sabe lo que se está haciendo. Pero si se sabe lo que se está haciendo, ciertamente deberían superar a la regresión.
2 votos
Según tengo entendido, no hay mucho ML, en primer lugar, porque un gran porcentaje de la gente no tiene una mentalidad muy cuántica y prefiere la experiencia (o, peor aún, la corazonada) y basa las predicciones en la investigación fundamental, o en general tiene miedo de las cosas nuevas que no están probadas a fondo (y/o no pueden entender). La falta de bibliografía en este ámbito está relacionada principalmente con el hecho de que se trata simplemente de un análisis (estadístico) de series temporales (que no difiere mucho del análisis de cualquier otro proceso de series temporales) y hay más que suficiente bibliografía académica de calidad al respecto.
0 votos
@sashkello "Debería superar a la regresión". Dos cosas; los algoritmos de aprendizaje supervisado de respuesta continua son de regresión, y en segundo lugar esta es una afirmación sin fundamento.
0 votos
@user2763361 No es una afirmación sin fundamento y lo he explicado en mi comentario. Si la regresión puede ser modelada por otro algoritmo ML, su resultado puede ser al menos igualado.
1 votos
@sashkello ¿En qué te basas para afirmar esto? Por favor, apóyala con alguna razón o prueba teórica. Ni siquiera tiene sentido decir "Si la regresión puede ser modelada por otro algoritmo ML", ya que la regresión es un tipo de un algoritmo de aprendizaje supervisado que tiene una respuesta continua.
0 votos
@user2763361 No veo qué hay de malo en mi afirmación. Si puedes crear una red neuronal que se comporte exactamente como una función lineal, ya tienes tu regresión lineal, por lo tanto, la NN no es peor que la regresión lineal. Lo mismo puede decirse de las SVM y muchos otros algoritmos de ML. Sin embargo, no se puede decir con seguridad sobre los bosques aleatorios.
0 votos
@sashkello Oh ok. No entendía lo que querías decir porque esos métodos son un tipo de regresión, pero ahora está claro. Sin embargo yo cambiaría "debería" por "puede en teoría".
0 votos
@user2763361 Sí, ciertamente quise decir "puede en teoría", buen punto.
0 votos
Los fondos quant de baja frecuencia que he visto utilizan principalmente métodos de identificación de señales que son pobres sin un buen procesamiento de la señal y el éxito de la denostación ML es propenso a un error significativo como 2763361 comenta los datos están perversamente incrustados en el ruido.
0 votos
@Barnaby ¿A qué te refieres con los métodos de idenfiticación de la señal? y ¿por qué son pobres sin un buen procesamiento de la señal? No está claro lo que quieres decir