1 votos

Uso de la regresión para la predicción binomial de la rentabilidad de mañana

He completado un reto en el que se pide al usuario que prediga la rentabilidad del mercado de mañana. Los datos disponibles son de precios y el modelo debe ser de regresión logística. Lo llaman "machine learning" pero es pura regresión. Obtuve una serie de características de los datos (por ejemplo, el impulso), etc.

El reto implica que tengo que entrenar un modelo para predecir los rendimientos fuera de la muestra. Se trata de una "extrapolación" que no es para lo que se suele utilizar la regresión. ¿Es éste un uso válido de la regresión?

Divido mis datos de entrenamiento/prueba en 80%/20%. La división se realiza mediante un muestreo aleatorio. Lo que quiero decir es que, por ejemplo, si tengo datos de 2010-2020, no utilizo 2010-2018 para el entrenamiento y 2018-2020 para la prueba, sino que elijo al azar elementos de los datos de manera que el 80% sea de entrenamiento. Esto significa que 2010-01-05 podría pertenecer al conjunto de datos de entrenamiento pero 2010-01-06 (el día siguiente) podría pertenecer al conjunto de datos de prueba.

Mis preguntas son:

  1. ¿Son válidos mis argumentos sobre el uso de la regresión en este caso?
  2. ¿Mitiga mi división prueba/entrenamiento el problema de la extrapolación con la regresión?
  3. ¿El muestreo aleatorio de tren/prueba causa problemas debido a la naturaleza de las series temporales de los datos?

2voto

J. Allen Puntos 23

(1) La regresión es el clásico aprendizaje automático, y el objetivo general del ML es entrenar un modelo que pueda generalizar a datos no vistos (fuera de muestra). Además, en el contexto de tu reto y en la práctica, la gente se preocupa más por predecir el futuro (extrapolación) que por ajustarse perfectamente a lo que ha sucedido en el pasado, así que usar la regresión para esto es válido.

(2, 3) La división aleatoria no resolverá su problema, sino que filtrará directamente información futura a su modelo y, por tanto, aumentará el sobreajuste (los rendimientos pueden tener una alta autocorrelación), debido a la naturaleza de las series temporales de los datos.

Una mejor configuración de la validación cruzada es utilizar la división de datos walk-forward. Se podría, por ejemplo, utilizar TimeSeriesSplit o Validación cruzada K-FOLD depurada con embargo para evitar fugas entre los pliegues.

Después de tener la configuración de validación adecuada, su principal problema es diseñar características que realmente puedan explicar los rendimientos futuros y que sean lo suficientemente robustas como para pasar por los cambios de régimen del mercado, o actualizar su modelo regularmente.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X