He completado un reto en el que se pide al usuario que prediga la rentabilidad del mercado de mañana. Los datos disponibles son de precios y el modelo debe ser de regresión logística. Lo llaman "machine learning" pero es pura regresión. Obtuve una serie de características de los datos (por ejemplo, el impulso), etc.
El reto implica que tengo que entrenar un modelo para predecir los rendimientos fuera de la muestra. Se trata de una "extrapolación" que no es para lo que se suele utilizar la regresión. ¿Es éste un uso válido de la regresión?
Divido mis datos de entrenamiento/prueba en 80%/20%. La división se realiza mediante un muestreo aleatorio. Lo que quiero decir es que, por ejemplo, si tengo datos de 2010-2020, no utilizo 2010-2018 para el entrenamiento y 2018-2020 para la prueba, sino que elijo al azar elementos de los datos de manera que el 80% sea de entrenamiento. Esto significa que 2010-01-05 podría pertenecer al conjunto de datos de entrenamiento pero 2010-01-06 (el día siguiente) podría pertenecer al conjunto de datos de prueba.
Mis preguntas son:
- ¿Son válidos mis argumentos sobre el uso de la regresión en este caso?
- ¿Mitiga mi división prueba/entrenamiento el problema de la extrapolación con la regresión?
- ¿El muestreo aleatorio de tren/prueba causa problemas debido a la naturaleza de las series temporales de los datos?