Objetivo: Un equipo y yo estamos buscando construir un modelo que realice una acción predictiva del estado del mercado en el día T + n
con los datos disponibles el día T
. Para construir este modelo, estoy utilizando una fuente de datos de mercado EOD que se remonta hasta principios de los años 90.
Además, queremos separar el conjunto de datos en formación y pruebas para optimizar un parámetro del modelo y, a continuación, probar su rendimiento en el subconjunto fuera de la muestra.
El problema: El intento inicial consiste en dividir el conjunto de datos por año natural y asignar aleatoriamente cada año al conjunto de prueba o al de entrenamiento. Sin embargo, se han planteado los siguientes problemas:
- Como nuestro modelo intenta predecir
n
días en el futuro (podemos suponern
es menor que, digamos, 15 o 20, pero probablemente mayor que 2-3), nuestro conjunto de datos de entrenamiento necesita extraer el estado del mercado den
días en el futuro para hacer nuestro análisis. Esto parece indicar que o bien tenemos que sacarn
días desde el pruebas o que tendríamos que eliminar el últimon
días del conjunto de entrenamiento - Cualquier
n
-días durante el año puede tener algún significado para nuestro análisis, ya sea un informe de ganancias, o de otro tipo. En particular Eln
-La ventana de días que finaliza el año natural se considera un periodo importante para nuestro análisis, por lo que la eliminación de estosn
los puntos fronterizos no es lo ideal (y también podría dar lugar a un sesgo sistemático del modelo)
Pregunta: ¿Existe una forma adecuada de realizar la partición formación y pruebas de datos, dado que nuestro análisis requiere que utilicemos un punto de datos que ocurra n
días en el futuro?