Hola, estoy tratando de utilizar indicadores técnicos financieros para la previsión, utilizando modelos de aprendizaje automático. El enfoque habitual en la validación cruzada de series temporales es utilizar una ventana móvil o una ventana creciente. La metodología que estoy utilizando se describe en los siguientes pasos
- Calcule los indicadores técnicos TA1, TA2, ....TAN para todo el conjunto de datos históricos, utilizando el retardo 1
- A continuación, utilice un método sencillo de selección de características, como averiguar la correlación cruzada entre las variables independientes y eliminar las variables con una correlación cruzada superior a un determinado umbral
- Retrasar las variables de entrada en uno
- A continuación, se entrena el modelo de aprendizaje automático utilizando una ventana móvil y se informa de su rendimiento en el conjunto de entrenamiento
- Probar su rendimiento en un conjunto de pruebas que no se utilizó en el proceso de entrenamiento
El problema al que me enfrento es que los resultados son muy optimistas. Mi pregunta es si debo calcular los indicadores técnicos por separado para el conjunto de datos de entrenamiento y de prueba y luego utilizarlos, o si debo calcularlos para todo el conjunto de datos al principio y luego dividirlos en conjunto de entrenamiento y de prueba.