Intento predecir el movimiento del S&P 500 a un día vista con redes convolucionales temporales. 1 para capturar algún "recuerdo".
Utilizo datos de cierre diario con la función de pérdida $\mathrm{MSE}(f(x_0, \ldots, x_T), y_T)$ donde $f(x_0, \ldots, x_T) = \hat y_T := x_{T+1}$ es la salida de la red neuronal. He probado innumerables hiperparámetros con este modelo tan rudimentario. Pero casi todos los modelos que convergen lo suficientemente cerca convergen a la estimación ingenua del precio de cierre futuro por el último precio conocido. He intentado añadir más características como el VIX y los tipos de interés en vano.
Por lo demás, estoy empleando la parada temprana, el abandono para la regularización, la normalización por peso para la normalización, etc., y he probado secuencias de entrada largas (casi un año) y cortas (una semana).
Soy consciente de que se trata de un modelo muy rudimentario y no esperaba nada innovador. Quiero entender por qué las cosas se comportan como lo hacen.
Pregunta:
- ¿Por qué esta red, con un mínimo de información, converge a la estimación ingenua del último precio conocido?
- ¿Cómo se pueden hacer pequeñas modificaciones, tal vez en la función de pérdida o en otra cosa, para que no se "atasque" convergiendo al estimador ingenuo?