He desarrollado un modelo de red neuronal recurrente (RNN) para la previsión de series temporales. Ahora quiero probar su rendimiento frente a modelos estadísticos/econométricos más estándar, como ARIMA o VAR. El modelo supera a ARIMA en algunos de los conjuntos de datos típicos utilizados para probar el modelo (ventas de champú, temperaturas mínimas...).
Sin embargo, lo que realmente me interesa es averiguar cómo se comporta el modelo en series temporales macroeconómicas y financieras (tanto univariantes como multivariantes). Aquí es donde empiezan los problemas. Cuando aplico el modelo a indicadores macroeconómicos (PIB, desempleo...) o a índices bursátiles (precios de apertura, volatilidad realizada), las previsiones parecen ser muy buenas al principio (R-cuadrado alto, RMSE bajo). Sin embargo, una vez que los comparo con un modelo de paseo aleatorio de referencia (es decir, y_t=y_t-1), descubro que éste siempre da la mejor previsión posible. En otras palabras, tanto el modelo ARIMA como el RNN se aproximan a la previsión del paseo aleatorio, pero siempre quedan por debajo de ella (esto queda especialmente claro tras el ajuste de los parámetros, en el que siempre se seleccionan las mejores estimaciones con un retardo nunca superior a uno). Esto me ha llevado a pensar que las series que estoy considerando presentan más o menos un comportamiento de paseo aleatorio.
Por lo tanto, me gustaría saber si alguien podría indicarme algún indicador macroeconómico o financiero que haya demostrado no mostrar este tipo de comportamiento (quizás uno con fuertes componentes estacionales que puedan ser aprendidos tanto por modelos ARIMA como RNN). Lo ideal sería que tuviera observaciones diarias o mensuales para garantizar la mayor cantidad de datos posible, pero incluso las series trimestrales o anuales servirán si el lapso de tiempo es lo suficientemente largo.