Tengo una serie de tiempo $X_t$ generada a partir de un estándar de GBM
$$dS_t = \mu S_t dt + \sigma S_t dW_t$$
Si llevo el registro de las devoluciones a través de una ventana con movimiento de longitud $l$
$$r^{(l)}_i = \log \left( \frac{S_i}{S_{i-l}} \right)$$
entonces el $r^{(l)}_i$'s va a ser muy autocorrelated.
Por ejemplo, en python, podemos calcular a 5 días continuos de retorno ($l=5$) por
df # pandas dataframe
>>> date price
2006-03-01 65.72
2006-03-02 62.91
...
df["rolling_5_day_returns"] = np.log(df["price"].shift(-5)) - np.log(df["price"])
Dada la autocorrelación, ¿hay algún problema técnico en el entrenamiento de un modelo de $f$ para estimar la rentabilidad $\hat r_{i + l}$ en el momento $i$? Es decir, en el momento $i$ vamos a tener una estimación de la diferencia de precio entre los tiempos $i$ y $l$.
Explícitamente, tenemos
$$ f(\vec r^{(l)}_i) = \hat r_{i+l} =\log \left( \frac{S_{i+l}}{S_i} \derecho) $$ $$ f(\vec r^{(l)}_{i+1}) = \hat r_{i+l+1} =\log \left( \frac{S_{i+l+1}}{S_{i+1}} \derecho) $$ $$ ... $$
donde $\vec r^{(l)}_i$ es un vector de histórico de rodadura de la ventana devuelve hasta e incluyendo el tiempo $i$y $ \hat r_{i+l}$ es la estimación de los rendimientos entre el tiempo actual $i$ y en el futuro, $i+$l.
EDIT: Cuando me dicen que el problema técnico que quiero decir, es incorrecto entrenar un modelo de tales datos, o el modelo de sufrir en el rendimiento si los datos se autocorrelated?
También, tengo la intención de formar a un LSTM modelo, pero si se importa qué modelo nos tren si se trata de una red neuronal, la regresión o ARIMA? Los datos siempre es el mismo.