Empecemos por la teoría. Un futuro es un forward estandarizado. En principio, su precio debería ser \begin{align} F_{0,T} &:= \exp(r_{n0} T) E_0^Q(S_T) = \exp(r_{n0} T) S_0 \\ r_{n0} &:= \text{risk-free rate} + \text{storage cost} - \text{dividend yield} - \text{convenience yield} \end{align} donde $Q$ es la medida neutral de riesgo y $(S_t)_{t \geq 0}$ es el proceso de precios de su activo. Esa ecuación se desprende de la ausencia de arbitraje.
Una cosa que se podría suponer es que la ecuación no se mantiene exactamente y la brecha en $h \geq 1$ es predecible y depende de las brechas previas. Por ejemplo, se podría escribir un modelo de corrección de errores para la tasa de rendimiento de las acciones: al fin y al cabo, si se toman los logaritmos anteriores y se añade un término de distribución, el logaritmo del precio a plazo y el logaritmo del precio de las acciones deberían estar cointegrados, de hecho con un vector de cointegración de (1,-1). \begin{align} lnS_{t+1} - lnS_t = \phi_0 + \beta(lnF_{t,1} - lnS_t) + \sum_{i=1}^{p_s} \phi_{si} (lnS_{t-i} - lnS_{t-1-i}) + \sum_{i=1}^{p_f} \phi_{fi} (ln F_{t-i,1} - ln F_{t-1-i,1}) + \epsilon_{t+1}. \end{align} Se puede estimar por mínimos cuadrados ordinarios y se pueden elegir fácilmente los hiperparámetros $(p_s,p_f)$ utilizando un criterio de información como el BIC o por validación cruzada. Incluso si se trata de series temporales, el método K-fold sería asintóticamente válido (Bergmeir, Hyndman y Koo, 2015) y, en la práctica, la contabilización de la dependencia del tiempo en el CV tampoco importa realmente (Goulet-Coulombe, Leroux, Stevanovic y Surprenant, 2020), aunque no veo el sentido de utilizar ese tipo de método lento cuando se trabaja con un modelo paramétrico lineal: el BIC debería funcionar bien.
El modelo anterior dice esencialmente que la restricción de arbitraje se mantiene, pero sólo en el largo plazo. No es súper sofisticado y, sí, se podrían utilizar los mismos regresores en modelos no lineales como las regresiones de vectores de soporte, las regresiones de cresta de núcleo o las redes neuronales para intentar mejorar el rendimiento. Personalmente, me decantaría por KRR, quizás con un kernel polinómico de 2º o 3º grado: va a evitar que elijas los regresores relevantes, va a permitir mucha no linealidad y es bastante sencillo de codificar.
Tenga en cuenta que el modelo que propuse impone una restricción. Supone que lo que hace crecer los precios de los futuros y de las acciones a largo plazo es la misma tendencia (estocástica). Podría no ser cierto. Una cosa que se podría hacer es comparar (i) trabajar directamente con los precios, (ii) explotar la posible cointegración entre los futuros y los precios del subyacente y (iii) predecir las tasas de crecimiento logarítmicas y utilizarlas para recuperar los precios utilizando los niveles actuales de los precios.
De esta manera, consigues penalizar todo de la misma manera y consigues ver si vale la pena imponer algunas de esas restricciones o no. Además, la pérdida que calculas es una estimación de las expectativas condicionales en todos los casos y eso debería estar bien - siempre y cuando el horizonte de previsión no se vuelva absurdamente largo frente a la frecuencia de la muestra, el error en esa expectativa debería ser estacionario en la covarianza (aunque, correlacionado en serie si haces una previsión de múltiples pasos porque tendrás errores superpuestos).