Actualmente me encuentro con el siguiente problema.
Estoy utilizando regresiones de lazo para modelar los rendimientos de los fondos de cobertura y entender sus exposiciones. La idea es que si sus rendimientos se deben simplemente a factores, no hay razón para pagar 2&20 y uno debería simplemente comprar esas exposiciones a factores del proveedor más barato (etf, fondo de beta inteligente, etc.).
Ejecutar las regresiones y mirar el R^2 ayuda pero me parece insatisfactorio ya que las regresiones con suficientes factores posibles se sobreajustarán y explicarán espuriamente todo.
Últimamente he intentado hacer una validación cruzada entrenando la regresión en, por ejemplo, 8 años de datos y luego probando los resultados predichos para 2 o más años fuera de la muestra. Creo que tiene que haber una forma más rigurosa que este enfoque ingenuo de dejar uno fuera, especialmente teniendo en cuenta que muchos gestores tienen historiales cortos.
¿Algún consejo? ¿Funcionaría bien algo como k-folds para este tipo de datos de series temporales?
p.d. Por cierto, estoy usando R, así que cualquier sugerencia aplicada sería útil.