1 votos

Mejores prácticas para la validación cruzada de series temporales: ¿Qué método debo utilizar?

He desarrollado un modelo que predice los retornos de activos basado en un conjunto de entrenamiento. Soy consciente de que para datos i.i.d., las mejores prácticas sugieren usar validación cruzada de 5 o 10 pasos para equilibrar el intercambio sesgo-varianza. Sin embargo, con datos de series temporales, es crucial mantener el orden temporal, lo que hace que la validación cruzada sea más compleja.

Me he encontrado con varias sugerencias en la literatura y en línea. Un enfoque común es usar una ventana de entrenamiento aumentada con una ventana de validación decreciente. Por ejemplo, en el primer paso, podrías entrenar en periodos 1-48 y validar en 49-60, luego para el segundo paso, entrenar en 1-49 y validar en 50-60, y así sucesivamente.

También hay métodos que utilizan una ventana aumentada, como entrenar en 1-49 y validar en 50, luego entrenar en 1-50 y validar en 51. Además, he visto referencias a la validación cruzada de Monte Carlo y otras técnicas.

No estoy seguro de qué método de validación cruzada sería el mejor para mi análisis. He leído que el primer método que mencioné podría ser especialmente efectivo para datos no estacionarios con quiebres estructurales, lo que es probable en el caso de los retornos de activos. Sin embargo, parece que no hay un consenso teórico sobre el enfoque de validación cruzada óptimo para datos de series temporales no estacionarios. ¿Es eso exacto, o hay un método recomendado para mi situación?

¡Gracias por sus perspectivas!

3voto

Vitalik Puntos 184

¿Qué tal un enfoque de bloque bootstrap? El bloque bootstrap es útil para series temporales porque preserva las dependencias de la serie temporal dentro de los datos, lo cual la validación cruzada tradicional k-fold no conserva. En la siguiente propuesta, harías el bloqueo pero no el muestreo aleatorio.

Supongamos que tienes 1,000 observaciones y usas un enfoque de series temporales que utiliza AR(5). Podrías dividir los datos en 100 bloques de 10 observaciones. Luego, asignas cada bloque a uno de cinco o diez grupos. Después haces validación cruzada utilizando el 1/5 o 1/10 restante de la muestra. Repite para cada uno de los cinco o diez pliegues. También podrías experimentar cambiando el tamaño de los bloques y sus puntos de inicio (1 a 20, 21-40, y etcétera versus 2-21, 22-41, y etcétera) para ver si los resultados siguen siendo sólidos.

Si quisieras optar por un enfoque de bloque bootstrap en lugar de uno k-fold, podrías generar conjuntos de datos contrafácticos y estimar el modelo en los datos originales. Luego podrías utilizar los datos bootstrapados por bloques como la muestra de retención para evaluar el ajuste del modelo. Entonces, al igual que en k-fold, buscas modelos con buen rendimiento dentro y fuera de la muestra.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X