1 votos

Partición adecuada de los datos para construir un modelo de previsión

Objetivo: Un equipo y yo estamos buscando construir un modelo que realice una acción predictiva del estado del mercado en el día T + n con los datos disponibles el día T . Para construir este modelo, estoy utilizando una fuente de datos de mercado EOD que se remonta hasta principios de los años 90.

Además, queremos separar el conjunto de datos en formación y pruebas para optimizar un parámetro del modelo y, a continuación, probar su rendimiento en el subconjunto fuera de la muestra.

El problema: El intento inicial consiste en dividir el conjunto de datos por año natural y asignar aleatoriamente cada año al conjunto de prueba o al de entrenamiento. Sin embargo, se han planteado los siguientes problemas:

  • Como nuestro modelo intenta predecir n días en el futuro (podemos suponer n es menor que, digamos, 15 o 20, pero probablemente mayor que 2-3), nuestro conjunto de datos de entrenamiento necesita extraer el estado del mercado de n días en el futuro para hacer nuestro análisis. Esto parece indicar que o bien tenemos que sacar n días desde el pruebas o que tendríamos que eliminar el último n días del conjunto de entrenamiento
  • Cualquier n -días durante el año puede tener algún significado para nuestro análisis, ya sea un informe de ganancias, o de otro tipo. En particular El n -La ventana de días que finaliza el año natural se considera un periodo importante para nuestro análisis, por lo que la eliminación de estos n los puntos fronterizos no es lo ideal (y también podría dar lugar a un sesgo sistemático del modelo)

Pregunta: ¿Existe una forma adecuada de realizar la partición formación y pruebas de datos, dado que nuestro análisis requiere que utilicemos un punto de datos que ocurra n días en el futuro?

-1voto

zdd Puntos 523

En situaciones como ésta, suelo considerar el conjunto de datos como un todo y simplemente graficar, o evaluar de alguna manera, una estimación del modelo en relación con un valor real durante un período continuo. Por ejemplo, en el caso de la modelización de la volatilidad, comparo la volatilidad estimada por el modelo (a través de ARCH/GARCH, vol. implícito, etc.) con la vol. realizada sobre una base continua, asegurándome de que los períodos de cálculo coinciden.

En la medida en que su modelo es dinámico, no tiene sentido ajustar el modelo a datos de 1996 y luego probarlo con datos de 2007, a menos que espere que funcione.

También va a ser problemático enfocarlo como usted lo describe, dado que la mirada de +/- días hacia adelante/atrás alrededor del comienzo y el final del período (año).

En cuanto a tu segundo punto, no tengo claro por qué dejarías caer n puntos fronterizos. El problema que mencionas sobre los anuncios de ganancias que caen dentro de tu ventana de n días será probablemente una limitación de tu modelo, a menos que hagas algún tipo de ajuste. Por ejemplo, volviendo a la modelización del vol., se observan picos de vol. tanto al principio y al final de los días como al principio y al final de las semanas. Es bastante fácil evitar esto considerando algo parecido a un ajuste de estacionalidad o simplemente mirar a lo largo de periodos lo suficientemente largos como para que los picos se igualen.

En su caso, es probable que quiera hacer alguna otra adaptación para tratar esto (por ejemplo, los anuncios de ganancias son de conocimiento público con mucha antelación, haga algún ajuste en su modelo para trabajar en torno a ellos).

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X