1 votos

¿Cómo interpolar lagunas en una serie de tiempo utilizando series de tiempo estrechamente relacionadas?

Estoy tratando de construir una serie temporal diaria de precios y rendimientos para un gran universo de valores. Sin embargo, todo lo que tengo disponible son series temporales mensuales de precios/rendimientos (así como otras características) de los valores individuales, una serie temporal diaria de un índice ponderado por capitalización de mercado de todos los valores y series temporales semanales de varios subíndices.

La serie temporal construida en última instancia se utilizará para estimar parámetros de un modelo más general, como la probabilidad de que el emisor de un valor tome alguna acción (por ejemplo, refinanciar su deuda) en función del precio del valor. Por lo tanto, considero que no es importante mantener la causalidad. El emisor presumiblemente conoce el precio real al tomar la acción, aunque yo no lo sepa, y necesito construir una mejor suposición sobre cuál era el precio dado todo lo que sé hoy.

Nota: no es posible obtener datos de mayor frecuencia a nivel de valor individual, ya sea porque los valores mismos no comercian con tanta frecuencia, o porque (hasta donde yo sé) nadie recolecta los datos. El objetivo es interpolar un conjunto de precios y rendimientos diarios que parezcan razonables basados en toda la información disponible. Se agradecería cualquier consejo sobre cómo llevar a cabo esta estimación.

Tengo algunas ideas propias, que puedo compartir después de un tiempo, pero ahora mismo aún estoy en la fase exploratoria y estoy buscando algo de inspiración adicional.

Solo para dejar claro lo que quiero decir mediante un ejemplo, supongamos que quisiera encontrar los precios diarios de las 1500 acciones en el S&P 1500, pero todo lo que tengo son precios mensuales para las acciones, precios semanales para los 10 índices sectoriales GICS y para los 500 de gran capitalización, 400 de mediana capitalización y 600 de pequeña capitalización, y precios diarios para el S&P 1500 en su conjunto.

El propósito, en ese ejemplo, sería ajustar un modelo de anuncios de recompras de acciones y ofertas secundarias en base a métricas de valoración interpoladas.

ACTUALIZACIÓN: Una respuesta sugirió aplicar el algoritmo de Expectation-Maximization. Por lo que puedo ver, EM no es aplicable a este problema. Aplicando EM al precio, se obtiene un patrón de diente de sierra donde los valores rellenados están en un plano diferente de los valores conocidos. No puedo encontrar una manera de aplicar EM a los rendimientos, ya que no me faltan rendimientos mensuales, y me faltan todos los rendimientos diarios/semanales de los valores individuales.

7voto

Charles Chen Puntos 183

Esta respuesta solo trata sobre la obtención de datos de alta frecuencia a partir de datos de baja frecuencia. El segundo método se toma del borrador de la tesis de maestría de un amigo mío, es decir, la mayoría de esto se toma de una fuente no publicada.

Jones (1998) propone un algoritmo para esto usando algo similar al muestreador Gibbs para obtener los valores de parámetro más probables para una difusión dada los datos, en resumen:

  1. Elija algunos valores iniciales para los parámetros $\phi$ y los datos no observados $X^u$.
  2. Vuelva a dibujar los caminos no observados, o "puentes", entre los datos observados y llene cualquier variable latente mediante ciclos, punto por punto, a través de los elementos de $X^u$.
  3. Dibuje nuevos parámetros condicionales en el conjunto de datos aumentado.
  4. Vuelva a (2) o termine la cadena de Markov si se ha determinado la convergencia.

Luego este modelo se puede utilizar para obtener observaciones a cualquier frecuencia utilizando un esquema de Euler. Ver Jones (1998) para más detalles. Mi amigo modifica este método de la siguiente manera:

  1. Elija parámetros iniciales
  2. Genere datos condicionales a las observaciones y parámetros actuales mediante MH cíclico
  3. Optimice la verosimilitud para la cadena generada en el paso (2)
  4. Guarde los parámetros óptimos del paso (3), úselos como entrada para el paso (2) y repita
  5. Después de un período de prequemado, promedie los parámetros guardados para obtener las estimaciones finales

Mi amigo argumenta:

El algoritmo original de Jones emplea un muestreador Gibbs en lugar de EM. En lugar de optimizar en el paso (3), Jones dibuja nuevos parámetros de alguna distribución previa y acepta o rechaza estos valores condicionalmente a la cadena generada en el paso (2). Sin embargo, es muy improbable aceptar un cierto dibujo, especialmente para espacios de parámetros de dimensiones más altas. Además, computacionalmente es más eficiente optimizar que dibujar cientos de cadenas para un solo cambio de parámetros. Cuando se utiliza el muestreo de Gibbs, también es imposible imponer restricciones en una combinación de variables, como obligar a la distribución a ser unimodal. Una desventaja es que perdemos las propiedades favorables de la inferencia bayesiana.

Desafortunadamente no puedo proporcionarte una respuesta completa. No estoy seguro si ha sido hecho aún (públicamente).

4voto

jpoh Puntos 296

Creo que necesitas decir algo sobre lo que quieres hacer con la serie "completada". Si estás interesado en propiedades estadísticas, la técnica habitual es la estimación de máxima verosimilitud utilizando el algoritmo EM. Eso te da algo así como una completación de los valores faltantes, pero solo en el contexto de la estadística que se está extrayendo, es decir, "no se te permite" utilizar los valores completados para cualquier otra cosa, porque solo están determinados por la condición de que obtengas el valor correcto de máxima verosimilitud cuando realices cálculos estadísticos convencionales (por ejemplo, covarianzas de a pares) en la serie completada.

3voto

mendicant Puntos 489

Debes aplicar el algoritmo E-M a una variable invariante (homogénea en el tiempo i.i.d.) como los log-retornos, no a los precios.

La clave del E-M es la suposición simplificadora de que la invariante (es decir, la distribución de los retornos) y la distribución de los datos faltantes son i.i.d. Los precios no obedecen esta propiedad. El truco de asumir una invariante i.i.d. y luego proceder a imputar proviene de Little y Rubin (1987).

En tu caso, claramente la distribución de los datos faltantes no es aleatoria. La literatura se refiere a este caso como "No faltante al azar". Puedes realizar algunas pruebas o confiar en la teoría para determinar si asumir que las distribuciones son "Faltantes al Azar" o "Faltantes Completamente al Azar" (MCAR) es válido.

La bibliografía del artículo Multiple Imputation for Missing Data (2003) cita los principales documentos en esta área.

EDICIÓN:

Leí tu actualización y noté que solo tienes retornos mensuales y no diarios/semanales.

Aquí hay un enfoque en el que todavía puedes hacer funcionar el método E-M.

A nivel mensual, tienes los retornos de seguridad junto con los retornos de los diversos índices y subíndices. Mide la covarianza mensual de los log-retornos y los log-retornos medios mensuales de los varios activos. Ahora proyecta la covarianza mensual a un nivel diario (simplemente divide ambos parámetros por el # de días de negociación en un mes). Tienes los retornos diarios para el S&P 1500. Llena las entradas faltantes reemplazando los valores faltantes con su valor esperado condicionado a las observaciones de los precios diarios para el S&P 1500 (usando el algoritmo E-M). El paso final es convertir los log-retornos de nuevo a retornos aritméticos.

Ten en cuenta que estás asumiendo que la estructura de correlación es estable durante el período de estimación. Tu resultado consistiría en retornos bien comportados y distribuidos normalmente. Estas son las deficiencias habituales del enfoque E-M.

1voto

eft Puntos 254

La regla básica para mantener la causalidad durante el remuestreo/interpolación de datos financieros es no utilizar información del futuro. Debes utilizar la interpolación paso a paso "arrastrando" la última información conocida a lo largo de las nuevas muestras hasta la próxima actualización mensual. Debes saber exactamente cuándo se muestrearon/calculaon esos valores mensuales. Esto garantiza la causalidad, pero no la corrección de los datos en los puntos de brecha, ya que la interpolación no agrega información a los datos mensuales originales.

1voto

darius Puntos 2492

Se obtiene una serie semanal de variables de baja frecuencia (mensuales) utilizando una interpolación o "ajuste" con respecto a una serie relacionada. La interpolación de una serie de tiempo mediante una serie relacionada implica dos pasos: elegir la serie "de referencia" y luego interpolar la serie deseada utilizando la serie relacionada. Se elige la serie relacionada de manera que sus movimientos en los intervalos de alta frecuencia estén altamente correlacionados con la serie dada.

Por ejemplo, se extraen datos de inflación no anticipada utilizando datos de IPC mensuales. Por lo tanto, la serie tiene una frecuencia mensual original. Utilizando una serie de tiempo relacionada semanal, la remuestreo semanal de la inflación no anticipada se realiza superponiendo los movimientos intra-mes de la serie relacionada en el movimiento de mes a mes del factor mensual de inflación no anticipada, utilizando una técnica para eliminar cualquier diferencia entre los movimientos de mes a mes de las dos series.

Veamos este ejemplo. Dejemos que: - UNIF: sea la serie mensual de inflación no anticipada. Esta es la serie de tiempo original. - x: sea la serie de tiempo relacionada con la inflación no anticipada, con una frecuencia semanal. - UNIF*: sea la serie de tiempo interpola (la que queremos derivar) con una frecuencia semanal.

Aquí está la metodología:

enter image description here

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X