¿Cuál es la mejor manera de manejar los valores que faltan cuando las acciones no existen para todo el período histórico?.
Respuestas
¿Demasiados anuncios?Un muy buen libro que viene a mi mente es
Poco, Rubin, un Análisis Estadístico con los Datos que Faltan
He leído parte de ella, pero probablemente es demasiada información en su caso.
Para su aplicación, creo que se puede categorizar el problema en dos subproblemas:
En primer lugar, las series de tiempo que tienen distintos puntos de partida (cuando algunas de las acciones de la historia es más corta):
La página, S., 2013, de Cómo Combinar Largo y Corto periodo de Retorno Historias de manera Eficiente, en el Financial analysts Journal 69, 45-52
Segundo, los datos que se pierde entre la serie de tiempo (por ejemplo en días festivos): Bueno, no es el algoritmo EM. Tome una mirada en ella. El más citado en el papel aquí es
Dempster, A. P., M. N. Laird, y D. B. Rubin, 1977, Máxima verosimilitud, a partir de datos incompletos mediante el algoritmo EM, Diario de la Sociedad Real de Estadística 39, 1-22 Es un proceso iterativo, dos-paso del algoritmo.
Usted también puede encontrar las fórmulas concretas en Meucci(2005) "el Riesgo y la Asignación de Activos". En su (Meucci s) página usted puede encontrar el correspondiente código de matlab.
@vanguard2k y @Theja proporcionar información útil. En mi experiencia, la desigualdad de los puntos de partida es el más común, así que voy a tratar de centrarse en eso.
La técnica que @vanguard2k se mencionó la falta de igualdad de puntos de partida puede ser pensado como una regresión. Comience con la más larga de los datos disponibles y obtener la matriz de covarianza de que. Para el siguiente conjunto de datos disponibles, que la regresión de y en contra de los datos que está disponible por más tiempo y el uso de los coeficientes de regresión para ampliar la matriz de covarianza (y los medios). Luego iterar a través de cada grupo de datos, de manera constante reducción de la cantidad de datos que se utilizan en cada regresión.
El enfoque anterior puede ser considerado más general que simplemente para la estimación de los medios y las covarianzas. Si cada paso es una regresión, entonces usted puede hacer todas las suposiciones que desea tanto tiempo, ya que se enmarca dentro del contexto de una regresión (por ejemplo, se podría estimar un modelo garch para el S&P 500, entonces la regresión de Facebook contra S&P 500 con algunos garch proceso, así como para la varianza residual). Usted no puede ser capaz de obtener una fórmula analítica para la covarianza, pero se puede simular el modelo y calcular la simulación de la matriz de covarianza de que.
Como una alternativa, múltiples imputación sería como si después de la regresión de usar ese modelo para simular la ausencia de algunos puntos de datos. En el siguiente paso, en lugar de usar únicamente los datos disponibles, se utiliza la disposición y la simulación de la falta. Usted, a continuación, volver a hacer los pasos anteriores tantas veces (donde las múltiples proviene) hasta que los parámetros se establecen. Me parece que puede ser útil para aprender acerca de varias de imputación antes de tratar de aprender acerca de muestreo de Gibbs.
El algoritmo EM es también muy similar a varios de imputación, con la excepción de que la EM es rellenar los datos que faltan con el valor de la predicción, mientras que varios de imputación está llenando con las simulaciones.
Independientemente, usted puede ejecutar en dificultades cuando el número de acciones que estamos viendo se expande más que el número de períodos de tiempo (al igual que cualquier estimación de la covarianza, la verdad). Una manera de resolver esta puede ser la aplicación de PCA para cada uno de los subconjuntos de datos, según corresponda. Alternativamente, usted puede limitar la regresión a algo como el país/sector/industria de los índices. Cualquiera de estos enfoques es como hacer algunas hipótesis de que ciertas correlaciones son cero.
Las cosas se vuelven más complicadas cuando comenzamos a lidiar con los datos que fácilmente se supone que para ser I(0). Por ejemplo, supongamos que queremos estimar un modelo VAR para el S&P 500 (en los niveles de registro), S&P 500 E/P, 10 años del Tesoro de los estados UNIDOS de los rendimientos, la inflación, y el VIX. Quieres un modelo VAR en este caso, ya que podría haber algún medio de reversión o de relaciones de cointegración. Es probable que tenga datos sobre el periodo más largo para el S&P 500, pero menos de los datos de la inflación, los rendimientos, E/P, y el VIX. Puesto que los datos no iid multivariante normal, usted no puede utilizar las técnicas mencionadas por @vanguard2k. La dificultad es que cuando se simula datos, necesita depende de su valor actual y sin embargo muchos hacia adelante o hacia atrás los rezagos son necesarios. Hay un muestreo de Gibbs enfoque que puede lidiar con este tipo de situación (Bayesiano de Frecuencia Mixta), pero es bastante sofisticado.
Una simple pregunta sería la siguiente: supongamos que queremos encontrar la covaraince entre los rendimientos de las dos acciones y cada una de sus series de tiempo tiene valores perdidos en diferentes lugares. ¿Cuál es la mejor manera de calcular la covarianza aquí? Una muy sensata manera de abordar esto es tirar las observaciones en las que sólo una de las acciones tiene un valor de retorno. Por supuesto, usted está desechando las observaciones en este enfoque. Sin embargo, el uso de cualquier otro enfoque puede introducir un sesgo en los pasos posteriores de su flujo de trabajo que puede ser indeseable (a menos que presentar un conocimiento basado sesgo específicamente para compensar la falta de observaciones).
Además, echa un vistazo a algunas de las preguntas en la Cruz Validado relativa a la imputación y los valores que faltan (por ejemplo, la primera respuesta para esta pregunta).