¡La lista de Quant Guy es realmente impresionante! Sin embargo, ¡no estoy seguro de que resolverán fácilmente tu problema específico? Creo que hay una pieza faltante.
Ten en cuenta que la imputación de datos faltantes es un tema muy amplio. Hay muchas recetas para imputar valores faltantes, pero estas son para sus 'suposiciones' específicas y propósitos. No necesariamente pretenden abordar bien tu problema específico: el cambio de régimen.
Para abordar mejor tu problema específico, debes definir cuantitativamente el régimen de mercado como parte de tu fórmula de ajuste. De lo contrario, no tendría sentido lógico que tu modelo esté consciente y pueda reaccionar adecuadamente.
En la investigación de Stambaugh del '97 (que creo que es la referencia más relevante que mencionó Quant Guy), la fórmula de Stambaugh realmente utilizó B = V21*V11^(-1), es decir, Beta, para hacer el ajuste. Debo decir que poco después, la historia nos ha enseñado lo vulnerable que es el beta varias veces, especialmente en un entorno de mercado que cambia rápidamente (¿pero supongo que la aplicación de Beta aún era novedosa y no tan frágil en la época de los '90?).
Ahora definamos el régimen de mercado cuantitativamente. En sentido común, la correlación promedio es un indicador de régimen bastante útil. Simple e intuitivo, fácil de aplicar en un modelo propio (y siento que por eso el modelo de Ledoit-Wolf es tan popular :)). Pero sí, como Branson señaló en la respuesta de Ian, hay posibilidad de que obtengamos resultados muy indeseables.
Una de las soluciones potenciales es mapear el indicador intuitivo a un espacio/dimensión adecuados para operaciones, y luego transformarlo de vuelta. Esta es una técnica muy útil que comúnmente se emplea en el aprendizaje automático. La correlación vive en un espacio muy restringido [-1,1] y esto limita en gran medida lo que podemos hacer al respecto. (Por favor no pienses que la covarianza estará menos restringida. Cuando las colocas juntas en una matriz, créeme, será tan restringido como la correlación. De hecho, la correlación es más fácil de trabajar para identificar posibles problemas)
Ahora, ¿qué tal si mapeamos la correlación a un espacio igualmente intuitivo (al menos para mí) pero menos restringido,
Razón Señal-Ruido (SNR) = Correlación^2 / (1 - Correlación^2)
** Correlación = sqrt(snr/(1+snr))
y refinamos mi indicador de régimen como la mediana del SNR. (*Raramente uso promedios en aplicaciones financieras)
No sé cómo se siente la gente acerca del SNR, pero me siento muy cómodo con una formación en EE. En sistemas de comunicación, el SNR es exactamente el indicador de régimen (entorno) que caracteriza un canal. Siento una analogía significativa aquí.
El trabajo restante será sencillo. Utilizaré el cociente de mis indicadores de régimen como un multiplicador para ajustar los SNR emparejados de activos jóvenes contra otros activos. Luego mapearé el ajuste final de vuelta a las correlaciones.
Obtendrás al menos los siguientes beneficios al utilizar este enfoque:
- Las correlaciones no se dispararán como en tu primer intento
- El ranking original de correlaciones emparejadas (con activos de corta duración) se conserva
- Mucho más fácil de implementar. No es necesario imputar datos faltantes.
- Intuitivo (para mí), fácil de entender qué está sucediendo en tu código.
- Este enfoque es compatible con muchas otras técnicas en las referencias de Quant Guy como el Encogimiento de Ledoit-Wolf, RMT, y matrices de covarianza representativas ponderadas.
Por último, pero no menos importante, esta es una idea de colaboración con uno de mis colegas más brillantes y amigos cercanos, Manish Agarwal.