La notación $\Sigma$ se utiliza a menudo para la matriz de covarianza Var( $r_t$ ).
Utilizar la notación $\Psi_t = \text{Var}(\epsilon_t)$ Una hipótesis común de modelización es que los residuos son independientes, $\epsilon_{i,t} \perp \epsilon_{j,t}, ~i\neq j$ . Dada esta hipótesis de independencia, la covarianza de la matriz de rendimientos residuales $\Psi$ es diagonal.
Algunos modelos factoriales (por ejemplo Barra ) implementan un concepto de "riesgo específico vinculado" (LSR), quizás para modelizar dos clases de acciones de la misma empresa. Una matriz de covarianza de rendimiento residual que implemente un concepto como el LSR mostraría una covarianza distinta de cero para los rendimientos específicos.
El riesgo idiosincrático es específico de cada activo. ¿Implica eso que la matriz de covarianza ... es diagonal?
Si su modelo asume (su hipótesis afirma) un riesgo idiosincrático específico, la covarianza de los rendimientos residuales es diagonal. Si recoge datos suficientes para rechazar esta hipótesis, como hace el modelo de Barra, sus rendimientos residuales no serían independientes, y la matriz de covarianza de los rendimientos residuales no sería diagonal.
¿tendría sentido imponer esta diagonalidad
Empezar con un modelo simple (máxima entropía) "tiene sentido". Añadir complejidad bajo coacción (rechazar la hipótesis actual basándose en los datos), como ilustra el ejemplo de Barra, tiene sentido. La modelización es un proceso iterativo. Piensa en las falsificaciones profundas. Si puede detectar una característica que distinga la imagen (o serie de resultados) "real" de la "falsa", imponga la restricción de que la característica de la serie de resultados sintetizada coincida con la característica de la serie de resultados observada.
el problema de invertir una gran matriz de covarianza estimada no restringida
Un gran esfuerzo de estimación se beneficia de la regularización. Dos métodos potenciales para sus esfuerzos de modelización son:
- un marco bayesiano, donde el prior es un modelo simple, y los datos observados transforman este punto de partida simple; y,
- un marco de entropía máxima, en el que las características se añaden de forma iterativa a un modelo actual (a medida que se "rechaza la hipótesis nula" en respuesta a las características de los datos observados estadísticamente significativas que no concuerdan con las características de los datos sintetizados).
He tratado estos conceptos y otros relacionados con ellos con más detalle en mi tesis .
Edit : (respuesta al primer comentario)
Usando Sherman-Morrison-Woodbury, y asumiendo que tienes un factor común que podría expresarse como cargas en los rendimientos ortogonales del factor común (rotar y escalar los rendimientos del factor original si es necesario) más los rendimientos residuales, el esfuerzo para invertir la matriz de covarianza es modesto. Con un $k$ -la única inversión necesaria es la de un modelo de $k \times k$ matriz $I_k + L^\textrm{T}\Psi^{-1}L$ . El resto del proceso es multiplicación de matrices y sustracción de matrices.
$$ \begin{align} \Sigma &= L L^\textrm{T} + \Psi \\ \Sigma^{-1} &= \Psi^{-1} - \Psi^{-1}L (I_k + L^\textrm{T}\Psi^{-1}L)^{-1}L^\textrm{T} \Psi^{-1} \\ \end{align} $$