Esto es correcto: "La idea general de limpiar una matriz de correlación a través de la teoría de matrices aleatorias es comparar sus valores propios con los de una matriz aleatoria para ver qué partes de la misma están más allá de la aleatoriedad normal."
Esto no es correcto: "Estos se filtran y uno se queda con las partes no aleatorias".
El término "filtrado", aunque se utiliza mucho en la literatura, es engañoso porque los vectores propios de la matriz de correlación (o de covarianza) original siguen formando parte de la matriz y la suma de los valores propios no cambia.
En todos los procedimientos de filtrado RMT, la matriz se descompone y se reconstruye mediante el teorema de descomposición de los vectores propios:
$$ correlation \;\; matrix = eigenvectors * diag( eigenvalues ) * t(eigenvectors) $$ Notación: t() es el operador de transposición, * es la multiplicación de matrices y diag() es un operador que crea una matriz diagonal
En RMT sólo realizamos operaciones sobre la matriz diagonal de valores propios resultante de la matriz descompuesta. Los vectores propios no se tocan. Además, la suma de los valores propios se conserva antes y después de la limpieza. Dado que la suma de los valores propios también es igual a la traza de la matriz de covarianza, esto garantiza que se conserve la varianza del sistema.
Para recapitular, todos los procedimientos de RMT siguen este proceso de cuatro pasos:
-
El primer paso es, como señalas, identificar la banda superior de ruido de los valores propios predichos por una matriz aleatoria desmedida del mismo sigma utilizando la ley de Marcenko-Pastur. Las matrices ponderadas exponencialmente utilizan una ley de potencia.
-
La matriz se descompone mediante el teorema de descomposición de los vectores propios
-
Se limpia la diagonal de valores propios. Por ejemplo, el método de Laloux ( 1999 , 2000 ) es asignar los valores propios de todos los valores propios "ruidosos" por debajo de la banda de ruido superior a la media de todos esos valores propios ruidosos. Hay varias variaciones en cuanto a los nuevos valores propios que se asignan a los valores propios ruidosos (método de la ley de potencia, Krzanowski, etc.). En cualquier caso, en todos los métodos RMT la suma de todos los valores propios se mantiene después de la limpieza, por lo que no se puede poner a cero.
-
Ahora volvemos a construir una matriz de covarianza "limpia" o "filtrada" utilizando los mismos vectores propios y el valor propio revisado mediante el teorema de descomposición de los vectores propios (esta vez a la inversa, con los mismos vectores propios).
Digresión: Podrías idear tus propias técnicas siempre que se respeten las restricciones anteriores. Por ejemplo, dado que sabemos que los vectores propios principales/superiores tienen una estructura no normal significativa o sesgada, podrías "filtrar" aquellos valores propios que correspondan a vectores propios que presenten una estructura normal. Además, por si sirve de algo, en mi experiencia los métodos de filtrado que tienen una distancia sucesivamente creciente de un valor de eigenvalor al siguiente funcionan mejor (es decir, por ejemplo, una definición recursiva como el valor del segundo eigenvalor más pequeño es el doble del valor del eigenvalor más pequeño, el valor del tercer eigenvalor más pequeño es el doble del valor del segundo eigenvalor más pequeño, etc. hasta el último eigenvalor ruidoso).
Además, uno de los más accesibles introducción a la teoría de las matrices aleatorias son los trabajos de V. Plerou et al.
El Gestión de fondos de capital Equipo - Bouchaud, Pafka, Potters, et al tiene más investigación de frontera sobre RMT.