He escrito un trabajo para la universidad sobre Matrices Aleatorias y durante mi investigación he tenido una idea interesante, déjame explicarte: La Ley del Semicírculo de Wigner ha visto muchos avances desde su demostración original en 1955, el más reciente creo que es la demostración de Tao de la conjetura Wigner-Gaudin-Mehta-Dyson que muestra la universalidad. Ahora, aquí está el salto, gran parte de los grandes datos se basa en el análisis de componentes principales, o la descomposición de los datos en sus respectivos valores y vectores propios. Luego comparamos los resultados con conjuntos de datos similares para ver si hay correlaciones. Sin embargo, si tratamos los precios de las acciones como movimientos brownianos, es decir, procesos aleatorios iterados con valores propios y vectores propios que tienden a la ley circular, entonces no se crea inherentemente un sesgo en nuestra comparación de los vectores propios con respecto a otros procesos aleatorios iterados.
Por ejemplo, un grupo de existencias de productos básicos en la agricultura y otro en la minería, suponemos que no están correlacionados, pero después de la división en lotes y el ACP comparten valores propios normalizados similares. ¿No se debe esto en parte al hecho de que comparten la misma ley distributiva al menos para lotes suficientemente grandes y muestreos repetitivos? Si es así, ¿existen ya métodos o pruebas de hipótesis que filtren esto?
Era sólo una idea y realmente no tengo mucha gente con la que discutir esta idea ya que estoy atrapado en casa. Puede que me equivoque en el funcionamiento de la PCA o en la correlación de los productos financieros, ya que no estoy en el campo.
EDIT: Creo que es necesario un poco más de contexto ya que este no es un resultado familiar para la mayoría.
Según la RMT, los valores propios tienen una distribución semicircular para matrices simétricas con entradas i.i.d normalmente distribuidas. Recientemente se ha demostrado que las restricciones sobre i.i.d no importan, por lo que podemos proceder de todos modos. Si tomamos una matriz de covarianza de todas las entradas de las acciones que comienzan en A comparando el rendimiento medio diario durante un periodo de tiempo, cada una podemos asumir una distribución lognormal formando una, digamos 10000 por 10000 matriz simétrica. Así obtenemos una secuencia de matrices de covarianza aleatorias $\Gamma_1, \Gamma_2, ..., \Gamma_n$ . Suponemos que cada una de las entradas es i.i.d, ya que las acciones no tienen "nada" que ver entre sí (aunque un resultado más débil es válido para las entradas no i.i.d). Ahora, esta serie de matrices forma una cadena de matrices de covarianza que tiende a la matriz de covarianza subyacente de toda la historia de las acciones (si hemos tomado la muestra correctamente). Sabemos por RMT que una vez que descomponemos estas matrices en sus valores propios, los valores propios tienden a la distribución semicircular. Dado que esta distribución es continua, hay una dispersión en los resultados, es decir, hay alguna varianza subyacente a la descomposición de valores propios de las matrices de covarianza. Por lo tanto, cuando utilizamos las matrices de covarianza, ¿no debería haber algún tipo de prueba de hipótesis que sea capaz de filtrar esta distribución subyacente, de forma similar a la comparación de las distribuciones normales, donde tenemos que tener en cuenta la varianza al comparar dos valores medios? Esto dependería del grado de i.i.d de las variables aleatorias, del tamaño de la matriz, del número de muestras tomadas y de la media/varianza de las propias variables aleatorias. Lo raro de esta prueba de hipótesis es que se espera como $n$ se hace más grande también lo hace el límite de error, capturado por la relación asintótica entre el tamaño y la convergencia a la distribución del semicírculo.
TLDR: ¿Existe algún tipo de prueba de hipótesis para PCA, o cualquier método de valores propios, que filtre la tendencia subyacente de las matrices de covarianza aleatorias para tener en cuenta la varianza? Al igual que cuando se compara la media de dos distribuciones normales, es necesario realizar una prueba de hipótesis para tener en cuenta la varianza.
Además, cuanto más escribo sobre esto, más siento que esto está más relacionado con la ciencia de los datos que con las finanzas cuantitativas, ya que me doy cuenta de que mis ejemplos no parecen encajar muy bien.
0 votos
Hola, esto es un poco de seguimiento de su pregunta y la respuesta de @mark leeds: Si no recuerdo mal, ¿no se podrían hacer también algunas rotaciones en el espacio de los factores después del ACP, lo que añadiría un problema de identificación (en busca de una palabra mejor)?
0 votos
Pues bien, dicha traslación sería isomórfica, por lo que la distribución seguiría siendo la misma, es decir, no se eliminarían las tendencias del valor propio hacia su distribución.