2 votos

Debate sobre la teoría de las matrices aleatorias y su impacto en el ACP

He escrito un trabajo para la universidad sobre Matrices Aleatorias y durante mi investigación he tenido una idea interesante, déjame explicarte: La Ley del Semicírculo de Wigner ha visto muchos avances desde su demostración original en 1955, el más reciente creo que es la demostración de Tao de la conjetura Wigner-Gaudin-Mehta-Dyson que muestra la universalidad. Ahora, aquí está el salto, gran parte de los grandes datos se basa en el análisis de componentes principales, o la descomposición de los datos en sus respectivos valores y vectores propios. Luego comparamos los resultados con conjuntos de datos similares para ver si hay correlaciones. Sin embargo, si tratamos los precios de las acciones como movimientos brownianos, es decir, procesos aleatorios iterados con valores propios y vectores propios que tienden a la ley circular, entonces no se crea inherentemente un sesgo en nuestra comparación de los vectores propios con respecto a otros procesos aleatorios iterados.

Por ejemplo, un grupo de existencias de productos básicos en la agricultura y otro en la minería, suponemos que no están correlacionados, pero después de la división en lotes y el ACP comparten valores propios normalizados similares. ¿No se debe esto en parte al hecho de que comparten la misma ley distributiva al menos para lotes suficientemente grandes y muestreos repetitivos? Si es así, ¿existen ya métodos o pruebas de hipótesis que filtren esto?

Era sólo una idea y realmente no tengo mucha gente con la que discutir esta idea ya que estoy atrapado en casa. Puede que me equivoque en el funcionamiento de la PCA o en la correlación de los productos financieros, ya que no estoy en el campo.

EDIT: Creo que es necesario un poco más de contexto ya que este no es un resultado familiar para la mayoría.

Según la RMT, los valores propios tienen una distribución semicircular para matrices simétricas con entradas i.i.d normalmente distribuidas. Recientemente se ha demostrado que las restricciones sobre i.i.d no importan, por lo que podemos proceder de todos modos. Si tomamos una matriz de covarianza de todas las entradas de las acciones que comienzan en A comparando el rendimiento medio diario durante un periodo de tiempo, cada una podemos asumir una distribución lognormal formando una, digamos 10000 por 10000 matriz simétrica. Así obtenemos una secuencia de matrices de covarianza aleatorias $\Gamma_1, \Gamma_2, ..., \Gamma_n$ . Suponemos que cada una de las entradas es i.i.d, ya que las acciones no tienen "nada" que ver entre sí (aunque un resultado más débil es válido para las entradas no i.i.d). Ahora, esta serie de matrices forma una cadena de matrices de covarianza que tiende a la matriz de covarianza subyacente de toda la historia de las acciones (si hemos tomado la muestra correctamente). Sabemos por RMT que una vez que descomponemos estas matrices en sus valores propios, los valores propios tienden a la distribución semicircular. Dado que esta distribución es continua, hay una dispersión en los resultados, es decir, hay alguna varianza subyacente a la descomposición de valores propios de las matrices de covarianza. Por lo tanto, cuando utilizamos las matrices de covarianza, ¿no debería haber algún tipo de prueba de hipótesis que sea capaz de filtrar esta distribución subyacente, de forma similar a la comparación de las distribuciones normales, donde tenemos que tener en cuenta la varianza al comparar dos valores medios? Esto dependería del grado de i.i.d de las variables aleatorias, del tamaño de la matriz, del número de muestras tomadas y de la media/varianza de las propias variables aleatorias. Lo raro de esta prueba de hipótesis es que se espera como $n$ se hace más grande también lo hace el límite de error, capturado por la relación asintótica entre el tamaño y la convergencia a la distribución del semicírculo.

TLDR: ¿Existe algún tipo de prueba de hipótesis para PCA, o cualquier método de valores propios, que filtre la tendencia subyacente de las matrices de covarianza aleatorias para tener en cuenta la varianza? Al igual que cuando se compara la media de dos distribuciones normales, es necesario realizar una prueba de hipótesis para tener en cuenta la varianza.

Además, cuanto más escribo sobre esto, más siento que esto está más relacionado con la ciencia de los datos que con las finanzas cuantitativas, ya que me doy cuenta de que mis ejemplos no parecen encajar muy bien.

0 votos

Hola, esto es un poco de seguimiento de su pregunta y la respuesta de @mark leeds: Si no recuerdo mal, ¿no se podrían hacer también algunas rotaciones en el espacio de los factores después del ACP, lo que añadiría un problema de identificación (en busca de una palabra mejor)?

0 votos

Pues bien, dicha traslación sería isomórfica, por lo que la distribución seguiría siendo la misma, es decir, no se eliminarían las tendencias del valor propio hacia su distribución.

2voto

waynecolvin Puntos 110

Hola: No sigo totalmente tu pregunta pero puedo comentar un aspecto de la misma. ( Así que esto no es una respuesta ). Las ideas de que A) los rendimientos de las acciones son procesos geométricos de movimiento browniano y B) que el ACP capta algún tipo de similitud en las acciones de dos sectores diferentes son prácticamente dos cosas diferentes.

A) proviene de la teoría de los mercados eficientes, donde se postula que $ln(P_t) = ln(P_{t-1} + \epsilon_t$ . ( paseo aleatorio que, en tiempo continuo es un movimiento browniano ).

B) procede más bien de la teoría económica de la inversión, en la que se supone que el rendimiento de las acciones tiene varios componentes debido a sus características fundamentales y uno de estos componentes es el factor "mercado". Los modelos factoriales se utilizan para desglosar el rendimiento de una acción en factores y cargas factoriales. El hecho de que el "mercado" impulse parte de la rentabilidad de una acción suele denominarse factor "mercado" en, por ejemplo, un ACP.

Por lo tanto, lo que quiero decir es que A) y B) son dos conceptos bastante diferentes, por lo que yo no los metería en el mismo saco. A) se discutiría en cualquier texto decente sobre derivados como como el de Hull. (hay otros libros disponibles que se adentran más en las matemáticas de los procesos de dificultad, etc.). B) se discutiría en un texto de econometría financiera como el de Zivot o el de Rudd y Clasing. También, un libro de inversiones como el de William Sharpe.

Eso es todo lo que puedo decir, pero espero que ayude un poco porque, según tu pregunta, parecía que estabas combinando los dos conceptos y esto podría llevar a alguna confusión.

0 votos

Gracias por segmentar las dos ideas, sin embargo, el abogado del diablo que hay en mí diría que las dos están vinculadas, es decir, la aleatoriedad de A surge como consecuencia de la varianza del análisis de B atribuyendo diferentes pesos a diferentes factores, ya sea la inversión institucional en crecimiento o un fondo de cobertura que aplica la inversión técnica al mercado. Estas diferencias de punto de vista provocan a su vez la varianza, que es de donde procede la aleatoriedad.

0 votos

Hola John: Es un concepto interesante el que traes a colación, pero, normalmente, o al menos según mi opinión, cuando la gente habla de que los rendimientos de las acciones son "aleatorios", se refieren a los rendimientos brutos antes de que se realice cualquier modelización. Con respecto a los modelos de factores, la varianza a la que te refieres se llama "riesgo residual" o varianza específica de la acción. Revisa rudd y clasing si puedes tenerlo en tus manos. Recuerdo que ese libro era muy bueno en su día. Ya es bastante viejo pero estos conceptos no cambian tanto.

0 votos

Como definición que recoge lo que es el azar, al menos en matemáticas. Sin embargo, la razón por la que decidimos añadir la aleatoriedad se debe en parte al número de actores en el mercado y a la diferencia de esas estrategias. Si todo el mundo siguiera la misma estrategia no modelaríamos el rendimiento de un producto de forma aleatoria. Gracias por la recomendación, echaré un vistazo al libro; necesito leer los fundamentos antes de considerar seriamente estas ideas.

0voto

Akash Puntos 8

Yo también debo confesar mi ignorancia sobre los procesos Wigner-Kermit-Ringo :-) Pero sí sé de PCA, y de procesos reductores iterativos de mercado,,,

Sospecho (pero no puedo demostrarlo) que está planteando una falsa oposición aquí Sí, los cereales y los metales están correlacionados. Así que las acciones asociadas (por ejemplo, Deere y Río Tinto) aparecerán efectivamente vinculadas bajo el análisis PCA. Como, de hecho, probablemente lo están, mirando a estos dos y a los oilcos frente a, por ejemplo, las FANG, Microsoft y Tesla.

Si aceptas una diferencia estadísticamente significativa entre estos grupos, ponerte a pensar en la diferencia entre los cereales y los metales industriales es, de hecho, una tontería. tu PCA podría estar sugiriendo una diferencia entre la "vieja economía" (incluyendo todas las materias primas) y la tecnología de la "nueva economía".

Así que la naturaleza del problema no está clara para mí... la beta de Ags podría ser, en efecto, muy diferente a la beta de Cobre y Mineral de Hierro. pero esa es una distinción que tal vez PC3, 4 o 5 saque, una vez que haya separado los recursos de la Tecnología (y las Finanzas, el Consumidor, etc.).

Sí, ambos son eigen-plays. Como tales, deberían llegar a soluciones idénticas, quizá por caminos diferentes. Pero la descomposición subyacente de los rendimientos es el mismo proceso. La "diferencia" clave que puedo ver es que el ACP tiene que separar a los que no son comunicaciones antes de empezar a preocuparse por la diferencia entre los distintos tipos de comunicaciones.

Es muy posible que no haya entendido nada de esto. Lo siento si es así.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X