1 votos

PCA y K-means clustering en los rendimientos

Estoy ejecutando un PCA en un conjunto de rendimientos y me gustaría agrupar los resultados de la salida para agrupar las acciones que tienen exposiciones similares a los factores.

Sin embargo, cuando ejecuto el PCA sobre la covarianza de los retornos, la puntuación del PCA (valores mapeados a un nuevo plano de PCs) me da una matriz con fechas y los componentes principales, para clusterizar en esto se clusterizaría en la fecha por lo tanto.

Puedo agrupar los coeficientes de los factores para cada acción, pero he descubierto que esto ignora la varianza. En el caso de PC1, por ejemplo, la varianza de las cargas es muy baja comparada con la de PC2 y, por lo tanto, cuando se agrupa utilizando las cargas, simplemente se agrupa utilizando principalmente PC2, lo que me parece intrínsecamente incorrecto.

¿O sigue siendo esto correcto y podemos suponer que, como la mayoría de las acciones se cargan de forma similar a la PC1, la agrupación no puede determinar mucho de esa PC de todos modos?

Me preocupa que esté perdiendo parte de la información de la varianza aquí, ya que PC1 explica el 55% de la varianza en comparación con PC2 con un 18%.

3voto

Akash Puntos 8

Un problema clásico, he estado allí, he hecho eso, no compré la camiseta ;-)

El PCA y el clustering (K-means, o jerárquico) son similares pero diferentes. Ambos son métodos de "aprendizaje no supervisado", pero uno es esencialmente descriptivo, mientras que el otro es esencialmente pragmático y conveniente. La gente quiere ambos, pero debe priorizar uno de ellos.

Su fenómeno PC1/PC2 realmente tiene mucho sentido para las acciones. PC1 es la beta; y las cargas de los factores aquí serán, de hecho, ajustadas - la mayoría de las acciones a largo plazo tienen betas entre ~0,8 y ~1,25. Imagínese, para simplificar, que su índice de referencia estuviera dominado por los bancos nacionales y las petroleras exportadoras... Su PC2 extranjero/doméstico/FX/dólar generaría, en efecto, un conjunto de cargas mucho más amplio, aunque este efecto fuera mucho menos significativo en escala que la beta básica (usted 18% frente al 55% del punto de varianza). Y la agrupación de sus valores entre sus domésticos/bancos frente a sus exportadores/productos básicos tendría, para mí, mucho sentido intuitivo.

La advertencia es que hay que sentirse cómodo con el hecho de que PC1 es, de hecho, sólo una beta básica, y que la beta es sólo un factor que todos los valores comparten en común, en lugar de algo que realmente los diferencie.

Si no pasa esa prueba, es posible que tenga que ensuciarse las manos con la agrupación jerárquica. El método bottom-up fusiona los valores (o grupos de valores) más similares. Así que comienza con la fácil fusión de sus petroleros, sus mineros, su tecnología, bancos, industriales, etc. Hasta que tenga que empezar a fusionar industrias. Pero obtendrá una agrupación estructurada de valores similares, con transparencia sobre cómo ha llegado hasta ahí.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X