Estoy ejecutando un PCA en un conjunto de rendimientos y me gustaría agrupar los resultados de la salida para agrupar las acciones que tienen exposiciones similares a los factores.
Sin embargo, cuando ejecuto el PCA sobre la covarianza de los retornos, la puntuación del PCA (valores mapeados a un nuevo plano de PCs) me da una matriz con fechas y los componentes principales, para clusterizar en esto se clusterizaría en la fecha por lo tanto.
Puedo agrupar los coeficientes de los factores para cada acción, pero he descubierto que esto ignora la varianza. En el caso de PC1, por ejemplo, la varianza de las cargas es muy baja comparada con la de PC2 y, por lo tanto, cuando se agrupa utilizando las cargas, simplemente se agrupa utilizando principalmente PC2, lo que me parece intrínsecamente incorrecto.
¿O sigue siendo esto correcto y podemos suponer que, como la mayoría de las acciones se cargan de forma similar a la PC1, la agrupación no puede determinar mucho de esa PC de todos modos?
Me preocupa que esté perdiendo parte de la información de la varianza aquí, ya que PC1 explica el 55% de la varianza en comparación con PC2 con un 18%.