14 votos

La equidad Modelo de Riesgo de Uso de PCA

Estoy tratando de construir un sencillo modelo de riesgo para las poblaciones de uso de PCA. Me he dado cuenta de que cuando mis dimensiones son mayores que el número de observaciones (por ejemplo 1000 acciones, pero sólo 250 días de devolución), y el resultado es transformado regreso de la serie (devuelve girado por vectores propios o factor de devoluciones) tiene correlación no nula.

Intuitivamente, puedo ver por qué esto podría ser, ya que en el proceso de pca estoy en la estimación de una 1000x1000 matriz de covarianza de 250x1000 observaciones. Así es como un sistema subdeterminado. Pero no estoy exactamente seguro de lo que está pasando. Puede alguien explicar lo que está sucediendo?

También, para el modelo de riesgo de los efectos, es mejor asumir una diagonal de la matriz de covarianza o utilizar el ejemplo de la covarianza de los factores?

Aquí hay algunas código de matlab para demostrar el problema:

% More observation than dimensions
Nstock = 10;
Nobs = 11;
obs = randn(Nobs, Nstock);
rot = princomp(obs);
rotobs = obs * rot;
corr(rotobs) % off diagonals are all zero

% More dimensions that observations
Nstock = 10;
Nobs = 9;
obs = randn(Nobs, Nstock);
rot = princomp(obs);
rotobs = obs * rot;
corr(rotobs) % some off diagonals are non-zero

8voto

penti Puntos 93

Alrededor de hace un año vi una presentación por Attilio Meucci en Londres. El giro de su trabajo es un poco diferente en comparación con la suya, pero el enfoque general es similar y hay mucho que aprender de su documento de acompañamiento:

http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1358533

Aquí también está el uso de PCA para la reducción de dimensionalidad la construcción de lo que él llama las principales carteras. Él también comparte plenamente documentado código en MATLAB.

4voto

mendicant Puntos 489

Respecto a la segunda parte de su pregunta - está ejecutando en el clásico N>T problema (N=# de activos; T=# de observaciones). Por lo tanto el número de parámetros debe estimar crece con cada N, pero sólo aritméticamente para cada día de la observación. Porque son la estimación de la diagonal de la porción de la matriz de covarianza se debe estimar N*(N+1)/2 entradas con sólo T observaciones.

Un mejor enfoque implicaría una contracción estimador de donde usted asume constante de correlación o constante de la covarianza entre los títulos. El rendimiento de ejemplo de este enfoque es fuerte. Considere la posibilidad de la combinación de una matriz de covarianza entre la diagonal y la matriz de covarianza de la muestra - Ver Ledoit y el Lobo de papel: "Cariño he encogido la matriz de covarianza".

2voto

Akash Puntos 8

Creo que no se necesita tener un N>P problema aquí. Su único problema con 1000 acciones y 250 diarios devuelve sería tratar de sacar >250 factores de riesgo frente a la clásica 1-3 factores de riesgo. Si su PC1, PC2 y PC3 tienen correlación no nula, entonces que sugiere un problema con la metodología y la aplicación más que con el PCA.

[Me he pasado la última década se ejecuta un 65d=3m PCA en 50 mercados a nivel mundial, y visto muchos datos weirdnesses. Pero ninguna de las sirenas ;-) Y nunca se encontró una correlación no nula problema en los primeros 5 PCs].

Si usted dice que sólo se veía en la PC1, entonces usted está simplemente en la medición de las 1000 acciones' beta durante el último año. Eso es perfectamente kosher. Mira PC2; y obtendrá algún tipo de tecnología-vs-los productos o extranjeros-vs-doméstica FX-exposición métrica (dependiendo de su elección de la muestra). Esto también sería perfectamente kosher, dada su muestra.

Es imposible responder a su pregunta de seguimiento sin saber más. Estás PCA ing correlaciones o covarianzas? Supongo que la última, que probablemente no es un problema si sus entradas son todas las poblaciones de más o menos similar volatilidad de los perfiles. Así que, si tu stock de cargas para cada uno de los PC son los vectores propios, su factor de riesgo vol debe ser aproximadamente proporcional a los valores propios (pero no tan perfectamente)?

En verdad, realmente no importa: usted tiene que hacer una elección. Usted puede tener un volátiles PC1 con la disminución de la volatilidad para cada una de las PC, pero con stock estable betas a estos. O usted puede normalizar cada PC y, a continuación, la regresión de cada una de las acciones en contra de estos por el impacto en el precio de cada PC. Matemáticamente, no hay ninguna diferencia entre los dos. Se ven presentationally muy diferentes, incluso si ambos terminan con las mismas respuestas (por el riesgo de la exposición).

La costumbre de la regla de oro: que es más intuitivo para el jefe/cliente ;-)

0voto

gust1n Puntos 33

La PCA es generalmente un buen método cuando se tiene un gran número de activos de $N$ (y en ese caso, rara vez tienen una consecuencia larga mirada-ventana trasera $T$). Mientras que la aplicación de PCA para obtener el capital de riesgo de modelo, usted puede tomar nota de varios puntos (los dos primeros probablemente proporcionan la solución a su problema):

1. Maldición de la dimensionalidad

La covarianza/correlación estimados de $N$ de la serie de tiempo de longitud $T<N$ tiene rango de $T$. Cuando se utiliza $K=$ N de componentes principales, el último $N T$ autovalores será cero y no se puede confiar en ellos ya que los vectores propios asociados con ellos son sólo ruido. Si usted llega, usted verá que los autovalores asociados con la correlación vectores propios será de cero (o casi cero hasta un error numérico).

2. Big data bendición

El número de componentes principales $K$ que deseas es mantener casi siempre mucho menor que el número de activos $N$, a menos que tenga muy pocos relativamente bien diversificada de activos (por ejemplo, ver Lohre et al. 2014 y la descomposición en la Tabla II). Por lo general, sólo se hará uso de la $K$ vectores propios que corresponden a los $K$ más altos valores propios (varianzas explicadas) de la covarianza/matriz de correlación. Esto también va a resolver su "maldición de la dimensionalidad" problema, ya que la PCA es conocido por ser un estimador consistente de la real factores subyacentes para grandes $N$ (conocido como el "big data bendición" - ver Bai et al. 2017).

3. La sensibilidad de la PCA a variaciones individuales

Por último, también debe comprobar si el método estandariza los datos principales componentes son sensibles a las variaciones individuales, especialmente si algunos de los activos que tienen mayor volatilidad que otros. Puede que no tenga este problema ahora, pero si usted planea usar el PCA como base para el capital de riesgo de modelo, verificación individual de los activos de las volatilidades y ver si una versión estandarizada (es decir, eigendecomposition de la correlación en lugar de una matriz de covarianza) puede funcionar mejor.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X