4 votos

Es más robusto Covarianza estimación posible?

Estoy trabajando en una media-varianza problema de optimización, pero en lugar de títulos financieros que estoy eligiendo un 'portfolio' de N de los atletas. Es una 1-período problema de optimización más de un genérico de estadística de la que voy a llamar a performance aquí. Estoy asumiendo athlete_performance es un N longitud del vector aleatorio distribuido como multivariante-normal:

athlete_performance $\sim MVN(\mu \Sigma)$

Donde $\mu$ es el vector 1xN de los medios (o rendimiento esperado)

y donde $\Sigma$ es una matriz de NxN con la variación en la diagonal ( $\Sigma[i,i]$ = $Var(i)$ ) y la covarianza de la diagonal ( $\Sigma[i,j]$ = $Cov(i,j)$ ).

Mi pregunta es acerca de las opciones disponibles para la estimación de la covarianza (fuera de la diagonal) parte de la matriz.

Mi preocupación principal es la predictibilidad de mi matriz de covarianza. Si yo estuviera trabajando con valores que habían sido mencionados juntos por 10 años, luego de muestra "covarianza" puede ser predictivo de futuros covarianza, pero en el deporte no es tan simple.

Imagina que un mariscal de campo y un receptor abierto en el Fútbol Americano. Cómo bien su rendimiento se correlaciona depende de la calidad de la defensiva contra el pase que están jugando a la contra. O en las carreras de F1, si el conductor a y B son ambas fuerte en la recta pistas, pero sólo conductor B es fuerte en apretado acorralado pistas, sus actuaciones se correlacionan de manera muy diferente en función de si la pista es recta o en zig-zag-ing.

Soy consciente de la "muestra de covarianza", que en mi caso sería en el histórico superposición entre los dos atletas. También estoy consciente de "encogido covarianza". Me preguntaba si hay más métodos robustos para el cálculo de la covarianza que iba a ser más predictivo de futuros covarianza, posiblemente con algún tipo de regresión o MCMC.

Gracias por leer la pregunta y por tu tiempo!

2voto

Arlene Serrano Puntos 6

Cuantil de regresión se considera un sólido procedimiento, pero carece de la cualidad de ser plenamente diferenciables. También hay regularización de los modelos de regresión como la regresión ridge, lazo de regresión y de red elástica de regresión que, implícitamente, considere la posibilidad de la covarianza de los datos como de la OPERACIÓN, pero, además, reducir la volatilidad en las estimaciones a través de la introducción de sesgo. Estos pueden tener en cuenta para la correlación entre las series de tiempo como lo desee, y se han demostrado para superar OLS. Ridge regresión afecta específicamente a la diagonal de la matriz de covarianza para ello.

Este sesgo de la varianza de trade-off, típico en la máquina de tareas de aprendizaje, tiene un efecto similar al de la covarianza de la contracción, siendo el mejor ejemplo la Ledoit-Lobo estimador de la covarianza que las estimaciones de los elementos de la diagonal de la matriz de covarianza de manera diferente que la muestra estimador de la covarianza como lo desea. De lo contrario, usted podría mirar en autovalor técnicas.

2voto

KhaaL Puntos 66

Como una adición a la ya rica respuestas, le sugiero que lea el siguiente artículo por Marcos L. De Prado en el cálculo de la prospectiva de Matrices de Correlación.

Estimación de la Teoría Implícita Matrices de Correlación

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3484152

2voto

Kyle Cronin Puntos 554

El Ledoit-Lobo estimación citado por @develarist puede ser muy bueno, pero como dices que ya se sabía acerca de "reducción". Se toma la población de las correlaciones observadas como un eficaz Bayesiano antes de cualquier correlación, por lo que es una especie de que inherentemente se supone que todos los pares son similares, con un poco de sentido. No iba a funcionar bien, digamos, con los conocidos juegos de bloques de muy correlacionadas con las variables de intoxicación por el conjunto de la muestra.

Si quieres algo de a pares, por ejemplo para las variables $x$ y $y$, y por lo tanto insensibles a la población, de considerar las ideas de Gnanadesikan y Kettenring. Digamos que usted tiene una ubicación (promedio) estimador de $\mu(\cdot)$ y una escala (variabilidad) estimador de $\sigma(\cdot)$.

Si $\sigma$ fueron desviación estándar, entonces usted podría escribir la varianza como

$$ \mathrm{Cov}(x,y) = \frac14\left( \sigma^2\left(\frac{x}{\sigma(x)}+\frac{y}{\sigma(y)}\right)- \sigma^2\left(\frac{x}{\sigma(x)}-\frac{y}{\sigma(y)}\right) \derecho) $$

(En realidad no necesita el $\mu()$.)

Por lo tanto, Si usted sustituye algún robusto escala estimador $s(\cdot)$ para $\sigma(\cdot)$, usted termina con una sólida pares de covarianza de las estimaciones.

Si usted necesita un positivo semidefinite de la matriz de estos, usted tendrá que aplicar más de postproceso por la proyección ortogonal o la Higham algoritmos.

Para más información, consulte la rrcov R paquete de documentación, o en este stats.se respuesta: robusto-covarianza y ogk-las demás-de detección.

1voto

akalenuk Puntos 1738

En realidad he considerado el problema en el que está trabajando, aunque configurado de forma algo diferente.

No se que va a ser una respuesta universal a su pregunta. Véase, en particular,

Holanda, Paul W. Covarianza De Estabilización De Las Transformaciones. Ann. Estatismo. 1 (1973), no. 1, 84--92.

Sin embargo, hay respuestas, algunas ya mencionadas. Yo diría que el propósito de la estimación debe desempeñar un papel en la respuesta. Por ejemplo, si usted trabajó por los Rojos de Cincinnati, entonces la única teoría válida la respuesta sería el uso de un método Bayesiano porque Frecuentista métodos no son coherentes. Que llevaría a la cuestión de la pérdida de las funciones y es un método generativo y no un método de muestreo. La preocupación sería cómo los datos se generaron y no el muestreo de las propiedades del estimador, que es realmente lo que usted está preguntando acerca de aquí.

Por otro lado, si su preocupación eran puramente académico, hay una ventaja sustancial a Frecuentista métodos, a pesar de la grave pérdida de fidelidad a la naturaleza en el cambio de precisión a través de la pérdida de precisión.

Una desventaja de utilizar este método, sin embargo, es que también sería un reto para el modelo de equilibrio competitivo por teniendo en cuenta los jugadores que se disputarán en contra de otro grupo de jugadores.

Creo que debo mencionar un poco sobre la diferencia de cómo los métodos robustos frente a menos robusto que los métodos de diferencia en el Frecuentista y Bayesiana de la perspectiva.

En el Frecuentista caso, la robustez es a menudo visto como un método que es bueno para los supuestos más débiles. La desventaja es que el poder de predicción de las caídas en el caso de que una herramienta más eficiente disponible. Donde los supuestos que se mantenga, de mínimos cuadrados ordinarios proporcionará la mejor predicción posible. Cuando las hipótesis se convierten violado suficiente, un método como Theil de la regresión se convierte en el estimador más eficiente en términos de predicción.

En el Bayesiano lado, el equilibrio entre la precisión y la exactitud se realiza automáticamente por la propia fórmula. Bayesiano de modelos son ex-post óptimo de los modelos. Si usted construir frágil Bayesiano de modelos, entonces usted va a obtener de forma óptima construido, la fragilidad de los modelos. La robustez es creado combinatorically por considerar muchos modelos alternativos, posiblemente bajo diferentes supuestos de distribución.

En el Frecuentista lado, existe un equilibrio que debe hacer. ¿Quieres robusto peritos o peritos que son altamente predictivos?

El equilibrio en el Bayesiano lado se crea por la parte posterior de la distribución predictiva. Es la distribución de las predicciones que se puede esperar para ver, después de haber visto los datos. Hay todo un campo en el mundo académico sobre la calificación de las predicciones. La desventaja es en el trabajo realizado. Se necesita un montón de trabajo de cálculo de producir predicciones de muchos. Una vez hecho esto, se requiere de una enorme cantidad de trabajo para poner a prueba la puntuación de cada modelo de predicción.

Un Frecuentista solución puede salirse en 2/10ths de un segundo y requieren trivial de codificación. Una solución Bayesiana puede ejecutar varios días antes de llegar a una solución y puede requerir días de trabajo de codificación si su modelo no es trivial.

Una última nota, supongamos que $\Sigma_t\ne\Sigma_{t+1},\forall{t}$. En ese caso, su idea de que un estimador de la covarianza predice un futuro estimador de la covarianza en realidad no significa mucho, porque los estimadores son la estimación de la actual matriz de covarianza a menos que construir un modelo de regresión para predecir el futuro de la serie de tiempo.

1voto

Lie Ryan Puntos 15629

Esto no es una respuesta completa, más una perspectiva diferente a las respuestas ya dadas. Si tienes algo de un conocimiento a priori sobre la estructura de covarianza y sobre los factores que influyen en ella, usted debe tratar de reflejar esto en su modelo estadístico. Tres ideas:

  • Dividir la muestra en subpoblaciones con idénticos valores del factor y de la estimación por separado. En su ejemplo, con las pistas de carrera: Distinguir entre el rendimiento de correlación en la recta y zig-zaggy pistas.
  • Configurar una baja dimensionalidad modelo paramétrico de la matriz de covarianza y la regresión de los parámetros de la matriz de los factores.
  • Introducir variables adicionales para reflejar la dependencia directamente. Como un ejemplo, en el caso $N=2$ en lugar de la estimación de $Cov(X,Y)$ definir "pura" de las variables de rendimiento de $\tilde{X}$ y $\tilde{Y}$ que están correlacionadas y una variable común a$Z$ tales que $X=(1-\beta_X)\tilde{X} + \beta_XZ$ y $Y=(1-\beta_Y)\tilde{Y} + \beta_YZ$. Ahora estimación de los dos coeficientes beta.

Estos son sólo algunos ejemplos de mi cabeza de lo que podría hacerse. Sin duda hay muchos más (como Bayesiano métodos).

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X