3 votos

Eventos raros en distribuciones normales multivariantes

No trabajo en finanzas, pero me he topado con un problema con el que quizá tengáis que lidiar en vuestros trabajos.

Mi problema es una caminata aleatoria en espacios de alta dimensionalidad ( > 100), en la que estoy buscando vectores que exploren una porción limitada de ese hiperespacio. Un evento es etiquetado a posteriori, sin indicaciones que permitan atribuir dicho evento a un subconjunto de los componentes del vector.

El examen de un conjunto de eventos raros muestra que "algunos" componentes del vector se desvían ligeramente de una distribución normal (pico central más alto, picos laterales), y/o que su distribución ha cambiado de forma. Pero es extremadamente difícil sacar un factor dominante, y mucho menos encontrar un subconjunto de componentes que permita limitar el alcance de la investigación, o incluso crear una huella digital del evento.

En pocas palabras: dada una distribución normal multivariante, ¿qué algoritmo, o enfoque de investigación, recomendaría para clasificar (en el futuro) los sucesos raros (digamos la ocurrencia de 1/10), siempre que se tenga un historial de todos los sucesos anteriores, y en ese historial, todos los sucesos raros estén etiquetados.

En su día a día, estos raros acontecimientos podrían ser los que preceden o indican una inminente caída de las comillas.

Nota:

  • Se probaron los modelos KMeans, Random Forest y Bayes, pero no permitieron realizar ningún avance.

  • El supuesto es que la distribución es normal multivariable. Parece que lo es, todos los componentes del vector tienen una distribución gaussiana y no están correlacionados. Sin embargo, cuando se producen eventos raros, algunos vectores se desvían de la gaussiana.

EDIT: Mi pregunta no tuvo mucho éxito, así que intentaré reformularla de otra manera. Digamos que hay una mesa de operaciones, con 1000 brokers, y su funcionamiento se aproxima bien utilizando una distribución normal multivariante. En esa mesa, hay 5 brokers que además de su operativa normal, deciden hacer algo más:

  • cada tipo elige un número al azar, p, si p <= p0, coloca un orden diferente, siguiendo una distribución normal diferente a la que tiene normalmente. Si p > p0, utiliza la distribución originalmente asignada.

  • Alguien del departamento de riesgos clasifica cada lote de 100 órdenes procedentes de la mesa de operaciones, utilizando un algoritmo propio.

Si p0 es pequeño (por lo demás, es fácil), ¿cómo detectarías quiénes son los 5 pícaros, y cómo identificarías las órdenes anormales, si tuvieras todas las series temporales de las órdenes de la mesa de contratación, etiquetadas como órdenes buenas o sospechosas?

2voto

Jim Clay Puntos 113

Si te sientes cómodo haciendo la suposición de normalidad multivariante (no estoy seguro de que lo estés), entonces esto parece un lugar perfecto para utilizar la distancia de Mahalanobis.

Uno de los primeros hechos que aprenden los estudiantes de estadística es la "regla empírica": que $\sim 68\%$ de la densidad está dentro de una desviación estándar de la media y $\sim 95\%$ de la densidad está dentro de dos desviaciones estándar de la media.

En altas dimensiones, se complica más, pero podemos hacer algo parecido. En lugar de medir cuántas desviaciones estándar tenemos de la media, medimos cuántas unidades de distancia de Mahalanobis tenemos de la media. En cierto sentido, la desviación estándar es el caso especial univariante de la distancia de Mahalanobis.

Para bien o para mal, el número de unidades de distancia de Mahalanobis que contienen una proporción de la densidad depende de la dimensión $d$ . Podemos calcular el número exacto a partir de los cuantiles de un $\chi^2_d$ distribución y luego tomar root cuadrada.

Si quiere contener la central $95\%$ en una dimensión, encontrar el $0.95$ cuantil de $\chi^2_1$ y sacar root cuadrada. En el software R:

sqrt(qchisq(0.95, 1)) # I get the expected ~1.96

Usted mencionó que los eventos raros para sus propósitos ocurren $1$ de $10$ veces. Si quiere saber a cuántas unidades de distancia de Mahalanobis tiene que estar para que se produzca un evento tan raro, determine su dimensión, d, y consulte un $\chi^2_d$ distribución:

sqrt(qchisq(0.9, d))

Al igual que con la regla empírica univariante, esto puede fallar estrepitosamente cuando se viola el supuesto gaussiano (multivariante, no sólo marginal), así que tenga cuidado, y no deje que una interpretación errónea común del teorema del límite central le hace pensar que un tamaño de muestra grande le salva.

Distancia de Mahalanobis

$$D_{M}({\vec {x}})={\sqrt {({\vec {x}}-{\vec {\mu }})^{\mathsf {T}}\mathbf {S} ^{-1}({\vec {x}}-{\vec {\mu }})}}$$

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X