No trabajo en finanzas, pero me he topado con un problema con el que quizá tengáis que lidiar en vuestros trabajos.
Mi problema es una caminata aleatoria en espacios de alta dimensionalidad ( > 100), en la que estoy buscando vectores que exploren una porción limitada de ese hiperespacio. Un evento es etiquetado a posteriori, sin indicaciones que permitan atribuir dicho evento a un subconjunto de los componentes del vector.
El examen de un conjunto de eventos raros muestra que "algunos" componentes del vector se desvían ligeramente de una distribución normal (pico central más alto, picos laterales), y/o que su distribución ha cambiado de forma. Pero es extremadamente difícil sacar un factor dominante, y mucho menos encontrar un subconjunto de componentes que permita limitar el alcance de la investigación, o incluso crear una huella digital del evento.
En pocas palabras: dada una distribución normal multivariante, ¿qué algoritmo, o enfoque de investigación, recomendaría para clasificar (en el futuro) los sucesos raros (digamos la ocurrencia de 1/10), siempre que se tenga un historial de todos los sucesos anteriores, y en ese historial, todos los sucesos raros estén etiquetados.
En su día a día, estos raros acontecimientos podrían ser los que preceden o indican una inminente caída de las comillas.
Nota:
-
Se probaron los modelos KMeans, Random Forest y Bayes, pero no permitieron realizar ningún avance.
-
El supuesto es que la distribución es normal multivariable. Parece que lo es, todos los componentes del vector tienen una distribución gaussiana y no están correlacionados. Sin embargo, cuando se producen eventos raros, algunos vectores se desvían de la gaussiana.
EDIT: Mi pregunta no tuvo mucho éxito, así que intentaré reformularla de otra manera. Digamos que hay una mesa de operaciones, con 1000 brokers, y su funcionamiento se aproxima bien utilizando una distribución normal multivariante. En esa mesa, hay 5 brokers que además de su operativa normal, deciden hacer algo más:
-
cada tipo elige un número al azar, p, si p <= p0, coloca un orden diferente, siguiendo una distribución normal diferente a la que tiene normalmente. Si p > p0, utiliza la distribución originalmente asignada.
-
Alguien del departamento de riesgos clasifica cada lote de 100 órdenes procedentes de la mesa de operaciones, utilizando un algoritmo propio.
Si p0 es pequeño (por lo demás, es fácil), ¿cómo detectarías quiénes son los 5 pícaros, y cómo identificarías las órdenes anormales, si tuvieras todas las series temporales de las órdenes de la mesa de contratación, etiquetadas como órdenes buenas o sospechosas?