Dos razones principales para el submuestreo o el uso de un espacio de eventos diferente son (i) la trazabilidad computacional o espacial y (ii) la extracción de la señal.
La respuesta de Sergei parece centrarse en la primera cuestión, y yo me centraré más en la segunda. Los dos objetivos pueden ser divergentes. Por ejemplo, las opciones y los datos OTC pueden presentar ratios de operaciones a órdenes superiores a 1:10.000, por lo que tomar el espacio de las operaciones será muy eficiente para reducir las necesidades de almacenamiento, pero inapropiado para la modelización.
Los métodos típicos utilizados por los profesionales del comercio incluyen:
- Espacio de comercio (tick). Tome una instantánea del libro cuando se produzca una operación.
- Espacio de cambio en la parte superior del libro. Tome una instantánea del libro cuando se produzca un cambio en la parte superior del mismo.
- Espacio de subida/bajada. Tome una instantánea del libro cuando el precio suba o baje.
- % cubos ADV. Predecir el volumen y, a continuación, encajar el libro en un intervalo uniforme en % de volumen diario.
- Formación de niveles o espacio de agotamiento. Tome una instantánea del libro cada vez que se forme un nuevo nivel de precios dentro del mercado o se agote un nivel.
- Espacio de tiempo. Por ejemplo, tomar una instantánea del libro cada segundo, minuto, etc.
Por el contrario, hay un mérito en los espacios de tiempo y volumen, y es que los grandes participantes suelen utilizarlos, por lo que los eventos en el espacio de tiempo y volumen se vuelven informativos:
- Los corredores de ejecución y los grandes fondos cuánticos suelen utilizar cubos de % ADV para la optimización de múltiples horizontes. Esto se debe probablemente en parte a la trazabilidad computacional, ya que incluso los optimizadores de ejecución más rápidos pueden tardar varios segundos en calcular toda la trayectoria de pesos. Pero, sin embargo, crea un efecto de autocumplimiento en el que el % ADV se convierte en algo importante para todos los demás).
- También hay grandes equipos en las principales empresas de creación de mercados que utilizan datos de frecuencia de minutos, especialmente en la renta variable al contado, a pesar del acceso a los datos del libro de órdenes, porque muchos conjuntos de datos utilizados en sus modelos sólo están disponibles históricamente en el espacio temporal submuestreado.
- Esto es trivialmente evidente cuando se modela la actividad del libro de órdenes en la apertura del mercado o en el FOMC. Los grandes participantes de la macroeconomía no operan necesariamente en esos momentos en respuesta al primer evento comercial o del libro después de las 9.30 de la mañana o de las 2.30 de la tarde del este, suelen comerciar en el punto a las 9.30 horas o a las 14.30 horas.
Hay variaciones de estos métodos que se pueden parametrizar. Por ejemplo:
- ¿Se restablece el residuo? Si está utilizando un espacio de volumen de 500 y llega un agresor por 600, ¿vuelve a tomar una instantánea cuando llega una operación por 400?
- ¿Se tira de la cadena varias veces? Si está utilizando un espacio de movimiento de 1 tic, y una compra entra para despejar 3 niveles de ofertas. ¿Imprime el evento tres veces consecutivas con la misma marca de tiempo?
- ¿Cuál es el instrumento de referencia? Si está construyendo una matriz de diseño transversal con dos instrumentos A y B, ¿imprime los eventos cuando hay cambios en A, B o A+B?
- ¿Conserva algún recuerdo? Por ejemplo, las operaciones en el espacio de ticks de un instrumento FIFO tienden a estar altamente autocorrelacionadas en sus signos. Por otro lado, las operaciones en el espacio de ticks de un instrumento de prorrateo muestran menos autocorrelación porque los participantes pueden tachar su sobrecarga. Por lo tanto, tal vez se podría regular hacia arriba/hacia abajo el número de eventos a imprimir en las operaciones con signos repetidos.
- ¿Cuánto se submuestra? Creo que la gente suele utilizar el término submuestreo cuando en realidad quieren decir espacio . Por ejemplo, en lugar de imprimir cada 1 operación, puede imprimir cada 10 operaciones.
El principio para determinar la frecuencia de muestreo óptima es el clásico equilibrio entre el sesgo y la varianza, y se pueden encontrar ejemplos en la literatura de procesamiento de señales y de eliminación de ruido. La forma práctica de manejar esto es simplemente utilizar unos pocos que usted tiene fuertes priores alrededor (es decir, que ha utilizado en una empresa de comercio anterior) y sólo cruzar la validación de su modelo en los datos fuera de la muestra.