Recibí esta pregunta durante una entrevista in situ para un trabajo de quant y todavía me estoy rascando la cabeza sobre cómo resolver este problema. Cualquier ayuda será apreciada.
El Sr. Quant cree que existe una relación lineal entre los rendimientos intradía pasados y futuros. Así que le gustaría poner a prueba esta idea. Por comodidad, decidió parametrizar el rendimiento en su conjunto de datos utilizando una cuadrícula temporal regular dt donde $d=0, …, D-1$ etiquetas fecha y $t=0, …, T-1$ período intradiario. Por ejemplo, si dividimos el día en intervalos de 10 minutos, entonces $T = 1440 / 10$ . Su modelo escrito en esta cuadrícula temporal tiene la siguiente forma:
$y_{d,t}$ $=$ $\beta_t$ * $x_{d,t}$ + $\epsilon_{d,t}$
donde $y_{d,t}$ es un rendimiento en el intervalo de tiempo $(t,t+1)$ y $x_{d,t}$ es un rendimiento sobre el intervalo de tiempo anterior, $(t–1,t)$ en un día determinado $d$ . En otras palabras, cree que la rentabilidad anterior de 10 minutos predice la rentabilidad futura de 10 minutos, pero el coeficiente entre ambas puede cambiar intradía.
Por supuesto, para encajar $\beta_t$ puede utilizar $T$ regresiones por mínimos cuadrados ordinarios, una para cada " $t$ ", pero:
(a) su conjunto de datos es bastante pequeño $D$ =300, $T$ =100;
(b) cree que la señal es muy pequeña, como mucho tiene una correlación con el objetivo del 5%.
Espera que algún método de aprendizaje automático que pueda combinar regresiones de tiempos intradía cercanos pueda ayudar.
¿Cómo resolvería este problema? Los datos proporcionados son un $x$ matriz de predictores de tamaño $300\times100$ y un $y$ matriz de objetivos de tamaño $300\times100$ .
0 votos
Interesante pregunta: ¿se podría utilizar látex?
0 votos
Encuentro tu notación un poco confusa. D representa la fecha, T representa el tiempo intradiario. El (dt, dt + 1) y (dt-1, dt) son un poco confuso. Tal vez sería mejor poner toda esa explicación en Latex como la fórmula. De todas formas, no estoy seguro de ninguna técnica de "machine learning", pero te recomendaría un modelo de efectos mixtos (ver lme4 para R) que te permita agrupar las fechas.
0 votos
Entiendo el hecho de que para cada $t \in [0,1,2,...,T-1]$ , $\beta_t$ puede estimarse utilizando la ecuación normal ( mathworld.wolfram.com/EcuaciónNormal.html ): $\beta_t = (x_t^Tx_t)^{-1}x_t^Ty_t$ donde $x_t$ y $y_t$ son vectores columna de tamaño $D$ . Sin embargo, no veo cómo ajustar cualquier tipo de modelo lineal tendría sentido teniendo en cuenta que la correlación entre $x_t$ y $y_t$ es por término medio igual a 0,05 (muy bajo).
0 votos
@cogolesgas No me extrañaría que fuera muy bajo. No obstante, podría ser o no una relación estadísticamente significativa. Además, también podrían hacer pruebas aplicando la ecuación a cientos de valores y ver si tiene sentido intentar operar con ella.
1 votos
Se trata de un problema de modelo multinivel, para el que podría resultar útil un enfoque bayesiano. La idea se reduce a suponer que los distintos coeficientes $\beta_t$ se extraen de la misma distribución. Esto permite la variabilidad entre los $\beta_t$ 's, pero no trata las diferentes $t$ como completamente independientes.
0 votos
Creo que la utilización de un coeficiente de información móvil (es decir, la correlación de Spearman entre el período anterior y el actual) puede ser útil.