17 votos

Modelo de regresión cuando las muestras son pequeñas y no están correlacionadas

Recibí esta pregunta durante una entrevista in situ para un trabajo de quant y todavía me estoy rascando la cabeza sobre cómo resolver este problema. Cualquier ayuda será apreciada.


El Sr. Quant cree que existe una relación lineal entre los rendimientos intradía pasados y futuros. Así que le gustaría poner a prueba esta idea. Por comodidad, decidió parametrizar el rendimiento en su conjunto de datos utilizando una cuadrícula temporal regular dt donde $d=0, …, D-1$ etiquetas fecha y $t=0, …, T-1$ período intradiario. Por ejemplo, si dividimos el día en intervalos de 10 minutos, entonces $T = 1440 / 10$ . Su modelo escrito en esta cuadrícula temporal tiene la siguiente forma:

$y_{d,t}$ $=$ $\beta_t$ * $x_{d,t}$ + $\epsilon_{d,t}$

donde $y_{d,t}$ es un rendimiento en el intervalo de tiempo $(t,t+1)$ y $x_{d,t}$ es un rendimiento sobre el intervalo de tiempo anterior, $(t–1,t)$ en un día determinado $d$ . En otras palabras, cree que la rentabilidad anterior de 10 minutos predice la rentabilidad futura de 10 minutos, pero el coeficiente entre ambas puede cambiar intradía.

Por supuesto, para encajar $\beta_t$ puede utilizar $T$ regresiones por mínimos cuadrados ordinarios, una para cada " $t$ ", pero:

(a) su conjunto de datos es bastante pequeño $D$ =300, $T$ =100;

(b) cree que la señal es muy pequeña, como mucho tiene una correlación con el objetivo del 5%.

Espera que algún método de aprendizaje automático que pueda combinar regresiones de tiempos intradía cercanos pueda ayudar.

¿Cómo resolvería este problema? Los datos proporcionados son un $x$ matriz de predictores de tamaño $300\times100$ y un $y$ matriz de objetivos de tamaño $300\times100$ .

0 votos

Interesante pregunta: ¿se podría utilizar látex?

0 votos

Encuentro tu notación un poco confusa. D representa la fecha, T representa el tiempo intradiario. El (dt, dt + 1) y (dt-1, dt) son un poco confuso. Tal vez sería mejor poner toda esa explicación en Latex como la fórmula. De todas formas, no estoy seguro de ninguna técnica de "machine learning", pero te recomendaría un modelo de efectos mixtos (ver lme4 para R) que te permita agrupar las fechas.

0 votos

Entiendo el hecho de que para cada $t \in [0,1,2,...,T-1]$ , $\beta_t$ puede estimarse utilizando la ecuación normal ( mathworld.wolfram.com/EcuaciónNormal.html ): $\beta_t = (x_t^Tx_t)^{-1}x_t^Ty_t$ donde $x_t$ y $y_t$ son vectores columna de tamaño $D$ . Sin embargo, no veo cómo ajustar cualquier tipo de modelo lineal tendría sentido teniendo en cuenta que la correlación entre $x_t$ y $y_t$ es por término medio igual a 0,05 (muy bajo).

1voto

fkydoniefs Puntos 11

El post es bastante antiguo, pero es una pregunta interesante. Así es como yo lo haría:

En una regresión $y_n = \alpha + \beta x_n + u_n$ el estimador del coeficiente de pendiente es $\beta = \text{cov}(x, y)/\text{std}(y)$ Para evitar distracciones, supongamos por un momento que todo está estandarizado: las medias son cero y las varianzas son uno. Entonces, el coeficiente de la pendiente se estima mediante $\beta = (1/N) \sum_n x_n y_n$ . Quiero centrarme en esta cantidad para motivar la estrategia.

Volviendo a su notación, donde tenemos $D$ días cada uno dividido en $T$ rebanadas. En el caso de que cada corte se vea de forma independiente, la pendiente de cada corte viene dada por $$ \beta_t = \frac{1}{D} \sum_d x_{d,t}y_{d,t} $$ Este es un extremo, y puede dar estimaciones muy volátiles si la verdadera dependencia es pequeña, como usted señala. El ruido inundará la señal y cada rebanada tendrá una estimación muy diferente a las adyacentes.

El otro extremo es olvidarse de las porciones y tener una única estimación para todos. Esto sería igual a $$ \beta_\infty = \frac{1}{TD} \sum_t \sum_d x_{d,t} y_{d,t} $$ Obviamente, esto es robusto pero ignora la variabilidad intradía. La pregunta es entonces: ¿existe un esquema intermedio entre los dos extremos?

Si escribimos $\beta_\infty$ en términos de $\beta_t$ s, entonces podemos motivar tal esquema $$ \beta_\infty = \frac{1}{T} \sum_t \left[ \frac{1}{D} \sum_d x_{d,t} y_{d,t} \right] = \frac{1}{T} \sum_t \beta_t $$ El estimador rígido no es más que la media de los estimadores de las rodajas. Y siempre que tengas una media global puedes poner en su lugar un Kernel para promediar localmente. Esto, en efecto, agrupar la información de las rebanadas cercanas.

Si tomo una función Kernel $K_h$ con ancho de banda $h$ para cada tramo de tiempo $t$ Puedo definir los pesos $$ w_{t,\tau} = \frac{K_h(t-\tau)}{\sum_{t'} K_h(t'-\tau)} $$

Entonces, mi pendiente estimada para la rebanada $t$ viene dada por $$ \beta^h_t = \sum_\tau w^h_{t,\tau} \beta_\tau = \frac{1}{D} \sum_\tau \sum_d w^h_{t,\tau} x_{d,\tau} y_{d,\tau} $$ Se puede confirmar que a medida que el ancho de banda va a infinito todos los pesos van a $1/T$ y terminamos con $\beta_\infty$ a medida que el ancho de banda se reduce a cero, las ponderaciones se reducen a cero, excepto para $\tau=t$ y terminamos con la rebanada única $\beta_t$ .

Se trata de un esbozo, que puede hacerse más preciso para tener en cuenta la volatilidad variable en el tiempo, las medias, etc. Supongo que el uso de Kernels es la parte de "aprendizaje automático".

0voto

Max Maximus Puntos 529

Como se ha insinuado en los comentarios, pero no se ha dicho explícitamente, aquí hay varios problemas. Yo me centraría en el término de error. La regresión, tal y como está planteada, incumple muchas de las condiciones de los mínimos cuadrados. Es evidente que habrá errores autocorrelacionados y heteroscedasticidad. En cuanto al segundo, la mayor parte de la volatilidad y de la negociación se produce al principio y al final del día de negociación, por lo que tratar estos intervalos como iguales no es apropiado. Además, dependiendo del valor, con intervalos de 10 minutos puede haber un gran número de períodos sin cambios en el precio, por lo que también ha sido bendecido con observaciones perdidas. Dado que se trata de una pregunta de prueba, y no de verdad, señalar estas cuestiones demuestra que conoce los supuestos y los puntos débiles de los mínimos cuadrados. Además, no puedo entender tu notación ni cuántos datos tienes realmente. Por lo tanto, sin entender su conjunto de datos, sólo voy a sugerir que me gustaría romper los días en partes y estimar los períodos de forma independiente y gráfico de las betas y las estadísticas de regresión en el día para buscar un patrón.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X