High, estoy trabajando en un ejercicio que consiste en realizar un análisis de regresión para predecir la dirección del mercado (por ejemplo, al alza o a la baja). Estoy utilizando datos diarios OHLCV. He creado varios factores a partir de los datos de precios para poder ejecutar mi regresión. Uno de los factores es high - low
. Sin embargo, un factor similar puede high/low
. Por supuesto, están muy correlacionados (R=.97). ¿Cuál elegiría y por qué? Creo que me decantaría por la ratio porque es más estable en el tiempo (por ejemplo. high-low
de hace 10 años no es comparable con esta métrica hoy en día).
Respuesta
¿Demasiados anuncios?Tienes razón, $high-low$ será problemático. Afortunadamente, la $$\frac{high}{low}$$ tiene solución. La dificultad estriba en que no será analítica, por lo que le va a dar quebraderos de cabeza.
La distribución de probabilidad de un valor alto es la distribución de Gumbel. La distribución de probabilidad del valor bajo también es una distribución de Gumbel. El cociente de ambas es distribución de ratios . No tendrá media ni varianza, por lo que no podrá utilizar herramientas como los mínimos cuadrados ordinarios para la mayoría de los problemas. El enlace te mostrará cómo realizar los cálculos, pero como no es analítica, tendrás que construir una aproximación.
Lo que puede salvarte de la pesadilla asociada es la formulación de tu problema.
Porque está asignando a un simple "arriba contra abajo" la solución puede converger amablemente a una buena distribución de probabilidad. La fea y extraña distribución de probabilidad de la que se extraen sus regresores no le afectará si está mapeando a un caso binario. Con lo que hay que tener mucho cuidado es con la interpretación de cualquier predicción.
Permítanme darles un ejemplo del mundo real. Hay una empresa, cuyo nombre no recuerdo, que fabrica piezas para máquinas de microfichas. Si eres joven, es posible que nunca hayas visto una. Son una tecnología absolutamente brillante, aunque ya no se utilicen.
Sobre una base ajustada por división, la empresa pasó de cinco céntimos por acción a unos 35.000 dólares por acción a unos cuatro céntimos por acción. Si se considerara cualquiera de los dos extremos como máximo o mínimo anual, se podrían obtener cifras bastante extremas.
De hecho, no sería extraño obtener algunos valores extremos muy próximos a cero o muy grandes incluso en datos diarios.
Si utiliza la regresión logística, tendrá que tener cuidado con lo lineal que es este proceso en el formato log-odds.
Yo también tendría cuidado de tener en cuenta los costes de liquidez. Es probable que haya rupturas estructurales a lo largo de la serie. Sin embargo, muchas de esas rupturas serán de liquidez. El número de rupturas reales, una vez contabilizada la liquidez, se reducirá con respecto al número ingenuo de rupturas.
Si se desvía de "arriba contra abajo" , lo harás