Estoy a la mitad de "Advances in Financial Machine Learning" de Marcos López de Prado. Entiendo que una serie temporal como los precios de las acciones se puede transformar para hacerla lo suficientemente estacionaria. Supongamos que una serie de acciones tiene 100 puntos de datos para T=1 a T=100 (un punto de datos por tiempo). También entiendo (espero) que se puede etiquetar estos datos utilizando el método de las tres barreras de vez en cuando en la serie temporal. Por ejemplo, etiquetar un punto de entrenamiento cada 2 unidades de tiempo donde la barrera vertical está a 10 unidades de tiempo desde el punto de inicio. Así que tendrías ejemplos de entrenamiento etiquetados para T=1, 3, 5, ... Entiendo que hay superposición en los datos de entrenamiento y no es IID y por lo tanto, debes usar un método como la singularidad promedio para contrarrestar este acto.
Vale. Dicho esto, todavía no tengo idea de cómo estos datos de entrenamiento etiquetados se pueden usar como características de entrada en un modelo de aprendizaje automático.
Es decir, cada punto de datos es solo un número. Entiendo que hay algún concepto de este número que contiene algún concepto de "memoria" ya que la serie no está completamente diferenciada, pero ¿cómo se trata esto en el modelo?
Por ejemplo, imaginemos que voy a entrenar un bosque aleatorio para predecir el rendimiento de una acción en el futuro. He recopilado datos de entrenamiento como se describe anteriormente (así que quiero saber el rendimiento de la acción hasta 10 unidades de tiempo en el futuro). Ahora diseño características para mi modelo como, por ejemplo, la temperatura exterior, el precio del NASDAQ de ayer, etc. Esas son características fáciles y agradables. Ahora tengo esta gran serie temporal que quiero usar como característica (o características múltiples). Hay tantas complicaciones. En primer lugar, está ordenado, si hay algún alfa que se pueda recopilar, el orden definitivamente es lo que te llevará a la alpha. En segundo lugar, no hay una correspondencia uno a uno entre el precio de un nuevo ejemplo de prueba y un precio en los datos de entrenamiento. Por ejemplo, si quisiera utilizar la característica del precio del NASDAQ en un nuevo ejemplo de prueba, simplemente miraría el precio del NASDAQ de ayer (hay una correspondencia uno a uno). Si quisiera utilizar el precio de ayer de la acción para predecir el de hoy, no sabría qué "ayer" usar porque cualquiera de los puntos de datos en la serie temporal podría considerarse "ayer".
¿Qué estoy pasando por alto aquí?