7 votos

La sobrecarga de la espalda - en la muestra vs. fuera de la muestra

Recientemente, leí un gran artículo de De Prado et al. sobre el problema de la sobrecarga de la espalda en las Finanzas Cuantitativas titulado Seudomatemática y charlatanería financiera: los efectos de la sobrecarga de la espalda en el rendimiento fuera de la muestra .

En el primer capítulo, definen el rendimiento dentro de la muestra (IS) y fuera de la muestra (OOS) de la siguiente manera:

Con respecto al rendimiento medido de una estrategia probada, nosotros tienen que distinguir entre dos lecturas muy diferentes: en la muestra (IS) y fuera de la muestra (OOS). El rendimiento del OOS es el que se simula sobre el muestra utilizada en el diseño de la estrategia (también conocida como "período de aprendizaje") o "set de entrenamiento" en la literatura de aprendizaje de máquinas). El rendimiento del OOS se simula sobre una muestra no utilizada en el diseño de la estrategia (también conocida como "conjunto de pruebas"). Un backtest es realista cuando el rendimiento de la IS es consistente con la actuación del OOS.

Las definiciones anteriores son bastante directas, sin embargo lo que me confundió es el mensaje en el documento de que la mayoría de la gente se fija en el rendimiento de la SI de backtesting al evaluar las diferentes estrategias. ¿Es realmente así en las finanzas?

Por ejemplo, la mayoría de las veces, cuando hacía pruebas de espalda en el pasado, usaba el llamado rolling-window se acercan: Encajo los parámetros del modelo/estrategia usando los datos del pasado, y luego uso este modelo encajado para comerciar por cierto período de tiempo (digamos un mes). Después de este período, añado datos del período pasado más reciente y reajusto el modelo. Para la visualización de tal tubería, ver la imagen de abajo:

enter image description here

¿Se considera tal enfoque como IS o OOS? (Mi intuición es que es OOS, sin embargo mi intuición también es que es la forma más natural de realizar un backtest, lo que parece no ser el caso basado en el trabajo de De Prado).

1 votos

Sólo un detalle, eso se llama una "ventana expansiva" porque el tamaño del conjunto de entrenamiento aumenta progresivamente. En una "ventana rodante" el tamaño del conjunto de entrenamiento es fijo, es decir, sólo se miran los datos pasados recientes.

5voto

Simon Puntos 106

No está fuera de la muestra. Esto se conoce como "walk-forward backtest" y el problema es que usted ajusta su modelo basándose en la curva PnL. Se añaden mejoras para reducir los drawdowns y aumentar los rendimientos y, por tanto, mientras se puntúa y se mide el rendimiento que no se utilizó en el entrenamiento, se ajusta el modelo basándose en los datos puntuados. Así, esos datos forman parte de su conjunto de validación y no están fuera de la muestra.

Si lo hace, es probable que se sobrecaliente.

Para obtener un reflejo real del rendimiento fuera de la muestra, debe mantener una muestra retenida y calificarla sólo un puñado de veces para medir su rendimiento OOS.

Esto sienta las bases de por qué López de Prado dice que:

El backtesting no es una herramienta de investigación, sino la importancia de las características.

Me gustaría referirme a algunos de los comentarios anteriores sobre la validación cruzada como estándar de oro. El rendimiento de su CV se crea a partir de su conjunto de validación, no de su conjunto de OOS. El modelo se entrena en el conjunto de entrenamiento y se califica en el conjunto de validación. Para ver si su rendimiento sería fuera de la muestra, necesitas pasar un verdadero conjunto OOS.


Antes de comenzar el diseño, deberá dividir los datos en dos partes, un conjunto de entrenamiento y un conjunto de prueba (OOS). A continuación, se aplicaría KFold CV a los datos de entrenamiento, que se dividirían en un conjunto de entrenamiento y otro de validación. En el contexto de la técnica walk-forward, se entrena con todos los datos (o con una ventana móvil) y luego se puntúa con un conjunto de validación, que suele ser la siguiente observación, pero que no está fuera de la muestra.

1 votos

El siguiente documento destaca 3 técnicas habituales de backtesting: Algoritmos tácticos de inversión

1 votos

Gracias por su respuesta. Entiendo la necesidad de utilizar datos no vistos para probar el modelo. Pero en walkforward parece que es así: cada día el modelo se entrena en días pasados, para predecir 1 día en el futuro. ¿Qué información sobre el futuro se cuela con este enfoque?

0voto

zdd Puntos 523

En realidad, depende del uso que le vayas a dar.

Si utilizas los nuevos datos para "reentrenar" tu modelo con un efecto diferente (es decir, tus parámetros cambian de forma significativa), eso sugiere ciertamente una mala especificación del modelo o, como mínimo, una falta de robustez.

En la práctica, el enfoque que he escuchado generalmente es su barra superior (por ejemplo, 2016-Q22019 para el entrenamiento/ajuste de su modelo; H22019 como un conjunto de datos limpio en el que probarlo). Esto puede ser algo que se actualice, pero generalmente hay alguna razón para hacerlo (por ejemplo, un posible cambio de régimen, un rendimiento no característico) en lugar de simplemente tener más datos.

Así que, en resumen, parece que su enfoque es ambos.

-1voto

penti Puntos 93

Yo lo consideraría OOS, siendo el equivalente a la validación cruzada (el estándar de oro en el aprendizaje automático) para los datos de series temporales.

1 votos

Hola: Yo lo consideraría fuera de muestra pero no rodante ya que no estás quitando nada en la parte trasera de la ventana. (por lo que veo). Ten en cuenta que lo que lees en un artículo puede ser cierto sólo a veces y no de forma general. Es difícil saber lo que hace todo el mundo, así que afirmaciones generales como "todo el mundo hace X" son conjeturas.

0 votos

@downvoter: ¿qué hay de malo en mi respuesta? Gracias

-1voto

bartgol Puntos 3039

Sí, el procedimiento que usted describe es un entrenamiento fuera de la muestra, pero lo que de Prado intentaba enfatizar en su artículo es que incluso este tipo de procedimiento puede llevar a un sobreajuste. de Prado habla de ajustar una determinada estrategia de trading (dentro de la muestra) y elegir la que tenga el mayor ratio de Sharpe y luego ejecutarla fuera de la muestra. De hecho, esto sólo puede cumplirse si el número de curvas que se ajustan por un lado y el número de rendimientos en la muestra sobre la que se ejecuta el algo satisfacen cierta relación que, a su vez, se deriva de la teoría del valor extremo o del teorema de Fisher-Tippet-Gnedenko para ser precisos. Sería interesante estudiar ese teorema para entender mejor el sobreajuste.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X