2 votos

¿Cómo estimar la probabilidad de la ilusión de clustering en nuestro resultado de backtest?

Supongamos que tengo una estrategia, ejecuto un backtest sobre ella en un solo símbolo (supongamos que los datos históricos a backtest son 25000 velas).
Los resultados de ese backtest son:

Total de operaciones \= 50
Relación TakeProfit/StopLoss \= 2:1 para cada operación
Beneficio medio de la toma de decisiones \= 3% (lo que significa que el porcentaje medio de StopLoss es del 1,5%)
Ganar operaciones \= 30 (60%)
Operaciones largas \= 20 (40%)

¿Cómo podemos comprobar si esos resultados fueron sólo "suerte" o descubrimos un patrón? (al menos en nuestros datos probados)

Estaba pensando en algo así:
Ejecutar una estrategia aleatoria, con una desviación similar a nuestra estrategia que es (para cada vela):
Probabilidad de abrir una posición en la vela actual : 0.002 (50/25000)
Probabilidad de ir en largo : 0.4 (40%)
TakeProfit % : 3%
Stop Loss % : 1.5%

Y ejecuto esa estrategia aleatoria usando los mismos datos. Una vez, dos veces, una y otra vez hasta que encuentro un resultado similar a mi estrategia (cerca de 50 operaciones, y cerca de 30 operaciones ganadoras).
Y luego cuento cuántas estrategias aleatorias he tenido que ejecutar para encontrar esos resultados.
Supongamos que ejecuto 100 estrategias al azar y sólo 1 de ellas tiene un resultado similar. Significa eso que las posibilidades de un falso positivo en mi prueba son del 1%?

// no sé si me estoy explicando bien, perdón por mi inglés :/

3voto

akalenuk Puntos 1738

Los falsos positivos y los falsos negativos son conceptos de la inferencia estadística frecuentista. Dependen de las personas, no de la minería de datos. Utilizando la notación keynesiana, prueban $\Pr(X|\theta)$ . Es decir, prueban la probabilidad de observar un resultado tan extremo o más extremo que la muestra dado que el modelo es verdadero. En una notación más común, prueban $P_\theta(X)$ . En lo que describes no lo estás haciendo.

No estás afirmando un modelo verdadero. Está intentando pasar por todos los modelos posibles de forma combinada. No se puede comprobar la existencia de falsos positivos utilizando esa metodología.

Para entender por qué, hay que entender cómo se haría la prueba de un falso positivo. Elijamos un ejemplo elemental, como la frecuencia con la que la media de la muestra producirá un resultado extremo. Si no se dispone de herramientas de cálculo o de análisis, como no es el caso en lo que se está describiendo, entonces se crearían decenas de miles de muestras de tamaño N.

Se construiría la función de densidad implícita para esa simulación. Encontrará la $\alpha$ corte que utilizarías. Usando eso, usted sería capaz de controlar aproximadamente su nivel de falsos positivos haciendo que su $\alpha$ corte.

En otras palabras, no se pueden utilizar datos reales. La estadística frecuencial funciona en el espacio muestral. En su caso, eso sería sobre el conjunto de todas las operaciones posibles que podrían existir en su marco temporal.

La única manera de estimar los falsos positivos y negativos es tener un único teórico modelo para trabajar como su nulo.

Lo que describes es en realidad la razón por la que el backtesting como forma de encontrar una estrategia no puede funcionar. Existe un número contablemente infinito de modelos posibles. Si se especifica el precio de un solo valor como una ecuación de diferencia, se notaría rápidamente que es un modelo estrictamente dependiente de la trayectoria. Al hacer backtesting para obtener una estrategia, está confundiendo el ruido con la señal.

Una última nota, para que una estrategia inferencial funcione utilizando un método frecuentista, su modelo tiene que tener una especificación correcta. Como no conoces la especificación, no puedes tener éxito. Si su preocupación es la inferencia, entonces utilice sólo la lógica.

Construya una especificación lógica. Si puede hacerlo, podrá controlar los falsos positivos y los falsos negativos mediante el control de la potencia estadística.

EDITAR

Empecemos con la suposición de que tiene un cincuenta por ciento de posibilidades de tener una operación ganadora. Esa suposición sólo es cierta si se aleatoriza dos cosas. Primero, hay que aleatorizar el valor y el tiempo de la transacción. En segundo lugar, hay que decidir aleatoriamente si se va en largo o en corto. Tu suposición de que el cincuenta por ciento de las operaciones resultan ganadoras no se sostiene.

Si su preocupación es "¿puedo creer mis resultados?", entonces la respuesta es probablemente "no". Puede saberlo sin una prueba estadística.

En primer lugar, hay un problema con el backtesting. Estás asumiendo que eras la persona que hacía la operación. Sin embargo, si realmente hubieras estado en ese periodo de tiempo, habrías tenido que superar esa operación para que apareciera en la cinta. La serie temporal depende estrictamente de la trayectoria. El hecho de que usted entre en la trayectoria la cambia para siempre. Para que tus operaciones se produzcan, habrías tenido que desplazar las curvas de oferta o demanda. Si usted está involucrando cualquier cantidad real de dinero, ese cambio podría ser muy sustancial. Incluso las acciones de WalMart pueden cambiar notablemente desde una operación en bloque. Por lo tanto, si hace un backtest, debería desplazar su entrada en el registro por un desplazamiento estimado de las curvas de oferta y demanda.

En segundo lugar, las operaciones que aparecen en el teletipo no están necesariamente en el orden en que se produjeron realmente. Las grandes órdenes se negocian "fuera de la cinta". Se insertan más tarde, cuando se cierran en un punto en el que la transacción no cambiará el mercado. Si su estrategia depende de algún modo del orden en que se produjeron las transacciones y no del nivel general, entonces puede tirar su estrategia al cubo de la basura. Las órdenes grandes se reportan como promedios ponderados y no como valores reales. Una operación de 101 y 103 por 500 acciones cada una se reporta como 102. Si 102 resulta ser mayor que cualquier otra operación, se reportará como el máximo diario aunque haya ocurrido 103. Los datos de las operaciones en EE.UU. no incluyen todos los precios o tiempos reales.

En tercer lugar, la distribución de los rendimientos de las empresas en funcionamiento es una distribución de Cauchy truncada. Esto anulará cualquier intento de considerar el problema como una binomial, ya que habrá demasiadas ejecuciones debidas únicamente al azar en relación con algo como el S&P 500.

Utiliza la lógica como herramienta de protección. ¿Tiene sentido, independientemente de que funcione? Tome sus estrategias, antes de ver sus resultados, y pregúntese si esta estrategia tiene sentido. Si lo tiene, pruébala.

Su suposición de una moneda justa no funciona para este tipo de problema. Usted está trabajando con un problema en el que el primer momento central no existe. Usted está tratando de utilizar las matemáticas apropiadas para los datos mesocúrticos o platocúrticos cuando sus datos son leptocúrticos.

Aunque sería válido realizar transformaciones de los datos para que se comporten mejor, eso requiere una cantidad considerable de habilidad para hacerlo correctamente. Aún así, no resolverá la pregunta "¿he descubierto algo?".

Posiblemente podría utilizar métodos bayesianos no paramétricos, pero requerirían años de estudio, ya que trabajan en un espacio de modelos de dimensión infinita. Son lo más parecido a lo que usted intenta hacer.

1voto

David Rickman Puntos 2787

Para mí esto es una especie de problema matemático de varios pasos.

Yo primero haría una minideclaración de la renta de 2015. Teniendo en cuenta tus ingresos previstos qué cantidad de impuestos pagarías teniendo en cuenta los créditos y exenciones que puedes solicitar. Para ello puedes utilizar el formulario 1040-ES.

Luego usaría una calculadora de nóminas para encontrar la cantidad adecuada de exenciones más algún colchón. Yo uso esto calculadora .

Así que, por ejemplo, supongamos que le quedan 20 nóminas hasta final de año y que lo más probable es que tenga que pagar $2000 in taxes. Lets say you also want a 10% buffer so you really want to withhold $ 110 por cheque de pago.

Entonces tiene que elegir: puede solicitar 3 exenciones, lo que supondría una retención de 130 por nómina, o 4, lo que supondría una retención de 105.

Yo elegiría 4 exenciones y rellenaría la casilla del w-4 para retener 5 dólares más por nómina.

Este método funciona bien en diferentes situaciones. Los hogares con doble ingreso y con una renta sana rara vez tienen una retención suficiente y puede ser bastante impactante cuando llega el 15 de abril, a menos que se planifique con antelación.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X