1 votos

¿Elegir atributos para la clasificación SVM?

Supongamos que clasifico cada día de negociación como un 1 o un 0. Lo que clasifico exactamente no importa, pero en aras de esta pregunta digamos que predigo la dirección del cambio de precios. Entonces, para una acción particular como GOOG:

Para el día N:
1: cierre del día N+1 > cierre del día N
0: cierre del día N+1 <= cierre del día N

Para cada día N, quiero predecir si es un 1 o un 0.

Ahora supongamos que, como entrada, quiero utilizar una serie temporal (10 días anteriores) de:

  1. Precio de cierre
  2. Precio de cierre de la EMA
  3. Volatilidad intradía

Eso me dará 30 atributos como entrada. Mi pregunta es qué tiene más sentido:

  • Genere tres modelos de clasificación diferentes (uno para cada uno de los tipos de atributos anteriores). A continuación, realizar una última clasificación que me dará una predicción final, que toma la clase predicha de cada modelo como entrada. Es decir, esta clasificación final contendrá tres atributos de entrada, como [1,0,1] o [1,1,1], etc.

  • Realice una clasificación que tenga los 30 atributos como entrada.

2voto

realcals Puntos 597

Utiliza todos los atributos en un solo modelo.

Si construyes tres modelos distintos, estarás tirando por la borda toda la información que puedan contener las combinaciones de las distintas características.

Así, por ejemplo, podría darse el caso de que los precios tengan más probabilidades de subir mañana si el precio de cierre de hoy estaba por encima de la ema y la volatilidad era alta, pero es más probable que bajen con la misma acción de precios si la volatilidad era baja. Los modelos individuales no podrían captar esa correlación, porque ninguna SVM podría ver todos los datos necesarios, pero una única SVM con todos los atributos podría detectarla (con un kernel no lineal).

2voto

m0j0 Puntos 21

Aquí se enfrenta al problema común de "abajo a arriba" o "arriba a abajo".

Creo que no hay una respuesta definitiva a tu pregunta, ya que ambos enfoques tienen sus pros y sus contras.

Para el "bottom-up", primero se clasifica para cada característica y luego se vuelve a clasificar. Esto le da la posibilidad de obtener una mejor comprensión de la decisión de su algoritmo al dividir la decisión en 2 pasos. Sin embargo, como explica Marc Shivers en su respuesta, perderás parte de la precisión que podría tener el método una vez que hayas completado el primer paso, y por tanto tu algoritmo puede ser menos preciso.

Para el "top-down", se ejecuta directamente la SVM sobre el conjunto completo de parámetros. La primera ventaja es que es más simple, y es la forma más sencilla de aplicar el algoritmo. Un problema es que el algoritmo puede tener la tentación de sobreajustar los datos, es decir, de dar una solución "demasiado precisa" y, por tanto, errónea.

Elegir entre infradotado o sobreajuste es muy difícil. Deberías probar ambos métodos y evaluar realmente cuál es el que mejor funciona en las condiciones que estás considerando . De hecho, el rendimiento de un método puede variar en función de la cantidad de datos que se tenga y de otras características difíciles de adivinar a priori. Andrew Ng ofrece un fantástico clase en línea en coursera donde puedes ver diferentes formas de evaluación de tu algoritmo en el capítulo 10.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X