Cuando la investigación de cualquier tipo de modelo predictivo, si el uso ordinario de regresión lineal o de métodos más sofisticados, tales como las redes neuronales o los árboles de clasificación y regresión, parece ser siempre una tentación de añadir más variables explicativas o factores. El rendimiento de ejemplo de la modelo de mejora, y a veces se mejora mucho, incluso después de que uno ya ha añadido unas cuantas variables ya. Cuándo es demasiado? Cuando es la supuesta mejora en el desempeño de muestra muy raro para llevar encima en operaciones de trading en vivo? ¿Cómo se puede medir esto (más allá de las cosas simples como el de Akaike y Bayesiano los Criterios de Información, que no funciona muy bien en mi experiencia de todos modos)? Consejos, referencias, experiencias y todos serán bienvenidos.
Respuestas
¿Demasiados anuncios?Aunque no directamente relacionados con la elaboración de modelos financieros, he encontrado la siguiente cita para ser muy instructivo:
"Me acuerdo de mi amigo Johnny, von Neumann solía decir, 'con cuatro parámetros que puede caber un elefante y con cinco años me le meneo de su tronco.'" -- E. Fermi
Usted también puede leer esto: http://mahalanobis.twoday.net/stories/264091/
"Hacer las cosas lo más simple posible, pero no más sencillo." El problema que se quiere evitar es (casi) la multicolinealidad. El tip-off será que la adición/eliminación de un regresor va a cambiar significativamente los coeficientes de los otros regresores. En la práctica (así, en la investigación que he leído) rara vez veo esta comprobado de forma explícita.
Si usted piensa que usted tiene la multicolinealidad, entonces es muy probable que el mejor a la estimación sobre un subconjunto sin multicolinealidad o a la caída de los infractores de regresores. Un modelo con menos poder explicativo como medido por $R^2$ es ciertamente mejor que un modelo con incorrecta (inestable) poder explicativo.
No hay ninguna regla para responder a esta pregunta. Usted necesita una combinación de:
Juicio: Son los parámetros que están incluidos los honorarios?
Sniff test: ¿hay teoría para justificar su parámetro opciones, o simplemente a la caza de la oportunidad de las asociaciones?
Hold-outs: correctamente mencionar que el problema es que "en el desempeño de muestra." La solución es, por tanto, para mantener algunos datos a la hora de inicio y de mirar fuera de la muestra. Por supuesto, si usted repetir bastantes veces, usted puede sobre-ajuste su exclusión de la muestra, también! Para guardar este hasta el último paso, y ser honesto con usted mismo.
Como siempre, la clave es estar seguro de cuál es la pregunta que usted está tratando de contestar. Entonces usted puede reunir tanto imparcial de la evidencia como sea posible.
Creo que usted está buscando para una métrica que cuantifica la eficacia de la variable(s). Objetivamente, se desea que cada variable tenga correlación con el modelo de estimación de salida y la no-correlación entre otras variables que pueden ser utilizados. Si usted ajustar su $R^2$ métrica en consecuencia (menos grados de libertad por cada variable) obtendrá una razonable idea de que el límite es para agregar más variables (de lo contrario $R^2$ sólo aumentará y usted está de nuevo haciendo la misma pregunta).
Sólo recoger un decente econometría libro (Gujurati es lo que he usado en la escuela).
Si usted tiene la multicolinealidad, encontrar una variable ficticia.
http://en.wikipedia.org/wiki/Coefficient_of_determination#Adjusted_R2 << esto debe ser algo útil.
Yo no tengo experiencia en comercio, así cum grano salis.