Si mi objetivo eran de predicción (por ejemplo, de los puntajes de propensión), ¿por qué no puedo controlar por los términos de orden superior de la ecuación del modelo? Por ejemplo, ¿por qué no estimar el modelo y, a continuación, el control de los cuadrados y cubos de los valores pronosticados en una segunda etapa y obtener una mejor estimación de la correcta valores predichos (en lugar de sólo una prueba de la forma funcional)? Sé que los errores estándar podría estar equivocado, pero no puedo arrancar el proceso?
Respuesta
¿Demasiados anuncios?Para la predicción, sí se puede considerar que las modelos $$ y = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p + \gamma_2 \hat{s}^2 + \cdots + \gamma_m \hat{s}^m + error, $$ donde $\hat{s}$ representa el primer paso de la OPERACIÓN los valores ajustados y $m$ es elegido por algo así como la validación cruzada.
No he visto a este enfoque utilizado antes. Personal de mi conjetura es que este enfoque no es tan útil como otros de los más comúnmente utilizados (SVM, splines, GAM, etc.). Por ejemplo, si $p$ es grande (en comparación con el número de observaciones $n$), el primer paso de la OPERACIÓN ya puede ser el sobreajuste por lo que incluir $\hat{s}$ no es práctico. (Sí, usted puede utilizar el lazo de los residuos, pero eso es otra historia.) Si $p$ es pequeño, la no linealidad puede tal vez ser mejor manejadas por splines o incluso simplemente el aumento de la ecuación cuadrática y cúbica términos de las características. Algunos de los modelos aditivos generalizados (GAM) ya están allí también.
Mi experiencia personal es que no linealidad no es tan importante (para la predicción utilizando datos económicos). Es por lo general mucho más importante para evitar el sobreajuste muy bien. Para mí, su propuesta parece ser útil en algunos casos pero no en muchas.
Dicho esto, no quiero disuadirlo de seguir adelante con este problema, aunque no es un (alto) oportunidad de acabar con la conclusión de que no es muy útil dada la disponibilidad de otros métodos. Por CIERTO, que ya se sabe esto, pero en caso de que, Hastie, Tibshirani y Friedman libro (Los Elementos de Aprendizaje Estadístico) es útil.