7 votos

¿Por qué son los regresores cuadradas y no ^1.5 o ^2.2 o ^2.5?

Cuando un investigador en economía o finanzas quiere aplicar un modelo de regresión lineal, pero sospecha de una relación no lineal entre uno de los regresores y la variable dependiente, es típico para incluir también a la plaza de que regresor, entonces (tal vez, pero por lo general no) de hacer algo como un Ramsey RESET después de la prueba.

Mi pregunta es; ¿por qué plaza? Por qué no tomar el exponente (de $x$) a $x \in [1.5,2.5]$, por ejemplo? Obtener el derecho de "forma" de la línea es impotant a hacer la suposición de $E[\epsilon_i | \mathbf{X}]=0$ espera; puede haber casos donde $x=2$ no esta bien, pero en otros casos, algo así como $x=1.8$ podría mí más sensato.

Aquí, por supuesto, estoy hablando acerca de las variables que asumir estrictamente los valores positivos, por lo que no complicarse resultados. Un ejemplo es $Edad$ en educación$\a$ingresos de estudios.

6voto

Charles Chen Puntos 183

Estoy básicamente de acuerdo con @Juan, permítanme ampliar:

Queremos modelo $de$ y el uso de un simple modelo lineal, la configuración más básica es $$ y = c + \mathbf{X}\beta $$ con $y$ el $$ N observaciones, $c$ una constante, $\mathbf{X}$ el $N \times M$ matriz de regresores y $\beta$ un $M$-dimensional vector de coeficientes. Este modelo ha $M$ parámetros, los elementos de $\beta$.

El anterior modelo es estimado y el de Ramsey RESET de la prueba se encuentra que el modelo pueda ser mal especificada y el investigador quiere solucionar este problema. Como usted propone el modelo anterior puede extenderse con facilidad $$ y = c + \mathbf{X}\beta + \mathbf{X}'\gamma $$ donde $\mathbf{X}'_{i, j} = \mathbf{X}_{i, j}^{e_i}$, $\mathbf{e}$ es un $M$-dimensional de vectores y $\gamma$ un $M$-dimensional vector de coeficientes. Este modelo tiene $3M$ parámetros, los elementos de $\beta$, $\gamma$ y $e$ y mucho más difícil de estimar debido a la falta de linealidad.

Esto puede ser fácilmente resuelto mediante la fijación de todos los $e_i$ a priori. Esto da lugar a otra pregunta: para que el valor de hacer lo arreglamos? Como @pat notas, elevando a un no-entero es una mala idea, en el caso general. Pero, como nota, uno podría usar el absoluto de la variable elevada a un exponente racional desde $f(q) = |a^q|$ es continua y real para todos los reales $p \in \mathbb{Q}$. Entonces, ¿por qué la insistencia en los valores enteros de los exponentes? La sencilla razón de que es la pereza: es mucho más sencillo para calcular $x^2$ de $x^{1.95}$, una segunda razón es la convención. Una tercera razón es que los pequeños cambios en el exponente tiene un pequeño impacto en el modelo. Estos argumentos no se aplican al caso en que un exponente racional produciría una mejora significativa. Lamentablemente esto tiene graves problemas metodológicos: como se ha argumentado antes, haciendo que el exponente de parámetros hace que la estimación mucho más difícil y, quizás más importante, reduce la parsimonia. La última opción de fijar el exponente es posible. Sin embargo, esto requeriría una economía fuerte argumento para defender esta elección particular. Si su aplicación es tal que es absolutamente claro que la exponenciación con $p \in \mathbb{Q}$ es justificado, a continuación, usted es libre de hacer eso. No existen problemas metodológicos, que yo sepa. Pero preparado para sus críticos que se de cuenta y wil exigir la justificación de su elección por $q$.

Otra razón para elegir $e_i = 2$ es la simetría con la toma de los productos cruzados de los regresores, desde este punto de vista es una plaza de la cruz es un producto en sí mismo.

4voto

penti Puntos 93

De lo que se habla se llama regresión utilizando fracciones de polinomios y tiene sus méritos.

La canónica de referencia es esta:
Regresión Utilizando fracciones de Polinomios de Continuo Covariables: Parsimonioso Paramétrica de los modelos Royston y Altman (1994)

Desde el resumen:

La relación entre una variable de respuesta y uno o más continua covariables es a menudo curvado. Intenta representar la curvatura en una sola o de múltiples modelos de regresión se hace generalmente por medio de polinomios de las covariables, normalmente cuadráticas. Sin embargo, la baja orden de los polinomios de ofrecer una familia limitada de formas, y de orden superior los polinomios pueden encajan mal en el extremo de los valores de las covariables. Nosotros proponer una familia de curvas, que llamamos fracciones de polinomios, cuyo poder está restringido a una pequeña predefinidos conjunto de enteros y valores no enteros. Los poderes son seleccionados de manera que convencional polinomios son un subconjunto de la familia. Modelos de regresión el uso de fracciones de polinomios de las covariables han aparecido en el la literatura de una manera ad hoc durante un largo período; proveemos una descripción unificada y un grado de formalización para ellos. Son demostrado tener mucha flexibilidad, y son fáciles de ajuste con los métodos estándar. Te proponemos un algoritmo iterativo para covariable la selección y el ajuste del modelo cuando varias covariables son disponible. Damos seis ejemplos de la utilización de polinomio fraccional modelos en tres tipos de análisis de regresión: normal errores, logística y de regresión de Cox.

...y usted podría haber adivinado: No es un R-paquete para eso :-)

mfp: Multivariable fracciones de Polinomios

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X