4 votos

¿Por qué añadir un término cuadrático a una regresión cambia los coeficientes no relacionados?

Estoy en STATA y usando datos de 2010 de Ipums. Estoy tratando de medir la diferencia salarial entre hombres solteros, hombres casados, mujeres solteras y mujeres casadas. Corrí mi primera regresión y obtuve los siguientes resultados:

    lwage |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
     educ |   .1297281   .0003132   414.22   0.000     .1291142    .1303419
      age |   .0130395   .0000535   243.56   0.000     .0129346    .0131444
 uhrswork |   .0454742   .0000613   741.81   0.000      .045354    .0455943
 singlefemale |  -.0749253   .0021686   -34.55   0.000    -.0791756    -.070675
 marriedfemale |   .0853371   .0021692    39.34   0.000     .0810856    .0895886
 marriedmale |   .3149997   .0021153   148.92   0.000     .3108539    .3191455
    _cons |   6.826747    .003847  1774.56   0.000     6.819207    6.834287

A continuación, añadí la edad^2 como variable explicativa adicional. Mis resultados cambiaron drásticamente:

   lwage |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
     educ |   .1258587   .0003049   412.83   0.000     .1252612    .1264563
      age |   .0961006   .0003096   310.38   0.000     .0954938    .0967075
    agesq |  -.0009427   3.46e-06  -272.14   0.000    -.0009495   -.0009359
 uhrswork |   .0406035   .0000622   652.40   0.000     .0404815    .0407255
 singlefemale |  -.0865127   .0021091   -41.02   0.000    -.0906465    -.082379
 marriedfemale |   -.035098   .0021552   -16.29   0.000    -.0393221    -.030874
 marriedmale |   .2403908    .002075   115.85   0.000     .2363239    .2444578
    _cons |   5.455941   .0062742   869.58   0.000     5.443643    5.468238

Así que, básicamente, cuando asumo que la edad está relacionada linealmente con el salario logarítmico, se estima que las mujeres casadas ganan más que los hombres solteros, pero cuando asumo una forma cuadrática obtengo lo contrario. Ambos son estadísticamente significativos. ¿Por qué ocurre esto? ¿Y cómo puedo elegir el mejor modelo?

Además, ¿es esto común en otras aplicaciones? Me sorprende que pueda cambiar el signo de algo simplemente añadiendo un término cuadrático no relacionado -- esto parece una fuente de abuso potencial.

2voto

Aquarion Puntos 296

Tus errores ya no son los mismos. Por ejemplo, en lugar de escribir $Y = \beta_1 + \beta_2 X + U$ , en realidad estás escribiendo $Y = \alpha_1 + \alpha_2 X + \alpha_3 X^2 + V$ . No se espera que sean iguales.

En otras áreas, el problema es que el término de error está probablemente correlacionado con sus regresores.

No tema: la ejecución de los salarios en la educación es una especificación común. Buscando algo como

salarios endogeneidad de la educación

debería traer toda una serie de documentos que tratan el tema.

1voto

Merus Puntos 1452

Se trata de un fenómeno bien conocido llamado colinealidad. Básicamente, sus dos variables independientes (edad y edad al cuadrado) están fuertemente correlacionadas. En presencia de colinealidad, las estimaciones de los coeficientes pueden cambiar significativamente. Para superar este problema, puede utilizar una regresión robusta, como la regresión de cresta.

1voto

Bernard Puntos 10700

La sugerencia de @OccupyGezi es buena: hay que comprobar si hay colinealidad severa, que puede hacer que las estimaciones sean inestables y poco fiables por razones puramente técnicas.

En cuanto a la elección entre los modelos, hay criterios técnicos, puramente estadísticos, pero también está la esencia económica del asunto, que no debe olvidarse: al incluir la variable "edad-cuadrado" se postula una relación de "U invertida" entre el logaritmo del salario y la edad, es decir, que el logaritmo del salario alcanza su punto máximo a cierta edad, y luego comienza a descender.

El hecho de que el coeficiente de la edad al cuadrado sea negativo, mientras que el coeficiente de la edad es positivo, proporciona pruebas que apoyan dicha relación. Pero como es posible que las estimaciones de los coeficientes se vean afectadas por la multicolinealidad, sería bueno que se pudiera respaldar la afirmación de una relación de U invertida con argumentos económicos o información fuera de la muestra.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X