Estoy en STATA y usando datos de 2010 de Ipums. Estoy tratando de medir la diferencia salarial entre hombres solteros, hombres casados, mujeres solteras y mujeres casadas. Corrí mi primera regresión y obtuve los siguientes resultados:
lwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
educ | .1297281 .0003132 414.22 0.000 .1291142 .1303419
age | .0130395 .0000535 243.56 0.000 .0129346 .0131444
uhrswork | .0454742 .0000613 741.81 0.000 .045354 .0455943
singlefemale | -.0749253 .0021686 -34.55 0.000 -.0791756 -.070675
marriedfemale | .0853371 .0021692 39.34 0.000 .0810856 .0895886
marriedmale | .3149997 .0021153 148.92 0.000 .3108539 .3191455
_cons | 6.826747 .003847 1774.56 0.000 6.819207 6.834287
A continuación, añadí la edad^2 como variable explicativa adicional. Mis resultados cambiaron drásticamente:
lwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
educ | .1258587 .0003049 412.83 0.000 .1252612 .1264563
age | .0961006 .0003096 310.38 0.000 .0954938 .0967075
agesq | -.0009427 3.46e-06 -272.14 0.000 -.0009495 -.0009359
uhrswork | .0406035 .0000622 652.40 0.000 .0404815 .0407255
singlefemale | -.0865127 .0021091 -41.02 0.000 -.0906465 -.082379
marriedfemale | -.035098 .0021552 -16.29 0.000 -.0393221 -.030874
marriedmale | .2403908 .002075 115.85 0.000 .2363239 .2444578
_cons | 5.455941 .0062742 869.58 0.000 5.443643 5.468238
Así que, básicamente, cuando asumo que la edad está relacionada linealmente con el salario logarítmico, se estima que las mujeres casadas ganan más que los hombres solteros, pero cuando asumo una forma cuadrática obtengo lo contrario. Ambos son estadísticamente significativos. ¿Por qué ocurre esto? ¿Y cómo puedo elegir el mejor modelo?
Además, ¿es esto común en otras aplicaciones? Me sorprende que pueda cambiar el signo de algo simplemente añadiendo un término cuadrático no relacionado -- esto parece una fuente de abuso potencial.