5 votos

Regresión IV con más observaciones en la primera etapa que en la segunda

Esta es una pregunta muy básica, pero necesito ayuda. Imagínese que tengo un conjunto de datos para las variables y, x y z. Estoy ejecutando una regresión de variables instrumentales de tal manera que y es mi principal variable de resultado. Así que estoy tratando de estimar las siguientes regresiones.

$$ y = \beta_{0} + \beta_{1} x + e $$

$$ x= \alpha_{0} + \alpha_{1} z + u $$

Tengo N observaciones. K observaciones contienen valores para y, z y x. N-K observaciones contienen valores sólo para x y z, y los valores de y se reportan como NA. K > N - K por lo que tengo más observaciones completas que incompletas en los datos.

Mi pregunta es: ¿debo ejecutar la regresión de la primera etapa con todas las N observaciones y LUEGO ejecutar la ecuación principal con sólo K valores ajustados? ¿O debería eliminar las observaciones incompletas N - K para empezar y centrarme sólo en K observaciones completas para la primera y la segunda etapa? ¿Afectaría esto a la forma de calcular los errores estándar?

Cualquier ayuda será muy apreciada.

2voto

user36287 Puntos 6

Debe omitir por completo las observaciones con datos ausentes. La explicación ocupa unas cuantas líneas, pero el hecho clave de la regresión de primera etapa es que los valores predichos no están correlacionados con los residuales. En contexto,

$$x=\hat{\alpha_0}+\hat{\alpha_1}z+\hat{u}$$

Porque $\hat{u}$ son residuales, sabemos que $Cov(\hat{u},z)=0$ . Entonces considera,

$$x=\hat{x}+\hat{u}$$

Se da el caso de que $Cov(\hat{x},\hat{u})=0$ porque $\hat{x}=\hat{\alpha_0}+\hat{\alpha_1}z$ .

Veamos ahora cómo se crea la ecuación de estimación de la segunda etapa. La ecuación teórica es,

$$y=\beta_0 +\beta_1x+e$$ Introduzcamos $x=\hat{x}+\hat{u}$ . $$y=\beta_0 +\beta_1(\hat{x}+\hat{u})+e$$ $$y=\beta_0 +\beta_1\hat{x}+\beta_1\hat{u}+e$$ $$y=\beta_0 +\beta_1\hat{x}+\eta$$

El término de error es $\eta=\beta_1\hat{u}+e$ . El supuesto de exclusión/exogeneidad de IV es $Cov(z,e)=0$ Así pues $Cov(\hat{x},e)=0$ . Además, por construcción de OLS, $Cov(\hat{x},\hat{u})=0$ . Así pues, tenemos $Cov(\hat{x},\eta)=0$ y la estimación de la segunda etapa por MCO es consistente.

Volviendo a su pregunta, la primera etapa de MCO impone que $Cov(\hat{x},u)=0$ para la muestra utilizada en la estimación de la primera etapa. Si estima la primera etapa utilizando todas las observaciones, entonces $Cov(\hat{x},u)=0$ en la muestra completa, pero posiblemente no en la submuestra que se utilizaría en la segunda etapa. Si esa covarianza es distinta de cero, las estimaciones de la segunda etapa son incoherentes.

Si se estima la primera etapa utilizando la misma submuestra que la utilizada en la segunda etapa, entonces $Cov(\hat{x},u)=0$ en la submuestra utilizada en la segunda etapa. Las estimaciones son siempre coherentes.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X