4 votos

¿es la endogeneidad un problema en la regresión de la primera etapa en una regresión de mínimos cuadrados de dos etapas?

Tenemos este modelo:

$$D=\alpha_1+\gamma_1 Z + \epsilon_1$$

$$Y=\alpha_2+\gamma_2 D + \epsilon_2$$

Las notaciones son las habituales: Y es el resultado, D es el tratamiento, Z es el instrumento

Dos condiciones para que la variable instrumental funcione en la literatura: relevancia (hay una correlación entre Z y D) y exogeneidad (no hay correlación entre Z y el término de error $\epsilon_2$ )

Sin embargo, parece que nadie se preocupa por la endogeneidad en la primera etapa de la regresión, que es la correlación entre Z y $\epsilon_1$ . ¿Por qué es así? Nunca he visto ningún microdocumento aplicado que aborde esta cuestión.

1voto

Matthias Benkard Puntos 11264

Sí, es un problema. La primera etapa en sí misma tiene que satisfacer los mismos supuestos que los MCO estándar y $cov(Z,\epsilon_1)\neq 0$ las violaría (véase la Guía de Econometría Moderna de Verbeek).

Además, en realidad las dos condiciones que menciona no son suficientes. El instrumento tampoco debe ser "débil", es decir, la primera etapa debe tener $F$ -Estadística de arriba $10$ (como regla general). Además, el instrumento debe tener un efecto sobre $Y$ sólo a través de $D$ - la llamada restricción de exclusión (véase Mostly Harmless Econometrics de Angrist y Pischke).

1voto

saint_groceon Puntos 2696

Voy a suponer que por "condiciones para que las variables instrumentales funcionen" quieres decir "las variables instrumentales son consistentes". Sin embargo, hay otras propiedades a considerar, como el rendimiento en muestras pequeñas, etc. $ \newcommand{\Cov}{\text{Cov}} $

En este caso sencillo, el estimador IV en muestra de tamaño $n$ es $$ \hat \gamma_2 = \frac{\sum_{i=1}^n (Z_i - \bar Z)(Y_i - \bar Y)}{\sum_{i=1}^n (Z_i - \bar Z)(D_i - \bar D)}. $$ Para que el estimador de variables instrumentales sea consistente, sólo necesitamos $$ \text{Cov}(Z, \epsilon_2) = 0 \quad \text{ (instrument exogeneity)} \tag{1} $$ y $$ \text{Cov}(Z, D) \neq 0. \quad \text{ (instrument relevance)} \tag{2} $$ Mientras se cumplan estas condiciones, no importa si $Z$ está correlacionada con $\epsilon_1$ . El estimador IV será consistente. Para ver esto, analicemos el modelo en términos de poblaciones, \begin{align} \Cov(Z,Y) &= \gamma_2 \Cov(Z, D) + \Cov(Z, \epsilon_2), \end{align} y resolver $$ \gamma_2 = \frac{\Cov(Z, Y)}{\Cov(Z, D)} - \frac{\Cov(Z, \epsilon_2)}{\Cov(Z, D)}. $$ Si se cumplen las condiciones (1) y (2), entonces $\frac{\Cov(Z, \epsilon_2)}{\Cov(Z, D)} = 0$ y la estimación IV
$$ \gamma_2 = \frac{\Cov(Z, Y)}{\Cov(Z, D)} $$ está bien definida. La estimación es consistente ya que el límite de probabilidad es el análogo de la población, $$ \hat \gamma_2 \overset{p}{\rightarrow} \frac{\Cov(Z, Y)}{\Cov(Z, D)} = \gamma_2. $$

Obsérvese que los instrumentos débiles se convierten en un problema en cuanto relajamos la suposición de que $\text{Cov}(Z, \epsilon_2) = 0$ exactamente, como se podría hacer al analizar las propiedades del estimador en muestras pequeñas.

Entonces, ¿hay consecuencias si $Z$ está correlacionada con $\epsilon_1$ ? Bueno, significa que una regresión de $D$ en $Z$ dará una estimación sesgada e inconsistente de $\gamma_1$ . Sin embargo, el supuesto habitual en el que se basa el IV es que no te importa estimar $\gamma_1$ . Usted quiere estimar sistemáticamente $\gamma_2$ , lo que se puede hacer siempre que se cumplan las hipótesis (1) y (2), como se ha indicado anteriormente.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X