1 votos

¿Cuál es el ejemplo de impacto inexacto debido a endogeneidad?

Cuando aprendí sobre variable endógena, encontré una respuesta en un tema en StackExchange muy directa:

Una Variable Exógena se define como una variable que no se ve afectada por otras variables dentro de un modelo.

tomemos como ejemplo un modelo de regresión multivariable:

$y=\beta_0+\beta_1x_1+\beta_2x_2+u$

$x_1$ se llama variable exógena cuando su determinación no se ve afectada por $x_2$ y el término de error $u$.

Una Variable Endógena se define cuando $x_1$ es influenciada por $x_2$ o $u$.

Esto es importante porque cuando ejecutamos una regresión estamos produciendo una función que asume una variable dependiente e independiente. Si encontramos endogeneidad no obtendremos estimaciones precisas del efecto de $x_1$ en $y$.

¿Por qué en el caso de endogeneidad no obtendremos estimaciones precisas del efecto de $x_1$ en $y$? ¿Hay algún ejemplo que respalde esa afirmación? En realidad, me enfrenté a este problema cuando agregué algunos regresores a una ecuación de regresión, uno de los coeficientes de variable cambió la magnitud o incluso invirtió el signo. Pero quiero conocer la razón detrás de esto.
Una explicación teórica es: $x_1$ está correlacionado con $u$ o $x_2$, produciendo un sesgo en $beta_1$ que depende de la dirección y magnitud de la correlación

3voto

Matthias Benkard Puntos 11264

La endogeneidad puede surgir por varias razones y en cada caso la explicación será ligeramente diferente. No mostraré una revisión completa de todas las razones posibles, solo dos ejemplos importantes:

Simultaneidad

Por ejemplo, siguiendo a Verbeek una guía de econometría moderna pp 146, supongamos que el modelo verdadero se da por un sistema de ecuaciones:

$$y = \beta_1 + \beta_2 x_{2t} + \epsilon_t \tag{1} $$

$$x_{2t} = y_t + z_{2t} \tag{2}$$

donde $z$ será exógeno $(cov(z,\epsilon) = 0)$ pero claramente $x$ es endógeno. Podemos ver a partir de las ecuaciones anteriores que si $x$ aumenta no solo aumenta $y$ sino que $x$ aumenta de nuevo a través del efecto de $y$ en $x$ dado por $2$ lo cual luego aumenta de nuevo a $x$.

Resolviendo la 1 y la 2 para $x$ y $y$ respectivamente obtenemos:

$$ x_{2t} = \frac{\beta_1}{1-\beta_2} + \frac{1}{1-\beta_2} z_{2t} + \frac{1}{1-\beta_2} \epsilon_t \tag{3} $$

$$ y_t = \frac{\beta_1}{1-\beta_2} + \frac{\beta_2}{1-\beta_2} z_{2t} + \frac{1}{1-\beta_2} \epsilon_t \tag{4}$$

Se sigue de 3:

$$ cov(x_{2t} \epsilon_t ) = \frac{1}{1-\beta_2} cov(z_{2t} \epsilon_t) + \frac{1}{1-\beta_2} V(\epsilon) = \frac{\sigma^2}{1-\beta_2} \tag{5} $$

El 5 solo muestra que $x$ estará correlacionado con $\epsilon$, pero una consecuencia directa de esta correlación es que:

$$ \text{plim } b_2 = \beta_2 + \frac{cov(x_{2t}, \epsilon_t}{V(x_{2t})}$$

Entonces lo que estás estimando no es solo tu coeficiente beta deseado $\beta_2$ sino que estás estimando la suma del verdadero coeficiente $\beta$ junto con la proporción de covarianza entre $x$ y $z$ a la varianza en $x$ o $\frac{cov(x_{2t}, \epsilon_t}{V(x_{2t})}$. Esto realmente puede incluso forzar a los coeficientes a cambiar de signo. Por ejemplo, supongamos que el efecto verdadero es $\beta_2=5$ pero $cov(x,z)=-20$ y $V(x)=1$ entonces si simplemente corres el modelo ingenuamente $y = b_1 + b_2 x_{2t} + \epsilon_t $ tu estimado $\hat{b_2}$ será $\hat{b_2} = 2 -20 = -18$ lo que tiene el signo opuesto y la magnitud de $b$ estará distorsionada. Así que obtendrás resultados no confiables.

Sesgo de Variable Omitida

Este sería un ejemplo, donde no observamos (o no incluimos) una variable que debería estar en el modelo. Nuevamente siguiendo a Verbeek pp 145 considera la ecuación individual de salario:

$$ y_ = x_{1i}' \beta_1 + x_{2i} \beta_2 + u_i \gamma + v_i$$

aquí $y$ sería el salario, $x_{1i}$ es un vector de características individuales (por ejemplo, género, edad, ubicación, etc.), $x_{2i}$ años de educación y $u_i$ alguna habilidad innata no observada. Esperamos que $cov(x_{2i},u_i)>0$ porque tiene sentido que si tienes una habilidad innata más alta tendrás una educación más alta ya que las personas con alta habilidad innata deberían tener más facilidad en la escuela/universidad.

Ahora supongamos que, debido a que la habilidad innata no es observable, estás obligado a estimar:

$$y x_i'\beta + \epsilon_i$$

con $x_i'=(x_{1i}', x_{2i}) $ y $\beta'= (\beta_1', \beta_2), $ y naturalmente dado que omitimos la habilidad $\epsilon_i = u_i\gamma + v_i$.

Ahora las estimaciones de $b$ de $\beta$ están dadas por:

$$b= \beta + \left( \sum_{i=1}^N x_i x_i' \right)^{-1} \sum_{i=1}^N x_i u_i \gamma + \left( \sum_{i=1}^N x_i x_i' \right)^{-1} \sum_{i=1}^N x_i v_i$$

Incluso asumiendo que $E(x_i, v) = 0$ (es decir, no hay simultaneidad adicional u otros problemas de endogeneidad en el modelo verdadero), obtenemos:

$$\text{plim } b = \beta + \sum_{xx}^{-1}E[x_i u_i] \gamma$$

Entonces mientras $\gamma \neq 0$ (en cuyo caso no debería estar en el primer modelo para comenzar ya que eso significaría que la habilidad no afecta el salario), o $E[x_i u_i] \neq 0$ lo cual en nuestro caso no se cumplirá porque asumimos que la habilidad afecta la educación, tu beta estimado no va a ser el efecto real de la variable independiente en la variable dependiente sino el efecto real más un término determinado por la correlación entre la variable omitida y la variable independiente incluida y $\gamma$. Nuevamente esto puede cambiar tanto la magnitud como el signo de $\beta$ por lo que simplemente no puedes confiar en absoluto.

Por último, podría haber otras formas en las que la endogeneidad surja en un entorno econométrico, pero explorar todas ellas va más allá del alcance de SE, y los dos mencionados anteriormente son probablemente los más comunes y relevantes.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X