Incluir una covariable endógena en un modelo de regresión como control para estimar el efecto de otra variable de interés

Question

Incluir una covariable endógena en un modelo de regresión como control para estimar el efecto de otra variable de interés

Preguntado el 28 de Junio, 2021: Cuando se hizo la pregunta
96 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Me interesa el efecto de una variable independiente $x$ en una variable dependiente $y$ Así, por ejemplo

$$ y = \beta_0 + \beta_1 x + e $$

donde $e$ es el término de error. Ahora $x$ incluye dos efectos $z_1$ y $z_2$ . Para simplificar, digamos $x = z_1 + z_2$ . Si incluyo $z_1$ en el modelo, así

$$ y = \beta_0 + \beta_1 x + \beta_2 z_1 + e$$

¿Significa eso que $\beta_1$ está captando predominantemente el efecto de $z_2$ ?

Y una pregunta de seguimiento es: si $z_1$ está correlacionado con el término de error, su inclusión en el modelo sesgará la estimación de $\beta_1$ ?

Preguntado el 28 de Junio, 2021 por Aron

Answer 1

1 Respuestas

Answer 2

8voto

tdm Puntos 146

Si incluyo $z_1$ en el modelo, así: $$ > y = \beta_0 + \beta_1 x + \beta_2 z_1 + e, > $$ ¿Significa eso que $\beta_1$ está captando predominantemente el efecto de $z_2$ ?

Sí, esto se puede ver utilizando el Teorema de Frish-Waugh-Lovell :

Si retrocedes: $$ y = \beta_0 + \beta_1 x + \beta_2 z_1 + e, $$ entonces $\beta_1$ será el mismo que el coeficiente correspondiente de una regresión modificada: $$ \hat y = \gamma_0 + \beta_1 \hat x + \hat e \tag{1} $$ donde $\hat x$ es el residuo de la regresión de $x$ en $z_1$ y lo mismo para $\hat y$ . Ahora bien, si hacemos una regresión $x$ en $z_1$ entonces el residuo es igual a: $$ M_{z_1} x, $$ donde $M_{z_1} = 1 - z_1(z_1'z_1)^{-1}z_1'$ es la matriz aniquiladora. Si $x = z_1 + z_2$ entonces: $$ M_{z_1} x = (1 - z_1(z_1'z_1)z_1')(z_1 + z_2) = M_{z_1}z_2 $$ Así, sustituyendo en $(1$ ), tenemos: $$ \hat y = \gamma_0 + \beta_1 \hat z_2 + \hat e, $$ donde $\hat z_2$ es ahora el residuo de la regresión de $z_2$ en $z_1$ . Utilizando el teorema de Frish-Waugh-Lovell, en sentido inverso, se obtiene que $\beta_1$ también es igual al coeficiente de la siguiente regresión: $$ y = \delta_0 + \beta_1 z_2 + \delta_2 z_1 + \varepsilon. $$ En otras palabras, $\beta_1$ también será igual al coeficiente de $z_2$ para una regresión de $y$ en ambos $z_2$ y $z_1$ . Sin embargo, hay que tener en cuenta que en general $\beta_2 \ne \delta_2$ (por lo que los coeficientes de $z_1$ no será igual en las dos regresiones).

Otra forma de ver esto es sustituyendo inmediatamente $x = z_1 + z_2$ en la regresión $(1)$ entonces: $$ \begin{align*} y &= \beta_0 + \beta_1(z_1 + z_2) + \beta_2 z_1 + e,\\ &= \beta_0 + \beta_1 z_2 + (\beta_1 + \beta_2) z_1 + e. \end{align*} $$ Por lo tanto, el coeficiente de $z_2$ en la nueva regresión es idéntico al coeficiente de $x$ en el original $(\beta_1)$ mientras que el coeficiente de $z_1$ en la nueva regresión es la suma de los coeficientes de $x$ y $z_1$ en la regresión original $(\beta_1 + \beta_2)$ .

Y una pregunta de seguimiento es: si $z_1$ está correlacionado con el término de error, su inclusión en el modelo sesgará la estimación de $\beta_1$ ?

Lo contrario es cierto. Incluyendo $z_1$ en la regresión hará que la estimación de $\beta_1$ imparcial. Consideremos el siguiente proceso de generación de datos: $$ y = \beta_0 + \beta_1 x + e, \tag{2} $$ y asumir que $e$ está correlacionada con $z_1$ . Entonces podemos escribir: $$ e = \gamma z_1 + \varepsilon. $$ donde $\varepsilon$ no está correlacionada con $z_1$ . (y donde $\gamma = \mathbb{E}(e z_1)/\mathbb{E}((z_1)^2) \ne 0$ . Supongamos, para simplificar, que $e$ no está relacionado con $z_2$ .

Entonces la estimación de $\beta_1$ estará sesgada ya que la condición de ortogonalidad $\mathbb{E}(e x) = 0$ no está satisfecho. De hecho: $$ \begin{align*} \mathbb{E}(ex) &= \mathbb{E}(e z_2) + \mathbb{E}(\gamma z_1 z_1) + \mathbb{E}(\varepsilon z_1),\\ &= \mathbb{E}(\gamma (z_1)^2) \ne 0 \end{align*} $$ Si incluimos $z_1$ en la regresión. A continuación, sustituyendo $e = \gamma z_1 + \varepsilon$ En $(2)$ podemos escribir: $$ y = \beta_0 + \beta_1 x + \gamma z_1 + \varepsilon. $$ Y $\mathbb{E}(\varepsilon) = \mathbb{E}(\varepsilon x) = \mathbb{E}(\varepsilon z_1) = 0$ . Así que al incluir $z_1$ en la regresión, podemos garantizar el residuo $\varepsilon$ para no estar correlacionado con todas las covariables. Esto significa que $\beta_1$ se identifica y su estimación será insesgada.

Respondido el 29 de Junio, 2021 por tdm (146 Puntos )

Incluir una covariable endógena en un modelo de regresión como control para estimar el efecto de otra variable de interés

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

Finanhelp.com

Powered by:

Incluir una covariable endógena en un modelo de regresión como control para estimar el efecto de otra variable de interés

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

Finanhelp.com

Powered by: