Por ejemplo, consideremos la siguiente ecuación de regresión $College Score=\beta_0+\beta_1HighSchool GPA+u$ . Interpretamos esto como $\beta_1$ como el efecto de un mayor GPA de la escuela secundaria manteniendo todas las demás variables constantes. El segundo modelo de regresión añade un nuevo término y pasa a ser $College Score=\beta_0+\beta_1HighSchool GPA+\beta_2ACTSCORE+u$ . La interpretación de $\beta_1$ sigue siendo el efecto de un GPA más alto en la escuela secundaria, manteniendo todas las demás variables constantes. Entonces, ¿cuál es la diferencia? (y los valores en dos regresiones son diferentes). La explicación del libro de texto es que, en la primera ecuación, se supone que la puntuación del ACT es fija. En la segunda ecuación, sin embargo, la puntuación del ACT se controla explícitamente. No entiendo muy bien la diferencia real entre "se supone fija" y "se mantiene explícitamente fija".
Respuesta
¿Demasiados anuncios?La diferencia es que la primera regresión es insesgada sólo si se puede asumir que el GPA de la escuela secundaria y la puntuación del ACT son ortogonales entre sí $cov(x,z)=0$ donde $x$ es un atajo para el GPA de la escuela secundaria y $z$ para la puntuación del ACT. O si se puede asumir que la segunda variable, la puntuación ATC, no afecta en absoluto a la variable dependiente $\beta_2=0$ . Esto se debe a que en la regresión simple el $\beta$ El sesgo del coeficiente viene dado por:
$$\hat{\beta_1} = \beta_1 + \beta_2 \frac{\text{COV}(x,z) }{VAR(x)} $$
donde $\hat{\beta_1} $ es el efecto beta estimado del GPA en la puntuación del col. (beta reportado por su programa estadístico como R), $\beta_1$ es el verdadero coeficiente no observado, $\beta_2$ es el verdadero efecto no observado del ACT sobre la puntuación, y la fracción es sólo la covarianza entre $x$ y $z$ sobre la varianza de $x$ .
Por lo tanto, a menos que sepa que las dos variables no están relacionadas en absoluto, tendrá un sesgo. Un ejemplo de variable que no está relacionada con otra es una variable que se mantiene fija. Por ejemplo, si en $z(x) =100$ no importa cuál $x$ examinamos entonces podemos estar seguros de que $cov(x,z)=0$ . Las regresiones sólo deben aplicarse si se considera que son insesgadas, por lo que la primera ecuación supone implícitamente que la segunda variable se mantiene constante dada $x$ . Sin embargo, una vez que se incluye la segunda covariable explícitamente, se pueden calcular ambos coeficientes beta esperados condicionados entre sí, lo que equivale a mantener realmente la otra variable constante.
Así que en realidad hay mucha diferencia entre las dos regresiones (excepto en los casos especiales en los que $cov(x,z)=0$ o $\beta_2=0$ ).