Tldr:
- Si $D_i$ es una variable ficticia, entonces si $cov(L_i, D_i)> 0$ entonces OLS sobreestimará el efecto medio de $D_i$ en $y_i$ . Si $cov(L_i, D_i)< 0$ la estimación OLS subestimará este efecto medio.
- Si $D_i$ no es una variable ficticia, entonces el efecto también depende de la covarianza entre $L_i$ y $(D_i)^2$ .
Supongamos que el modelo verdadero viene dado por: $$ y_i = \gamma + \dfrac{1}{1 + e(1-\alpha)}L_i D_i + \eta_i, $$ donde $\eta_i$ no está relacionado con $D_i$ y tiene una media de cero.
Para una variable $X_i$ escribir $\bar X = \mathbb{E}(X_i)$ entonces podemos reescribir la ecuación anterior como $$ y_i = \gamma + \dfrac{\bar L}{1 + e(1-\alpha)}D_i + \sigma_i, $$ donde $$ \sigma_i = \eta_i + \dfrac{(L_i - \bar L)}{1 + e(1-\alpha)} D_i. $$ Observe que $\sigma_i$ tiene media: $$ \begin{align*} \mathbb{E}(\sigma_i) &= \dfrac{\mathbb{E}(L_i D_i) - \bar L \bar D}{1 + e(1-\alpha)}\\ &= \dfrac{cov(L_i,D_i)}{1 + e(1-\alpha)}. \end{align*} $$ Que no es necesariamente cero, pero esto no es un gran problema ya que será capturado por el término constante en la regresión.
Supongamos que ejecutamos la siguiente especificación: $$ y_i = \delta + \beta D_i + \varepsilon_i, $$ Entonces la estimación de $\beta$ se estimará asintóticamente: $$ \dfrac{cov(y_i, D_i)}{var(D_i)}. $$ Calculemos el numerador: $$ \begin{align*} y_i - \bar y &= \dfrac{\bar L}{1 + e(1-\alpha)}(D_i - \bar D) + \sigma_i - \mathbb{E}(\sigma_i)\\ &= \dfrac{\bar L}{1 + e(1-\alpha)}(D_i - \bar D) + \eta_i + \dfrac{(L_i - L) D_i}{1 + e(1-\alpha)}- \dfrac{cov(L_i,D_i)}{1 + e(1-\alpha)}. \end{align*} $$ Entonces: $$ \begin{align*} (y_i - \bar y)(D_i - \bar D) = \dfrac{\bar L}{1 + e(1-\alpha)}(D_i - \bar D)^2 + \eta_i(D_i - D) + \dfrac{(L_i - \bar L)D_i(D_i - \bar D)}{1 + e(1-\alpha)} - \dfrac{cov(L_i, D_i)}{1 + e(1-\alpha)}(D_i - \bar D) \end{align*} $$ Así que tomando la expectativa de ambas partes da: $$ cov(y_i, D_i) = \dfrac{\bar L}{1 + e(1-\alpha)}var(D_i) + \dfrac{\mathbb{E}((L_i - \bar L)(D_i - \bar D)D_i)}{1 + e(1-\alpha)} $$ El último término da: $$ \begin{align*} &\dfrac{1}{1 + e(1-\alpha)}\left[\mathbb{E}(L_i D_i D_i) - \mathbb{E}(\bar L D_i D_i) - \mathbb{E}(L_i \bar D D_i) + \mathbb{E}(\bar L \bar D D_i) \right],\\ &=\dfrac{1}{1 + e(1-\alpha)}\left[\mathbb{E}(L_i D_i D_i) - \bar L \mathbb{E}(D_i D_i) - \bar D \mathbb{E}(L_i D_i) + \bar L (\bar D)^2 \right],\\ &=\dfrac{1}{1 + e(1-\alpha)}\left[\mathbb{E}(L_i (D_i)^2) - \bar L \overline{D^2} - \bar D\left[\mathbb{E}(L_i D_i) - \bar L \bar D\right] \right],\\ &= \dfrac{1}{1 + e(1-\alpha)} \left[ cov(L_i, (D_i)^2) - \bar D cov(L_i, D_i)\right] \end{align*} $$ Así que la estimación OLS convergerá a: $$ \dfrac{\bar L}{1 + e(1-\alpha)} + \dfrac{1}{1 + e(1-\alpha)} \dfrac{cov(L_i, (D_i)^2)}{var(D_i)} - \bar D \dfrac{1}{1 + e(1-\alpha)} \dfrac{cov(L_i, D_i)}{var(D_i)}. $$ Si $D_i$ es una variable ficticia, entonces $(D_i)^2 = D_i$ así que $cov(L_i,(D_i)^2) = cov(L_i, D_i)$ y $var(D_i) = \bar D(1-\bar D)$ así que, tenemos: $$ \begin{align*} &\dfrac{\bar L}{1 + e(1-\alpha)} + \dfrac{1}{1 + e(1-\alpha)}(1 - \bar D)\dfrac{cov(L_i, D_i)}{\bar D(1-\bar D)},\\ &= \dfrac{\bar L}{1 + e(1-\alpha)} + \dfrac{1}{1 + e(1-\alpha)}\dfrac{cov(L_i, D_i)}{\bar D}, \end{align*} $$ Si $cov(L_i, D_i) > 0$ entonces la estimación OLS tenderá a sobreestimar $\dfrac{\bar L}{1 + e(1-\alpha)}$ si $cov(L_i, D_i) < 0$ entonces el OLS subestimará este efecto medio de $D$ en $y$ .