Consideremos el modelo de regresión lineal estándar: $y_i = \alpha + \beta D_i + e_i$ donde los coeficientes están definidos por proyecciones lineales y $D_i$ es una variable ficticia. En la población, los coeficientes vienen dados por:
$$\alpha = E[y_i \mid D_i =0] \ \text{and} \ \beta = E[y_i \mid D_i = 1] - E[y_i \mid D_i =0]$$
Utilizando OLS para estimar los coeficientes, obtenemos:
$$\widehat{\alpha} = \overline{y}_{D_i=0} $$
$$\widehat{\beta} = \overline{y}_{D_i=1}-\overline{y}_{D_i=0} $$
En otras palabras, $\widehat{\alpha}$ es sólo la media muestral de $y_i$ en la submuestra con $D_i=0$ y $\widehat{\beta}$ es la diferencia de las medias muestrales de los dos grupos. Las expresiones parecen muy obvias porque son sólo versiones muestrales de la población, pero mi pregunta es, ¿cómo podemos llegar a las estimaciones de los coeficientes anteriores utilizando las fórmulas OLS estándar? Es decir, utilizando:
$$\widehat{\alpha} = \overline{y} - \overline{D}\widehat{\beta} \ \ \text{and} \ \ \widehat{\beta} = \frac{\sum_{i=1}^{N}(D_i - \overline{D})(y_i - \overline{y})}{\sum_{i=1}^{N}(D_i - \overline{D})^2}$$