En primer lugar, permítanme decirles que es una mala estadística comparar pp -valores a través de diferentes especificaciones. Lo que ciertamente no debe hacer es elegir la especificación basándose en el pp -valores que se obtienen.
Dicho esto. Supongamos que la especificación correcta está dada por: yi=α+βDi+γXi+εiyi=α+βDi+γXi+εi Supongamos que se equivoca en la estimación: yi=α+βDi+δiyi=α+βDi+δi donde ahora δi=εi+γXiδi=εi+γXi capta tanto el error aleatorio εiεi y el efecto de XiXi .
Si se estima la segunda especificación, en realidad se identifica lo siguiente: ˆβ=E(yi|Di=1)−E(yi|Di=0),=β+E(δi|Di=1)−E(δi|Di=0),=β+γ[E(Xi|Di=1)−E(Xi|Di=0)] Dependiendo del segundo término, ˆβ puede ser menor o mayor que β . Esto dependerá del signo de γ y la dirección de la correlación entre Xi y Di . Por ejemplo, si γ>0 y Di=1 se asocia con valores más altos de Xi entonces ˆβ>β por lo que tenderá a sobrestimar el efecto de Di en yi (ya que también está captando parte del efecto de Xi en su estimación).
Si debe incluir Xi o no en la regresión no es algo que pueda responderse sólo con estadísticas. Si Xi capta los factores de confusión (es decir, algo que afecta tanto a yi y Di ), entonces sí debe añadirlo, ya que de otro modo no capta el efecto causal de Di en yi pero también parte del efecto de Xi en yi .