Supongamos que existe una variable latente, $y^*_i$ definido por, $$y_i^* = x_i'\beta + u_i$$
Considere la hipótesis probit de que $u_i \sim N(0,1)$ (aunque la cuestión es análoga para un error distribuido logísticamente y un logit).
Observamos $y_i=1$ si $y_i^* > 0$ et $y_i =0$ en caso contrario. Dados estos supuestos, la probabilidad de $y_i$ con la condición de $x_i$ et $\beta$ es: $f(y_i|x_i,\beta) = \Phi(x_i'\beta)^{y_i}(1-\Phi(x_i'\beta))^{1-y_i}$
El estimador MLE elige $b$ para maximizar la probabilidad: $max_b \prod_{i=1}^n f(y|x,b)$
PREGUNTA: si $Cov(u_i, u_j)\ne 0$ para algunos $i$ et $j$ entonces la distribución marginal de $y_i$ no ha cambiado, $f(y_i |x_i, \beta)$ . Sin embargo, la función de probabilidad cambiaría, ya que las observaciones ya no son independientes. La probabilidad de $y_i$ et $y_j$ no es sólo el producto de las dos probabilidades por separado.
He visto a gente estimar el probit con errores estándar agrupados, admitiendo esencialmente este problema, sin embargo no he visto una prueba o discusión de que el probit es todavía consistente en tal caso.
¿Es el probit consistente bajo correlación serial si la distribución marginal está correctamente especificada?