¿Puedes proporcionarme una intuición sobre lo que significa derivar un modelo probit o logit a partir de un modelo de variable latente subyacente?
Respuesta
¿Demasiados anuncios?Los modelos logit y probit pueden derivarse de un modelo subyacente de variable latente. Para ver esto, sea $y^{\ast}$ una variable no observada (es decir, latente), y supongamos que \begin{equation} y^{\ast} = \beta_0 + x\beta + \epsilon, ~y=1[y^{\ast}>\gamma] \label{latent} \end{equation} donde $1[\cdot]$ es una función indicadora con valor $1$ si $y^{\ast}>\gamma$ y cero en caso contrario. Aquí, $\gamma$ es un umbral elegido. Si la utilidad latente no observada $y^\ast$ está por encima del umbral, entonces $y$ toma el valor uno; de lo contrario, toma el valor cero.
La idea es ver el resultado binario $y=\{0,1 \}$ como una dicotomización de una variable continua latente $y^{\ast}$ modelada con un modelo canónico de regresión lineal múltiple. Por ejemplo, un banco puede otorgar un préstamo ($y=1$) o elegir no hacerlo ($y=0$). Piénselo como tener un resultado latente continuo subyacente, $y^{\ast}$, que puede considerarse como una medida de la utilidad de elección.
En el modelo anterior, asumimos que $\epsilon$ es independiente de $x$ y que $\epsilon$ tiene o bien la distribución logística estándar o la distribución normal estándar.
Recuerde, la distribución logística estándar y la distribución normal estándar son simétricas alrededor de cero. Así, $1-G(-z)=G(z)$.
A partir del modelo anterior, podemos derivar la probabilidad de respuesta para $y$. Primero, asumimos que $y_i=1$ si y solo si $y^{\ast}_i > \gamma$, con $\gamma$ fijado arbitrariamente en cero. Así, \begin{align*} \mathbb{P}(y=1|x) =& \mathbb{P}(y^{\ast} >0|x) = \mathbb{P}(\beta_0 + x\beta + \epsilon >0|x) = \\ =&\mathbb{P}[ \epsilon > -(\beta_0 + x\beta ) |x] =1 - \mathbb{P}[ \epsilon \le -(\beta_0 + x\beta ) |x] \\ =& 1 - G[ - (\beta_0 + x\beta)] = G(\beta_0 + x \beta) \end{align*} donde $\mathbb{P}[ \epsilon \le -(\beta_0 + x\beta ) |x]$ es la función de distribución acumulada del término de error del resultado latente.