¿Puedes proporcionarme una intuición sobre lo que significa derivar un modelo probit o logit a partir de un modelo de variable latente subyacente?
Respuesta
¿Demasiados anuncios?Los modelos logit y probit pueden derivarse de un modelo subyacente de variable latente. Para ver esto, sea y∗ una variable no observada (es decir, latente), y supongamos que y∗=β0+xβ+ϵ, y=1[y∗>γ] donde 1[⋅] es una función indicadora con valor 1 si y∗>γ y cero en caso contrario. Aquí, γ es un umbral elegido. Si la utilidad latente no observada y∗ está por encima del umbral, entonces y toma el valor uno; de lo contrario, toma el valor cero.
La idea es ver el resultado binario y={0,1} como una dicotomización de una variable continua latente y∗ modelada con un modelo canónico de regresión lineal múltiple. Por ejemplo, un banco puede otorgar un préstamo (y=1) o elegir no hacerlo (y=0). Piénselo como tener un resultado latente continuo subyacente, y∗, que puede considerarse como una medida de la utilidad de elección.
En el modelo anterior, asumimos que ϵ es independiente de x y que ϵ tiene o bien la distribución logística estándar o la distribución normal estándar.
Recuerde, la distribución logística estándar y la distribución normal estándar son simétricas alrededor de cero. Así, 1−G(−z)=G(z).
A partir del modelo anterior, podemos derivar la probabilidad de respuesta para y. Primero, asumimos que yi=1 si y solo si y∗i>γ, con γ fijado arbitrariamente en cero. Así, P(y=1|x)=P(y∗>0|x)=P(β0+xβ+ϵ>0|x)==P[ϵ>−(β0+xβ)|x]=1−P[ϵ≤−(β0+xβ)|x]=1−G[−(β0+xβ)]=G(β0+xβ) donde P[ϵ≤−(β0+xβ)|x] es la función de distribución acumulada del término de error del resultado latente.