Sé cuál es la función de masa de probabilidad de un modelo logit multinomial. Sin embargo, no sé cuál es la función de masa de probabilidad de una observación individual i, f(yi|xi), para un modelo logit multinomial. Agradecería mucho que alguien me explicara cómo obtener la respuesta y que conociera la respuesta correcta.
Respuesta
¿Demasiados anuncios?Una forma útil de ver el modelo es la siguiente. Para cada observación $i$ Hay $K$ diferentes observaciones posibles (elecciones). Así, existe una variable aleatoria $\varepsilon_{i,k}$ para cada opción posible. Observamos qué elección se hace y los valores de las variables explicativas $\boldsymbol X_i$ . Entonces, para una determinada distribución de las variables aleatorias $\varepsilon_{i,k}$ (dados los valores de los parámetros de la EV de tipo 1), conocemos la probabilidad condicional de elegir la opción $k$ con la condición de $\boldsymbol X_i$ .
Esto se explica en la siguiente parte de la Wikipedia correspondiente artículo :
También es posible formular la regresión logística multinomial como una modelo de variable latente, siguiendo el modelo de variable latente de dos vías descrito para la regresión logística binaria. Esta formulación es común en la teoría de los modelos de elección discreta, y facilita la comparar la regresión logística multinomial con el modelo probit multinomial relacionado multinomial, así como extenderla a modelos más complejos.
Imagina que, para cada punto de datos $i$ y el posible resultado $k$ , existe una variable latente continua $Y_{i,k}^*$ (es decir, una variable aleatoria no observada variable aleatoria) que se distribuye de la siguiente manera:
$$\begin{align} Y_{i,1}^{\ast} &= \boldsymbol\beta_1 \cdot \mathbf{X}_i + \varepsilon_1 \, \\ Y_{i,2}^{\ast} &= \boldsymbol\beta_2 \cdot \mathbf{X}_i + \varepsilon_2 \, \\ \cdots & \\ Y_{i,K}^{\ast} &= \boldsymbol\beta_K \cdot \mathbf{X}_i + \varepsilon_K \, \\ \end{align} $$
donde $\varepsilon_k \sim \operatorname{EV}_1(0,1),$ es decir, una distribución estándar de valores extremos de tipo 1.
Esta variable latente puede considerarse como la utilidad asociada con el punto de datos $i$ elegir el resultado $k$ donde hay algún aleatoriedad en la cantidad real de utilidad obtenida, que tiene en cuenta por otros factores no modelados que intervienen en la elección. El valor de la variable real $Y_i$ se determina entonces de forma no aleatoria de forma no aleatoria a partir de estas variables latentes (es decir, la aleatoriedad se ha de los resultados observados a las variables latentes), donde resultado $k$ se elige si y sólo si la utilidad asociada (la valor de $Y_{i,k}^{\ast}$ ) es mayor que las utilidades de todas las demás opciones, es decir, si la utilidad asociada al resultado $k$ es el máximo de todas las utilidades. Como las variables latentes son continuas, la probabilidad de que dos tengan exactamente el mismo valor es 0, por lo que ignoramos el escenario. Es decir:
\begin{align} \Pr(Y_i = 1) &= \Pr(Y_{i,1}^{\ast} > Y_{i,2}^{\ast} \text{ and } Y_{i,1}^{\ast} > Y_{i,3}^{\ast}\text{ and } \cdots \text{ and } Y_{i,1}^{\ast} > Y_{i,K}^{\ast}) \\ \Pr(Y_i = 2) &= \Pr(Y_{i,2}^{\ast} > Y_{i,1}^{\ast} \text{ and } Y_{i,2}^{\ast} > Y_{i,3}^{\ast}\text{ and } \cdots \text{ and } Y_{i,2}^{\ast} > Y_{i,K}^{\ast}) \\ \cdots & \\ \Pr(Y_i = K) &= \Pr(Y_{i,K}^{\ast} > Y_{i,1}^{\ast} \text{ and } Y_{i,K}^{\ast} > Y_{i,2}^{\ast}\text{ and } \cdots \text{ and } Y_{i,K}^{\ast} > Y_{i,K-1}^{\ast}) \\ \end{align}
O lo que es lo mismo:
\begin{align} \Pr(Y_i = 1) &= \Pr(\max(Y_{i,1}^{\ast},Y_{i,2}^{\ast},\ldots,Y_{i,K}^{\ast})=Y_{i,1}^{\ast}) \\ \Pr(Y_i = 2) &= \Pr(\max(Y_{i,1}^{\ast},Y_{i,2}^{\ast},\ldots,Y_{i,K}^{\ast})=Y_{i,2}^{\ast}) \\ \cdots & \\ \Pr(Y_i = K) &= \Pr(\max(Y_{i,1}^{\ast},Y_{i,2}^{\ast},\ldots,Y_{i,K}^{\ast})=Y_{i,K}^{\ast}) \\ \end{align}
Editar: A veces verás anotaciones como ésta: $$ Pr( i \rightarrow k) = \Pr(\max(Y_{i,1}^{\ast},Y_{i,2}^{\ast},\ldots,Y_{i,K}^{\ast})=Y_{i,k}^{*}), $$ donde $i \rightarrow k$ significa que el individuo $i$ elige la opción $k$ es bastante concisa una vez definida la notación adecuada. Si buscas una forma útil de poner esto en una función de probabilidad, podrías ver algo como esto: $$ P_i = \prod_{k=1}^K Pr( i \rightarrow k)^{\mathbb 1_{i \rightarrow k}}, $$ donde $\mathbb 1_{i \rightarrow k}$ es una función indicadora que es igual a 1 cuando $i$ elige la opción $k$ y cero en caso contrario y $P_i$ es el PMF de la observación asociada al individuo $i$ .
Edita 2:
Para una fórmula explícita, véase el mismo artículo de Wikipedia. Consulta, por ejemplo, la sección con lo siguiente:
En consecuencia, es convencional establecer $C = -\boldsymbol\beta_K$ (o alternativamente, uno de los otros vectores de coeficientes). Esencialmente, fijamos la constante para que uno de los vectores se convierta en 0, y todos los demás vectores se transforman en la diferencia entre esos vectores y el vector que elegimos. Esto equivale a "pivotar" alrededor de uno de los $K$ opciones, y examinar cuánto mejor o peor son todas las demás $K-1$ opciones son, en relación con la elección están pivotando alrededor. Matemáticamente, transformamos transformamos los coeficientes de la siguiente manera:
\begin{align} \boldsymbol\beta'_1 &= \boldsymbol\beta_1 - \boldsymbol\beta_K \\ \cdots & \cdots \\ \boldsymbol\beta'_{K-1} &= \boldsymbol\beta_{K-1} - \boldsymbol\beta_K \\ \boldsymbol\beta'_K &= 0 \end{align}
Esto conduce a las siguientes ecuaciones:
\begin{align} \Pr(Y_i=1) &= \frac{e^{\boldsymbol\beta'_1 \cdot \mathbf{X}_i}}{1 + \sum_{k=1}^{K-1} e^{\boldsymbol\beta'_k \cdot \mathbf{X}_i}} \, \\ \cdots & \cdots \\ \Pr(Y_i=K-1) &= \frac{e^{\boldsymbol\beta'_{K-1} \cdot \mathbf{X}_i}}{1 + \sum_{k=1}^{K-1} e^{\boldsymbol\beta'_k \cdot \mathbf{X}_i}} \, \\ \Pr(Y_i=K) &= \frac{1}{1 + \sum_{k=1}^{K-1} e^{\boldsymbol\beta'_k \cdot \mathbf{X}_i}} \, \\ \end{align}
0 votos
Voto por cerrar esta pregunta como off-topic porque esto pertenece a Validación cruzada .
2 votos
No estoy de acuerdo, consideré a qué categoría debía dirigirse mi pregunta. Estoy estudiando econometría y el tema de los modelos logit multinomiales es tratado en todos mis libros de texto de economía y por mi profesor. Es correcto que esta pregunta también se podría hacer en el foro de convalidaciones cruzadas, pero os pido que no borréis mi pregunta por si alguien de econometría o economía cuantitativa me puede ayudar. Gracias
0 votos
Estoy de acuerdo con @Amy en que esta pregunta está dentro del tema. Como se explica en la sección de ayuda, la econometría/estadística está dentro del tema, aunque se superponga con cross-validated.se: economics.stackexchange.com/help/on-topic
0 votos
@jmbejara sólo estamos fomentando la ineficiencia. Tal como está, la pregunta no es específica sobre economía, y es probable que beneficie a más gente en CV. Con esta política, todas las preguntas econométricas de CV que no se han hecho aquí son on-topic. Está claro que no es la mejor política a seguir.
0 votos
@luchonacho Permitir el solapamiento es por diseño y no es exclusivo de economics.SE. Como se evidencia en este post ( meta.stackexchange.com/a/4713/299907 ), esto es algo que ocurre en todo el intercambio de pilas, en general. Me gusta la política actual.