Sería mucho mejor tener al menos una cabeza de su conjunto de datos para estar seguros, pero por la descripción logit condicional es el camino a seguir (aunque, en la práctica, debería utilizarse el logit de coeficientes aleatorios para evitar la IIA -independencia de alternativas irrelevantes-).
Formulario general : Piensa en ambos modelos como casos especiales de algún modelo general de elección discreta. Me he acostumbrado a la convención de que el índice $i$ es para particulares y $j$ es para las alternativas.
$$ \pi_i(Y = j|\mathbf{z})= \frac{\exp{(\boldsymbol{\beta}^\top}\mathbf{z}_j)}{\exp{(\boldsymbol{\beta}^\top}\mathbf{z}_1) \: + \:... +\: \exp{(\boldsymbol{\beta}^\top}\mathbf{z}_J)}$$
Observe que $\mathbf{z}_j$ y $\boldsymbol{\beta}$ son vectores de longitud $J \times K$ , donde $K-1$ es el número de características [para más detalles, véase Agresti(2002:300)]. Es importante entender que tenemos un término para cada alternativa en el denominador de este softmax función.
Podemos derivar mlogit y clogit poniendo a cero diferentes elementos de estos vectores. Así obtenemos diferentes modelos.
Para los simples mlogit con $J = 3$ opciones (alternativas) y un característica individual (atributo del que elige) podemos encontrar la probabilidad de elegir cada alternativa. Por ejemplo, la probabilidad de elegir la segunda alternativa por un individuo es:
$$ P_{i2}(x_i)= \frac{\exp(\alpha_2 + \beta_2 x_i)} {1 + \exp(\alpha_2 + \beta_2 x_i) + \exp(\alpha_3 + \beta_3 x_i)}$$
Es importante señalar que existe la función de una variable $x_i$ (no cambia entre alternativas para el mismo individuo). Otro punto es que los coeficientes son diferentes para todas las alternativas. Por último, podemos utilizar los interceptos $\alpha_j$ en mlogit, porque son diferentes y se pueden identificar (si establecemos $\alpha_1$ y $\beta_1$ a $0$ - por eso el 1 en el denominador).
Para clogit la situación es bastante diferente, porque tenemos diferentes valores de la misma característica para cada alternativa. Así, el modelo con 3 alternativas y una característica adopta la siguiente forma (es decir, la probabilidad de que el individuo $i$ elige la segunda alternativa):
$$ P_{i2}(\mathbf{x}_j)= \frac{\exp(\beta x_2)} {\exp(\beta x_1) + \exp(\beta x_2) + \exp(\beta x_3)}$$
Aquí tratamos la función de tres variables ( $\mathbf{x}_j$ ). En la medida en que estos valores son diferentes es suficiente con ajustar una sola $\beta$ que es el mismo para todas las alternativas. Por lo tanto, no necesitamos una alternativa base (sin unidad en el denominador). Por último, no podemos identificar ningún intercepto en dicho modelo, porque cualquier $\alpha$ simplemente desaparecerá en la relación softmax ("gracias" a la propiedad del exponente).
¿Qué cosas son también importantes para ambos modelos? La forma común de ajustar ambos modelos es la máxima verosimilitud, aunque en el logit condicional esta verosimilitud también es condicional (simplemente significa que imponemos la condición que una y sólo una alternativa debe ser elegida por cada individuo).
¿Cómo entender en la práctica qué modelo aplicar? Bueno, no obtendrá resultados si pone los datos de un modelo en el comando de otro modelo (el software estadístico se quejará de que no hay variabilidad en los datos).
Si tiene sus datos en largo forma, podría ser algo así:
Y c_logit_feature m_logit_attrib
--------------------------------------
0 3 10
1 5 10
0 7 10
--------------------------------------
1 3 12
0 5 12
0 7 12
--------------------------------------
...
--------------------------------------
0 3 18
1 5 18
0 7 18
--------------------------------------
En el paquete habitual caben clogit de dicha configuración (utilizando la última columna como indicador de agrupación). Pero mlogit suele querer una forma diferente y este hecho (según mi experiencia) confunde a la mayoría de los usuarios. Si etiquetamos nuestras tres alternativas como "a", "b" y "c", la configuración mlogit derivada de la tabla anterior va a ser:
label m_logit_ready
--------------------
"b" 10
"a" 12
...
"b" 18
Los paquetes estadísticos modernos (como R o Stata) son capaces de trabajar con diferentes formatos, pero la idea general sigue siendo la misma.
Espero que eso ayude.
1 votos
Hola: Los apartados 6.2 y 6.3 de este enlace espero que lo expliquen claramente. No lo he leído pero estoy algo familiarizado con los escritos del autor y recuerdo que me gustan. data.princeton.edu/wws509/notas/c6s2.html
0 votos
@markleeds A mí también me gusta este recurso. Mi problema es que los coeficientes estimados deberían representar medidas de cuánto valoran los usuarios los atributos, así que me resulta difícil conceptualizar cómo se puede esperar medir el valor de los atributos por separado de las preferencias de los consumidores o las preferencias de los consumidores por separado del valor de los atributos. ¿Quizás esto sea más obvio en otros entornos? A pesar de esta confusión, dado que mis variables independientes son los atributos del bien, creo que seguiré adelante con un logit condicional. Gracias por la referencia.
0 votos
Hola Shane: Nunca he utilizado el logit condicional así que, aunque tu pregunta parece interesante, no puedo ayudarte. Tal vez quieras arriesgarte y enviar un correo electrónico a Germán que hizo ese sitio. Hace poco envié un correo electrónico a alguien, sin esperar que me respondiera, y lo hizo con una respuesta valiosa. Buena suerte.