Supongamos que $\Omega$ es un conjunto de resultados mutuamente excluyentes de una variable aleatoria discreta y $f$ es una función de utilidad donde $0 < f(\omega) \leq 1$ , $\sum_\Omega f(\omega) = 1$ etc.
Cuando $f$ se distribuye uniformemente sobre $\Omega$ y $f$ es un función de masa de probabilidad la entropía de Shannon $H(\Omega) = \sum_{\Omega}f(\omega)log\frac{1}{f(\omega)}$ se maximiza ( $=log|\Omega|)$ y cuando un elemento de $\Omega$ tiene todos los $f$ la entropía de Shannon se minimiza ( $0$ De hecho, es una de las más importantes.) Esto corresponde a las intuiciones sobre surprisal (o reducción de la incertidumbre ) y los resultados y incertidumbre (o sorpresa esperada ) y las variables aleatorias:
- Cuando $f$ se distribuye uniformemente, la incertidumbre se maximiza, y cuantos más resultados haya para que la masa se distribuya uniformemente, más incertidumbre tendremos.
- Cuando $f$ tiene toda su masa concentrada en un resultado, no tenemos incertidumbre.
- Cuando asignamos a un resultado una probabilidad de $1$ No obtenemos ninguna información (no nos sorprende) cuando lo observamos.
- Cuando asignamos a un resultado una probabilidad cada vez más cercana a $0$ La observación de su ocurrencia es cada vez más informativa ("sorprendente").
(Todo esto no dice nada sobre la interpretación de codificación mucho más concreta -pero menos epistémica- de la información/entropía de Shannon, por supuesto).
Sin embargo, cuando $f$ tiene la interpretación de un función de utilidad ¿existe una interpretación sensata de $log\frac{1}{f(\omega)}$ o $\sum f(\omega)log\frac{1}{f(\omega)}$ ? Me parece que sí:
- si $f$ como PMF representa una distribución uniforme sobre $\Omega$ entonces $f$ como función de utilidad corresponde a indiferencia sobre los resultados que no podrían ser mayores*
- una función de utilidad en la que un resultado tiene toda la utilidad y el resto no tiene ninguna (una utilidad tan sesgada como podría haber) corresponde a preferencias relativas muy fuertes -- la falta de indiferencia.
¿Existe alguna referencia que amplíe esta información? ¿Me he perdido algo sobre las limitaciones en la comparación de funciones de masa de probabilidad y utilidades relativas normalizadas sobre variables aleatorias discretas?
*Conozco las curvas de indiferencia y no veo cómo podrían ser relevantes para mi pregunta por varias razones, empezando por mi enfoque en un espacio muestral categórico y por el hecho de que no estoy interesado en la "indiferencia" per se, sino más bien en cómo interpretar las utilidades como probabilidades y cómo interpretar las funciones sobre las probabilidades cuando la "distribución de probabilidad" (discreta) en cuestión tiene realmente o (adicionalmente) la interpretación de una función de utilidad.