Processing math: 100%

2 votos

Límite inferior para la utilidad en un problema de decisión con incertidumbre

Modelo

Considere una problema de decisión de un solo agente con incertidumbre.

Un responsable de la toma de decisiones (DM) tiene que elegir la acción yY posiblemente sin ser plenamente consciente del estado del mundo. Y es un conjunto finito. El estado del mundo es una variable aleatoria V con apoyo V . Cuando el DM elige la acción yY y el estado del mundo es vV recibe la recompensa u(y,v) . Sea PVΔ(V) es la idea previa del DM sobre el estado del mundo V .

El DM también procesa algunas señales T con apoyo T y distribución PT|V con la condición de V para perfeccionar su anterior y conseguir un posterior en V , denotado por PV|T mediante la regla de Bayes.

Una estrategia para el DM es una distribución de acciones condicionada a la señal, que denotamos por PY|T . Dicha estrategia es óptima si maximiza su beneficio esperado, donde la expectativa se calcula usando la posterior PV|T .

En lo sucesivo, llamaremos S(T,PT|V) como la estructura de información del DM.


Pregunta

En el peor de los casos, la señal es poco informativa sobre V (estructura de información nula). En este escenario, el DM con estado asignado v elegirá en función de la previa PV y obtener la utilidad ˉu(v)u(argmaxyYVu(y,x)dPV(x),v). ¿Podemos demostrar que ˉu(v) es el más bajo utilidad que el DM puede alcanzar a través de todas las estructuras de información posibles? En otras palabras, tome cualquier estructura de información que sea al menos tan informativa como la estructura de información nula ; supongamos que el DM recibe alguna señal t de dicha estructura de información; ¿se sostiene que
u(argmaxyYVu(y,x)dPV|T(x|t),v)ˉu(v)?

2voto

henrikpp Puntos 340

Trivialmente, el responsable de la decisión puede ignorar toda la información adicional y simplemente jugar la misma acción que jugaría sin ninguna información. La estrategia óptima debe ser entonces al menos igual de buena, en promedio.

Pero no es necesario que sea tan bueno en todos los estados, que es lo que parece pedir el formalismo de la pregunta.

Supongamos que hay dos acciones, a y b y tres estados igualmente probables, 0 , 1 y 2 . La función de recompensa viene dada por u(a,0)=u(a,1)=u(a,2)=1 , u(b,0)=u(b,1)=1 y u(b,2)=4 . Sin información, jugando a es claramente óptimo. Supongamos ahora que el decisor sólo se entera de si el estado es 0 o no. En el estado 0 el responsable de la toma de decisiones seguirá jugando a . Pero en el resto de los estados, el decisor jugará b . En consecuencia, el pago recibido en el estado 1 será peor.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X