4 votos

Procesos de decisión de Markov, contracciones e iteración de valores

Estoy revisando los procesos de decisión de Markov (MDP) y hay algo que se me escapa con respecto al argumento de la contracción. Estoy bastante seguro de que es un error tonto en alguna parte (tal vez computacional), pero de todos modos, no puedo averiguarlo. Aquí va.

Consideremos un MDP simple con dos estados y dos acciones definido como sigue.

$$ r(s,a) = \begin{pmatrix} 1 & 1 \\ 1 & 1 \end{pmatrix},$$

$$ P(s,s',1) = \begin{pmatrix} 1 & 0 \\ 1 & 0 \end{pmatrix},$$

$$ P(s,s',2) = \begin{pmatrix} 0.5 & 0.5 \\ 0.5 & 0.5 \end{pmatrix},$$

$$ \beta \in (0,1). $$

Ahora supongamos que empezamos con dos conjeturas para la función de valor

$$ V_1 (s) = \begin{pmatrix} 100 \\ 0 \end{pmatrix}, $$

y

$$ V_2 (s) = \begin{pmatrix} 0 \\ 1 \end{pmatrix}. $$

Si iteramos sobre estas funciones de valor aproximadas utilizando el operador de Bellman obtenemos

$$ T(V_1) = \begin{pmatrix} \max_a \begin{cases} 1 + 100\beta, \qquad \text{ if } a = 1, \\ 1 + 50\beta, \qquad \text{ if } a = 2. \end{cases}\\ \max_a \begin{cases} 1 + 100\beta, \qquad \text{ if } a = 1, \\ 1 + 50\beta, \qquad \text{ if } a = 2. \end{cases} \end{pmatrix} = \begin{pmatrix} 1 + \beta 100 \\ 1+ \beta 100 \end{pmatrix}$$

y

$$ T(V_2) = \begin{pmatrix} \max_a \begin{cases} 1 + 0\beta, \qquad \text{ if } a = 1, \\ 1 + 0.5\beta, \qquad \text{ if } a = 2. \end{cases}\\ \max_a \begin{cases} 1 + 0\beta, \qquad \text{ if } a = 1, \\ 1 + 0.5\beta, \qquad \text{ if } a = 2. \end{cases} \end{pmatrix} = \begin{pmatrix} 1 + \beta 0.5 \\ 1+ \beta 0.5 \end{pmatrix}$$

Pero entonces para $\beta$ lo suficientemente cerca de $1$ y tomando por ejemplo la norma Manhattan, tenemos

$$ d(V_1(s),V_2(s)) \approx 101,$$

y

$$ d(T(V_1(s)),T(V_2(s))) \approx 199.$$

Ahora que suena raro para mí porque pensé $T$ se suponía que era un mapeo de contracción. ¿Dónde he metido la pata? ¿Hay algún error en mi cálculo? ¿Me estoy olvidando de aplicar una hipótesis importante? ¿O estoy malinterpretando algo sobre los mapas de contracción?

2voto

Craig Puntos 1013

El operador de iteración del valor es una contracción con respecto al supremum norma. Su ejemplo probablemente proporciona un contraejemplo para la afirmación de que es una contracción con respecto a la norma de Manhattan.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X