Estoy revisando los procesos de decisión de Markov (MDP) y hay algo que se me escapa con respecto al argumento de la contracción. Estoy bastante seguro de que es un error tonto en alguna parte (tal vez computacional), pero de todos modos, no puedo averiguarlo. Aquí va.
Consideremos un MDP simple con dos estados y dos acciones definido como sigue.
$$ r(s,a) = \begin{pmatrix} 1 & 1 \\ 1 & 1 \end{pmatrix},$$
$$ P(s,s',1) = \begin{pmatrix} 1 & 0 \\ 1 & 0 \end{pmatrix},$$
$$ P(s,s',2) = \begin{pmatrix} 0.5 & 0.5 \\ 0.5 & 0.5 \end{pmatrix},$$
$$ \beta \in (0,1). $$
Ahora supongamos que empezamos con dos conjeturas para la función de valor
$$ V_1 (s) = \begin{pmatrix} 100 \\ 0 \end{pmatrix}, $$
y
$$ V_2 (s) = \begin{pmatrix} 0 \\ 1 \end{pmatrix}. $$
Si iteramos sobre estas funciones de valor aproximadas utilizando el operador de Bellman obtenemos
$$ T(V_1) = \begin{pmatrix} \max_a \begin{cases} 1 + 100\beta, \qquad \text{ if } a = 1, \\ 1 + 50\beta, \qquad \text{ if } a = 2. \end{cases}\\ \max_a \begin{cases} 1 + 100\beta, \qquad \text{ if } a = 1, \\ 1 + 50\beta, \qquad \text{ if } a = 2. \end{cases} \end{pmatrix} = \begin{pmatrix} 1 + \beta 100 \\ 1+ \beta 100 \end{pmatrix}$$
y
$$ T(V_2) = \begin{pmatrix} \max_a \begin{cases} 1 + 0\beta, \qquad \text{ if } a = 1, \\ 1 + 0.5\beta, \qquad \text{ if } a = 2. \end{cases}\\ \max_a \begin{cases} 1 + 0\beta, \qquad \text{ if } a = 1, \\ 1 + 0.5\beta, \qquad \text{ if } a = 2. \end{cases} \end{pmatrix} = \begin{pmatrix} 1 + \beta 0.5 \\ 1+ \beta 0.5 \end{pmatrix}$$
Pero entonces para $\beta$ lo suficientemente cerca de $1$ y tomando por ejemplo la norma Manhattan, tenemos
$$ d(V_1(s),V_2(s)) \approx 101,$$
y
$$ d(T(V_1(s)),T(V_2(s))) \approx 199.$$
Ahora que suena raro para mí porque pensé $T$ se suponía que era un mapeo de contracción. ¿Dónde he metido la pata? ¿Hay algún error en mi cálculo? ¿Me estoy olvidando de aplicar una hipótesis importante? ¿O estoy malinterpretando algo sobre los mapas de contracción?