Procesos de decisión de Markov, contracciones e iteración de valores

Question

Procesos de decisión de Markov, contracciones e iteración de valores

Preguntado el 20 de Febrero, 2015: Cuando se hizo la pregunta
278 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy revisando los procesos de decisión de Markov (MDP) y hay algo que se me escapa con respecto al argumento de la contracción. Estoy bastante seguro de que es un error tonto en alguna parte (tal vez computacional), pero de todos modos, no puedo averiguarlo. Aquí va.

Consideremos un MDP simple con dos estados y dos acciones definido como sigue.

$$ r(s,a) = \begin{pmatrix} 1 & 1 \\ 1 & 1 \end{pmatrix},$$

$$ P(s,s',1) = \begin{pmatrix} 1 & 0 \\ 1 & 0 \end{pmatrix},$$

$$ P(s,s',2) = \begin{pmatrix} 0.5 & 0.5 \\ 0.5 & 0.5 \end{pmatrix},$$

$$ \beta \in (0,1). $$

Ahora supongamos que empezamos con dos conjeturas para la función de valor

$$ V_1 (s) = \begin{pmatrix} 100 \\ 0 \end{pmatrix}, $$

y

$$ V_2 (s) = \begin{pmatrix} 0 \\ 1 \end{pmatrix}. $$

Si iteramos sobre estas funciones de valor aproximadas utilizando el operador de Bellman obtenemos

$$ T(V_1) = \begin{pmatrix} \max_a \begin{cases} 1 + 100\beta, \qquad \text{ if } a = 1, \\ 1 + 50\beta, \qquad \text{ if } a = 2. \end{cases}\\ \max_a \begin{cases} 1 + 100\beta, \qquad \text{ if } a = 1, \\ 1 + 50\beta, \qquad \text{ if } a = 2. \end{cases} \end{pmatrix} = \begin{pmatrix} 1 + \beta 100 \\ 1+ \beta 100 \end{pmatrix}$$

y

$$ T(V_2) = \begin{pmatrix} \max_a \begin{cases} 1 + 0\beta, \qquad \text{ if } a = 1, \\ 1 + 0.5\beta, \qquad \text{ if } a = 2. \end{cases}\\ \max_a \begin{cases} 1 + 0\beta, \qquad \text{ if } a = 1, \\ 1 + 0.5\beta, \qquad \text{ if } a = 2. \end{cases} \end{pmatrix} = \begin{pmatrix} 1 + \beta 0.5 \\ 1+ \beta 0.5 \end{pmatrix}$$

Pero entonces para $\beta$ lo suficientemente cerca de $1$ y tomando por ejemplo la norma Manhattan, tenemos

$$ d(V_1(s),V_2(s)) \approx 101,$$

y

$$ d(T(V_1(s)),T(V_2(s))) \approx 199.$$

Ahora que suena raro para mí porque pensé $T$ se suponía que era un mapeo de contracción. ¿Dónde he metido la pata? ¿Hay algún error en mi cálculo? ¿Me estoy olvidando de aplicar una hipótesis importante? ¿O estoy malinterpretando algo sobre los mapas de contracción?

Preguntado el 20 de Febrero, 2015 por Jader Dias

Answer 1

1 Respuestas

Answer 2

2voto

Craig Puntos 1013

El operador de iteración del valor es una contracción con respecto al supremum norma. Su ejemplo probablemente proporciona un contraejemplo para la afirmación de que es una contracción con respecto a la norma de Manhattan.

Respondido el 21 de Febrero, 2015 por Craig (1013 Puntos )

Procesos de decisión de Markov, contracciones e iteración de valores

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

Finanhelp.com

Powered by:

Procesos de decisión de Markov, contracciones e iteración de valores

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

Finanhelp.com

Powered by: