Estoy estudiando juegos dinámicos y estoy fundamentalmente confundido sobre la relación entre el Equilibrio Perfecto de Nash de Markov y la evolución markoviana del estado. Antes de ilustrar mi duda, permítanme describir el marco básico.
Consideremos un juego jugado por N jugadores que indexamos por $i=1,...,N$ . El tiempo es discreto y está indexado por $t$ . En cada período $t$ , cada jugador $i$ elige una acción $a_{it}\in \mathcal{A}$ , donde $\mathcal{A}$ es finito y fijo a través del tiempo/jugadores para simplificar. $a_t\equiv (a_{1t},..., a_{Nt})$ es el vector de todas las acciones de los jugadores en el periodo t. En cada periodo $t$ Cada jugador $i$ obtiene una recompensa, $\pi_i(a_t, x_t)$ que depende de $a_t$ y en un vector de variables de estado de conocimiento común, $x_t$ , con apoyo $\mathcal{X}$ . Cada jugador $i$ elige las acciones que maximizan su flujo de beneficios esperado y descontado $$ E_t(\sum_{s=0}^\infty \beta_i \pi(a_t, x_t)) $$ donde $\beta_i$ es el factor de descuento.
En los trabajos aplicados es habitual que se den dos supuestos:
1. Los jugadores juegan Equilibrio Nash perfecto de Markov (MPNE). Es decir, sus estrategias en el periodo $t$ son funciones sólo de las variables de estado relevantes para el pago en el mismo período.
2. El vector de variables de estado, $x_t$ , sigue un proceso de Markov controlado de primer orden con CDF de transición $F(x_{t+1}| x_t, a_t)$ .
Entiendo que las variables de estado relevantes para el pago (mencionadas en el supuesto 1) son las variables de estado que entran explícitamente $\pi$ . En este caso, sólo $x_t$ . Por lo tanto, las estrategias de los jugadores son $\alpha\equiv \{\alpha_i(x_t): i=1,...,N \text{ and } x_t\in \mathcal{X}\}$ .
$\alpha$ es un MPNE si satisface $$ (*) \quad \alpha_i(x_t)= \text{argmax}_{a_{it}\in \mathcal{A}} \Big\{ \pi_i (a_{it}, \{\alpha_j(x_t)\}_{j\neq i}, x_t)+\beta_i \int V_i^\alpha(x_{t+1}) d F(x_{t+1}| x_t, a_{it}, \{\alpha_j(x_t)\}_{j\neq i}) \Big\} $$ para cada jugador $i$ y el estado $x_t$ , donde $V_i^\alpha$ es la función de valor que resuelve de forma única la ecuación de Bellman: $$ (**) \quad V_i^\alpha(x_t)=\max_{a_{it}\in \mathcal{A}} \Big\{ \pi_i (a_{it}, \{\alpha_j(x_t)\}_{j\neq i}, x_t)+\beta_i \int V_i^\alpha(x_{t+1}) d F(x_{t+1}| x_t, a_{it}, \{\alpha_j(x_t)\}_{j\neq i}) \Big\} $$
Preguntas:
-
Estoy confundido sobre la relación entre el culo. 1 y 2. En particular, me parece que el as. 2 es " necesario " para el culo. 1. De hecho, supongamos que $x_t$ sigue un segundo proceso de Markov de orden controlado con CDF de transición $F(x_{t+1}| x_t, a_t, x_{t-1}, a_{t-1})$ . Entonces, $x_{t-1}, a_{t-1}$ aparecerá en $(*)$ y $(**)$ , además de $x_t$ . A su vez, esto invalidaría el hecho de que las estrategias de los jugadores puedan depender de $x_t$ sólo.
-
Aquí, tal vez, estoy entendiendo mal la definición de "variables de estado relevantes para el pago". ¿Son éstas las variables de estado que entran explícitamente $\pi$ (como pensaba inicialmente), o son éstas las variables de estado que importan para la evolución del estado? Esta última interpretación, si es correcta, aclararía cualquier confusión: supongamos, por ejemplo, que $x_t$ sigue un segundo proceso de Markov de orden controlado con CDF de transición $F(x_{t+1}| x_t, a_t, x_{t-1}, a_{t-1})$ En este caso, las variables de estado relevantes para la remuneración serían $x_t, x_{t-1}, a_{t-1}$ . A su vez, un MPNE sería una estrategia $\alpha_i(x_t, x_{t-1}, a_{t-1})$ para cada jugador $i$ .
-
Supongamos que 2 se mantiene. ¿Podría mostrarme en qué se diferencia la definición de MPNE de una definición clásica de equilibrio de Nash subjuego perfecto ? En particular, si el estado evoluciona como un Markov de primer orden, ¿por qué debería un jugador condicionar sus estrategias a la historia pasada?