2 votos

Relación entre el equilibrio perfecto de Nash de Markov y la evolución markoviana del estado

Estoy estudiando juegos dinámicos y estoy fundamentalmente confundido sobre la relación entre el Equilibrio Perfecto de Nash de Markov y la evolución markoviana del estado. Antes de ilustrar mi duda, permítanme describir el marco básico.

Consideremos un juego jugado por N jugadores que indexamos por $i=1,...,N$ . El tiempo es discreto y está indexado por $t$ . En cada período $t$ , cada jugador $i$ elige una acción $a_{it}\in \mathcal{A}$ , donde $\mathcal{A}$ es finito y fijo a través del tiempo/jugadores para simplificar. $a_t\equiv (a_{1t},..., a_{Nt})$ es el vector de todas las acciones de los jugadores en el periodo t. En cada periodo $t$ Cada jugador $i$ obtiene una recompensa, $\pi_i(a_t, x_t)$ que depende de $a_t$ y en un vector de variables de estado de conocimiento común, $x_t$ , con apoyo $\mathcal{X}$ . Cada jugador $i$ elige las acciones que maximizan su flujo de beneficios esperado y descontado $$ E_t(\sum_{s=0}^\infty \beta_i \pi(a_t, x_t)) $$ donde $\beta_i$ es el factor de descuento.

En los trabajos aplicados es habitual que se den dos supuestos:

1. Los jugadores juegan Equilibrio Nash perfecto de Markov (MPNE). Es decir, sus estrategias en el periodo $t$ son funciones sólo de las variables de estado relevantes para el pago en el mismo período.

2. El vector de variables de estado, $x_t$ , sigue un proceso de Markov controlado de primer orden con CDF de transición $F(x_{t+1}| x_t, a_t)$ .

Entiendo que las variables de estado relevantes para el pago (mencionadas en el supuesto 1) son las variables de estado que entran explícitamente $\pi$ . En este caso, sólo $x_t$ . Por lo tanto, las estrategias de los jugadores son $\alpha\equiv \{\alpha_i(x_t): i=1,...,N \text{ and } x_t\in \mathcal{X}\}$ .

$\alpha$ es un MPNE si satisface $$ (*) \quad \alpha_i(x_t)= \text{argmax}_{a_{it}\in \mathcal{A}} \Big\{ \pi_i (a_{it}, \{\alpha_j(x_t)\}_{j\neq i}, x_t)+\beta_i \int V_i^\alpha(x_{t+1}) d F(x_{t+1}| x_t, a_{it}, \{\alpha_j(x_t)\}_{j\neq i}) \Big\} $$ para cada jugador $i$ y el estado $x_t$ , donde $V_i^\alpha$ es la función de valor que resuelve de forma única la ecuación de Bellman: $$ (**) \quad V_i^\alpha(x_t)=\max_{a_{it}\in \mathcal{A}} \Big\{ \pi_i (a_{it}, \{\alpha_j(x_t)\}_{j\neq i}, x_t)+\beta_i \int V_i^\alpha(x_{t+1}) d F(x_{t+1}| x_t, a_{it}, \{\alpha_j(x_t)\}_{j\neq i}) \Big\} $$

Preguntas:

  • Estoy confundido sobre la relación entre el culo. 1 y 2. En particular, me parece que el as. 2 es " necesario " para el culo. 1. De hecho, supongamos que $x_t$ sigue un segundo proceso de Markov de orden controlado con CDF de transición $F(x_{t+1}| x_t, a_t, x_{t-1}, a_{t-1})$ . Entonces, $x_{t-1}, a_{t-1}$ aparecerá en $(*)$ y $(**)$ , además de $x_t$ . A su vez, esto invalidaría el hecho de que las estrategias de los jugadores puedan depender de $x_t$ sólo.

  • Aquí, tal vez, estoy entendiendo mal la definición de "variables de estado relevantes para el pago". ¿Son éstas las variables de estado que entran explícitamente $\pi$ (como pensaba inicialmente), o son éstas las variables de estado que importan para la evolución del estado? Esta última interpretación, si es correcta, aclararía cualquier confusión: supongamos, por ejemplo, que $x_t$ sigue un segundo proceso de Markov de orden controlado con CDF de transición $F(x_{t+1}| x_t, a_t, x_{t-1}, a_{t-1})$ En este caso, las variables de estado relevantes para la remuneración serían $x_t, x_{t-1}, a_{t-1}$ . A su vez, un MPNE sería una estrategia $\alpha_i(x_t, x_{t-1}, a_{t-1})$ para cada jugador $i$ .

  • Supongamos que 2 se mantiene. ¿Podría mostrarme en qué se diferencia la definición de MPNE de una definición clásica de equilibrio de Nash subjuego perfecto ? En particular, si el estado evoluciona como un Markov de primer orden, ¿por qué debería un jugador condicionar sus estrategias a la historia pasada?

1voto

Eric L Puntos 86

Q1. Los supuestos 1 y 2 son independientes entre sí. La suposición 2 es una suposición de los fundamentos del juego, la configuración si se quiere, y no tienen restricciones de las soluciones. Es simplemente una descripción del juego.

El supuesto 1, por otro lado, es un supuesto sobre la elección de la clase de equilibrios que nos interesa. Estoy de acuerdo en que el supuesto 2 hace que resulte natural examinar los equilibrios perfectos de Markov, pero no existe esa necesidad inherente de hacerlo.

EDIT: Ver el comentario de Micheal más abajo para una mejor respuesta.

Q2. Su última interpretación es la que yo elegiría.

Q3. Un SPNE aquí sería una estrategia dependiente del tiempo y la historia. Así que $$ a_{it}: \times_{i = 1}^{t} (\mathcal{A} \times \mathcal{X})_i \rightarrow \mathcal{A} $$ es decir, la estrategia en el periodo $t$ bajo el estado $x_t$ depende de toda la historia de los estados realizados y de las acciones realizadas.

Está claro que una estrategia de Markov es un caso especial de lo anterior.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X