2 votos

Estrategia Tit-For-Stat Mejores respuestas

Dejemos que $\delta\in(0,1)$ sea el factor de descuento. Consideremos el juego de etapas en el juego del dilema del prisionero infinitamente repetido:

stage game

El objetivo es derivar condiciones sobre $\delta$ de tal manera que el perfil de estrategia simétrica de "ojo por ojo" es un equilibrio de Nash.

Para recordar, tit-for-tat es cuando un jugador coopera (aquí juega Yield, $Y$ ) la primera ronda y luego cada ronda después copia la acción de su oponente la segunda ronda.

Me dicen que si A está jugando al tetazo entonces las mejores respuestas posibles de B serían alternar entre $N$ y $Y$ (jugando $N$ primero), para jugar siempre $N$ o jugar al "ojo por ojo", lo que hace que ambos jugadores jueguen siempre $Y$ .

Calculamos los pagos esperados de cada uno en función de $\delta$ y a continuación, las condiciones de la figura en $\delta$ para que $B$ debe jugar al ojo por ojo. Como los pagos son simétricos, estas condiciones proporcionan $A$ también debe jugar al ojo por ojo dado $B$ es y tenemos un Nash.

Mi única pregunta es por qué debe ser que estas son las únicas respuestas mejores posibles. ¿Por qué no $B$ tiene algunos periodos en los que juega $N$ durante un tiempo y luego cambia a sólo cooperar? O viceversa. O cualquier cosa fuera de estos tres.

0voto

Coincoin Puntos 12823

En lugar de llamar a las tres estrategias que has nombrado las "mejores respuestas posibles", yo diría que son las respuestas más destacadas . Como has mencionado, hay muchas otras respuestas potenciales a una estrategia de ojo por ojo. Resulta que lo que mejor responde a una estrategia de ojo por ojo es también una estrategia de ojo por ojo. Cualquier otra estrategia producirá una recompensa menor que el uso del ojo por ojo.

Considere la secuencia de resultados generados por cada una de las tres estrategias que ha mencionado (jugadas por $i$ contra el titulillo del otro jugador):

  • Tit-for-tat ( $s_i^T$ ): $(Y,Y)$ , $(Y,Y)$ , $(Y,Y)$ , $\dots$
  • Alternancia ( $s_i^A$ ): $(Y,N)$ , $(N,Y)$ , $(Y,N)$ , $\dots$
  • Siempre $N$ ( $s_i^N$ ): $(Y,N)$ , $(N,N)$ , $(N,N)$ , $\dots$

Obsérvese que se observan los cuatro posibles resultados del juego por etapas. En consecuencia, si un jugador $i$ es jugar a cualquier otra estrategia $s_i^O$ Su pago $u_i(s_i^O,s_j^T)$ puede expresarse como una combinación convexa de los resultados de jugar cualquiera de las tres estrategias anteriores. Es decir, existe $\alpha,\beta\in[0,1]$ con $\alpha+\beta\le1$ tal que, para cualquier $s_i^O\in S_i$ , \begin {Edición} u_i(s_i^O,s_j^T)= \alpha u_i(s_i^T,s_j^T) + \beta u_i(s_i^A,s_j^T) +(1- \alpha - \beta )u_i(s_i^N,s_j^T). \end {Ecuación}

Ahora bien, si se establece que $u_i(s_i^T,s_j^T)\ge u_i(s_i^A,s_j^T)$ y $u_i(s_i^T,s_j^T)\ge u_i(s_i^N,s_j^T)$ que supongo que has hecho, debe seguirse que $u_i(s_i^T,s_j^T)\ge u_i(s_i^O,s_j^T)$ para cualquier otra estrategia $s_i^O$ .

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X