Dejemos que $\delta\in(0,1)$ sea el factor de descuento. Consideremos el juego de etapas en el juego del dilema del prisionero infinitamente repetido:
El objetivo es derivar condiciones sobre $\delta$ de tal manera que el perfil de estrategia simétrica de "ojo por ojo" es un equilibrio de Nash.
Para recordar, tit-for-tat es cuando un jugador coopera (aquí juega Yield, $Y$ ) la primera ronda y luego cada ronda después copia la acción de su oponente la segunda ronda.
Me dicen que si A está jugando al tetazo entonces las mejores respuestas posibles de B serían alternar entre $N$ y $Y$ (jugando $N$ primero), para jugar siempre $N$ o jugar al "ojo por ojo", lo que hace que ambos jugadores jueguen siempre $Y$ .
Calculamos los pagos esperados de cada uno en función de $\delta$ y a continuación, las condiciones de la figura en $\delta$ para que $B$ debe jugar al ojo por ojo. Como los pagos son simétricos, estas condiciones proporcionan $A$ también debe jugar al ojo por ojo dado $B$ es y tenemos un Nash.
Mi única pregunta es por qué debe ser que estas son las únicas respuestas mejores posibles. ¿Por qué no $B$ tiene algunos periodos en los que juega $N$ durante un tiempo y luego cambia a sólo cooperar? O viceversa. O cualquier cosa fuera de estos tres.