Digamos que dos jugadores, $i=2$ competir en un estándar de presos dilema juego donde el espacio de acción de cada jugador $a_i \en A_i=\{C,D\}$
Digamos que el juego se repite $T$ veces y toda la información de los últimos historias es de conocimiento común.
la estrategia de la función para cualquier jugador $i$ en el período de tiempo $t$ es $$s_i^{t}:H_t \rightarrow A_i$$
donde la historia en vez de $t$ es $H_t=A^t=(\{C,D\} \times \{C,D\})^t$
Por tanto, la estrategia de establecer $S_i$ de jugador de $i$ para la totalidad de la T de repetición del juego es el producto cartesiano
$$S_i={\sf X}^{t-1}_{t=1} A_i^{A^t} $$
Mi pregunta es la siguiente:
¿Puedo definir la estrategia de ajuste (ecuación anterior) del jugador para la $T$ repetición del juego correctamente? La razón por la que me pregunte si porque un montón de libros de definir la estrategia de establecer de forma diferente, como la unión de todas las historias asignada en el espacio de acción del jugador, tales como:
$$S_i={\sf \taza}^{t-1}_{t=1} H_t\rightarrow A_i $$