Disculpen el título. Me he dado cuenta de que el pago descontado en la literatura de la teoría de juegos suele adoptar la forma
$$\sum_{t=1}^\infty\lambda(1-\lambda)^{t-1}R_t$$
Esto difiere de la retribución descontada en los otros escenarios de optimización dinámica, por ejemplo, véase la Ecuación de Bellman en la teoría del control.
¿A qué se debe esta diferencia?