Esto es del este documento en la sección $3$ sobre el ejemplo de los dos periodos .
Supongamos que tenemos el siguiente período de dos, $t=1,2$ modelo emisor(S) - receptor(R).
Para una ruta de acción $a=(a_1,a_2)$ y una ruta de estado $\theta=(\theta_1,\theta_2)$ los pagos para el receptor y el emisor, respectivamente, son
\begin{equation}u_R(a,\theta)=-\sum_{t=1}^{2}(a_t-\theta_t)^2,\quad u_S(a,\theta)=-\sum_{t=1}^{2}(a_t-\theta_t-\beta)^2,\quad\text{such that $\beta>0$}\end{equation}
Estado inicial $\theta_1$ tiene una distribución normal $N(0, \sigma^2_1)$ . El estado del segundo período viene dado por
$$\theta_2=\rho\theta_1+\epsilon$$
donde $\epsilon$ tiene una distribución normal $N(0, \sigma^2)$ independientemente de $\theta_1$ El parámetro de persistencia $\rho$ no tiene restricciones. Así pues, esta configuración se caracteriza por cuatro parámetros, a saber $(\beta, \sigma^2_1, \rho, \sigma^2)$ .
La distribución de estados es de dominio público, pero las realizaciones de estados sólo son observadas por el emisor. Antes del primer periodo, el emisor se compromete con una política de información dinámica que asigna cada historia privada a una distribución de señales. El juego se desarrolla como sigue. En el primer periodo, el emisor observa el estado $\theta_1$ y envía al receptor una señal $s_1$ extraídos de la distribución prescrita por la política de información en la historia $h_1 = \theta_1$ . El receptor observa $s_1$ actualiza su creencia sobre $\theta_1$ y, a continuación, elige una acción $a_1$ que es observado por el emisor. En el segundo período, el emisor observa el estado $\theta_2$ y envía una señal $s_2$ extraídos de la distribución prescrita por la política de información en la historia $h_2 = (\theta_1, s_1, a_1, \theta_2)$ . El receptor observa $s_2$ actualiza su creencia sobre $\theta_2$ y elige una acción $a_2$ . A continuación, se realizan los pagos de ambos periodos.
Para encontrar la política óptima del remitente tenemos que resolver hacia atrás. En el segundo periodo, el receptor maximiza su flujo de beneficios. Así, tras recibir la señal $s_2$ Si no lo hace, ajusta su acción a su expectativa actualizada de $\theta_2$ . Sea $v_2$ denotan la varianza posterior de $_2$ evaluada por el receptor tras observar la señal $s_2$ . Por las propiedades estándar de la cuadrática, los pagos esperados del flujo en el segundo período son $v_2$ para el receptor y $^2 v_2$ para el remitente.
En el primer periodo, la acción del receptor puede afectar tanto a su remuneración de flujo como a la informatividad de la señal del segundo periodo. Al recibir la señal $s_1$ el receptor puede desviar su acción de su punto de felicidad $\mathbb{E}[\theta_1|s_1]$ si al hacerlo se le recompensa con una señal más precisa en el segundo periodo. Sea $v_1$ denotan la varianza condicional de $\theta_1$ dado $s_1$ . Sin más información del emisor, el receptor puede elegir sus mejores respuestas miopes $a^{}_1 = \mathbb{E}[\theta_1|s_1]$ y $a^{}_2 = \rho\mathbb{E}[\theta_1|s_1]$ para obtener la retribución esperada
$$\tag{1}E[u_R(a^{}_1,a^{}_2,\theta)|s_1] = v_1 (\rho^2v_1 + \sigma^2).$$
Por lo tanto, una condición necesaria para que el receptor elija la acción $a_1=\mathbb{E}[\theta_1|s_1]+b_1$ es que la pérdida de caudal resultante no sea mayor que la pérdida total de elegir $(a^{}_1,a^{}_2):$
$$\tag{2}v_1+b_1^2\leq v_1 + (\rho^2 v_1+\sigma^2)$$
$\textbf{Question:}$ ¿Cómo se $(1)$ y $(2)$ ¿dónde se calcula? ¿Podría alguien proporcionar alguna ayuda con los cálculos que dan $(1)$ y cómo se nos ocurrió $(2)$ ?