Comencemos con lo básico.
Supongamos que $\Theta$ es un conjunto finito de estados y $\theta$ es el elemento del conjunto de estados. Para simplificar el modelo, asumimos que $\Theta = \{\theta_1 = G, \theta_2 = B \}$. El espacio de señales de un emisor es una partición $\pi=\{s_1, s_2\}$ de $\Theta\times [0,1]$ tal que $(s_i)_{i=1}^2$ es una realización de señales. Además, asumimos que $Y$ es una variable aleatoria independiente de $\Theta$ y uniformemente distribuida en $[0,1]$ con $y$ siendo la realización de $Y$. La señal $s\in \pi$ cuando $(\theta,y)\in s$ y sea $\Lambda\{y|(\theta,y)\in s\} = \mathbb{P}(s|\theta)$, donde $\Lambda(\cdot)$ representa la medida de Lebesgue.
Una distribución de posteriores se denota por $\tau \in \Delta(\Delta(\Theta))$ y tiene un soporte finito. Dada una señal $\pi$, cualquier realización de señal $s$ induce una creencia posterior $\mu_s(\theta) \triangleq \mu(\theta|s)$. Cada señal $\pi$ conduce a una distribución sobre creencias posteriores, es decir cada $\pi$ induce $\tau$ si $\text{Supp}(\tau)=\{\mu_s\}_{s\in \pi}$ y escribimos $\tau = <\pi>$. Por lo tanto, observar una realización de señal $s$ con probabilidad $\mathbb{P}(s)>0$ genera una creencia posterior única
\begin{equation}\mu_s(\theta) = \frac{\mathbb{P}(s|\theta)\mu_0(\theta)}{\sum_{\theta^{'}\in\Theta}\mathbb{P}(s|\theta^{'})\mu_0(\theta^{'})},\quad\text{para todo $s$ y $\theta$} \tag{1}\end{equation}
donde $\mathbb{P}(s) = \sum_{\theta^{'}\in\Theta}\mathbb{P}(s|\theta^{'})\mu_0(\theta^{'}) $ es la probabilidad marginal de $s$ y la distribución de creencias posteriores es
\begin{equation}\tau(\mu) \triangleq \sum_{\{s\in \pi : \mu_s = \mu\}}\mathbb{P}(s),\quad\text{para todo $\mu$} \tag{2}\end{equation}
Una distribución de creencias posteriores es $\textit{Bayes plausible}$ si la mejor proyección sobre las creencias posteriores, dada la distribución previa de creencias, es igual a las creencias previas, o en otras palabras, las creencias satisfacen la propiedad de martingala.
$$\mathbb{E}_{\tau}(\mu_s|\mu_0)=\sum_{\text{Supp}(\tau)}\mu_s\tau(\mu) =\mu_0 \tag{3}$$
La utilidad del emisor se denota por $v_1(\alpha, \theta)$ y la del receptor se denota por $v_2(\alpha, \theta)$ donde $\alpha$ denota la acción del emisor y $\theta$ el estado del mundo. El receptor forma la creencia posterior $\mu_s$ usando la regla de Bayes y luego toma una acción que es $\alpha^*(\mu_s)= argmax_{\alpha\in A}\mathbb{E}_{\mu_s}v_2(\alpha,\theta)$.
Se asume que existen al menos dos acciones y para cada acción $\alpha$, existe un $\mu$ tal que $\alpha\in \alpha^*(\mu)$ y el resultado del equilibrio del receptor se denota por $\hat{\alpha}(\mu)$. Cualquier señal $s$ induce una creencia posterior $\mu_s$, tal que
$$\mathbb{E}_{\tau}(\mu_s(\theta)|\mu_0) = \sum_{\text{Supp}(\tau)}\tau(\mu)\mu_s(\theta)= \sum_{s\in \pi: \mu=\mu_s}\pi(s) \frac{\pi(s|\theta)\mu_0(\theta)}{\sum_{\theta^{'}\in\Theta}\pi(s|\theta^{'})\mu_0(\theta^{'})} =\mu_0(\theta)\underbrace{\sum_{s\in \pi: \mu=\mu_s} \pi(s|\theta)}_{=1}=\mu_0(\theta)$$
Y por lo tanto
$$\mathbb{E}_{\tau}(\mu_s(\theta)|\mu_0) = \sum_{\text{Supp}(\tau)}\tau(\mu)\mu_s(\theta) = \mu_0(\theta) \tag{4}$$
Ahora, al ir a $(1)$, tenemos que
$$v_s(\mu_s)=\mu_s(G) u_s(\hat{\alpha}(\mu_s(G)), G)+\underbrace{(1-\mu_s(G))}_{\mu_s(B)}u_s(\hat{\alpha}(\mu_s(B)), B)\tag{5}$$
Por lo tanto, acabamos con $(5)$ donde la utilidad del emisor depende solo de las creencias posteriores $\mu_s=(\mu_s(G),\mu_s(B))$ y el estado $\theta$. Sin embargo, al aplicar las expectativas de la distribución de creencias posteriores en la última ecuación, ya no tenemos ninguna preocupación por $\theta$ y, por lo tanto
$$\mathbb{E}_\tau v_s(\mu_s) =\mathbb{E}_{\tau}\left(\sum_{\theta\in\Theta}\mu_s(\theta) u_s(\hat{\alpha}(\mu_s(\theta)), \theta)\right) = \sum_{\text{Supp}(\tau)}\tau(\mu)\sum_{\theta\in\Theta}\mu_s(\theta) u_s(\hat{\alpha}(\mu_s(\theta),\theta)$$
Al definir $\hat{V}(\mu_s)= \sum_{\theta\in\Theta}\mu_s(\theta) u_s(\hat{\alpha}(\mu_s(\theta),\theta)$ el problema del emisor se reduce a lo siguiente
$$\tau^*\in \text{argmax}\left(\mathbb{E}_{\tau}\left(\hat{V}(\mu_s)\right)\right) \tag{*}$$
$$\text{tal que $\sum_{\text{Supp}(\tau)}\tau(\mu)\mu_s(\theta) = \mu_0(\theta)$}\tag{**}$$
y el problema del emisor se reduce a $(*)$ y $(**)$
Mi pregunta es la siguiente
¿Cómo resuelvo para el óptimo $\tau=\tau^*$ en el caso del espacio de estado binario $\Theta={G,B}$. Suponga que la creencia previa sobre $G$ es $\mu_0(G)=q\in(0,1)$ y la utilidad del emisor es $u_s(\alpha, \theta) = \alpha$ y la del receptor es $u_r(\alpha, \theta) = -(\alpha - \theta)^2$