Estoy trabajando en un antiguo conjunto de problemas (para los que lamentablemente no tengo soluciones) y me he quedado atascado. Se trata de un modelo dinámico de emprendimiento e invención. Estoy buscando orientación sobre este modelo, así como referencias o documentos que lo discutan. Este es el modelo.
Cada periodo puede optar por iniciar un negocio. La elección en el período $t$ es $b_t \in \{0, 1\}$ , donde $b_t=1$ está tratando de inventar algo, así que es un problema de elección discreta. Tienes algún parámetro de habilidad $p$ . En cada periodo que inventas, tu invento ``tiene éxito'' con probabilidad $p$ y se obtiene $v=1$ . De lo contrario, falla y se obtiene $v=0$ .
Si no inventas en el período $t$ trabajas y obtienes algún salario $w$ . La persona tiene una utilidad lineal de por vida así
\begin {Ecuación} \sum_ {t=0}^ \infty \beta ^t [b_t I\{ \text {invención exitosa}\} + (1 - b_t)w] \end {Ecuación}
$I$ es la función indicadora. El problema es nosotros (y el agente) no sabemos $p$ . Sólo saben que se distribuye con un distribución beta con parámetros $a$ y $b$ y tienen que aprenderlo con el tiempo. Sé cómo Actualizar el anterior dependiendo de si la invención tiene éxito o no (si la persona decidió inventar en periodo $t$ ).
El conjunto de problemas me pide que establezca la ecuación de Bellman y que utilice la iteración de la función de valor para resolver el problema numéricamente, pero ahí es donde me he atascado. ¿Puede alguien darme un empujón en la dirección correcta de cómo empezar?
La ecuación general de Bellman es algo así
\begin {Ecuación} V(b) = \max_ {b'} (u(b) + \beta E V(b')) \end {Ecuación} $b$ es la elección del agente en el período actual y $b'$ es la elección de los agentes en el siguiente periodo. Sin embargo, no sé cómo incorporar la actualización bayesiana de la prioridad en la expectativa, ya que el valor de la prioridad al entrar en el período $t$ y, por tanto, el valor de lo posterior al final de ese periodo depende del historial de inventos exitosos o fallidos.
Por ejemplo, la persona comienza con el anterior en $p$ como la media de la distribución beta, que es $a/(a+b)$ pero si deciden inventar en el siguiente periodo y tienen éxito, el La distribución beta se actualiza a la posterior que tiene media $(a+1)/(a+1 + b)$ . Etc.