Al resolver (numéricamente, por iteración de la función de valor) un problema de programación dinámica en tiempo discreto, como
$$V_1(a) = \max_{c} \ u(c) + \dfrac{1}{1+\rho}V_0(a')$$
maximizamos con respecto a la variable de control y obtenemos una condición de primer orden que luego volvemos a introducir en la ecuación funcional mostrada anteriormente. El resultado de este paso, $V(a)_1$ se utilizará en el lado derecho de una segunda iteración
$$V_2(a) = \max_{c} \ u(c) + \dfrac{1}{1+\rho}V_1(a')$$
y repetimos este proceso hasta que $V(a)_n-V(a)_{n+1}<\epsilon$ .
Mi pregunta es ¿cómo funciona la actualización de la función de valor en tiempo continuo? He estado trabajando en un documento que utiliza la programación dinámica en tiempo continuo, por lo que la ecuación de Bellman se ve como sigue
$$\rho V_n(a) = \max_{c} \ u(c) + \dfrac{\partial V_n(a)}{\partial a}da_t \quad (*)$$
donde la ecuación de transición está representada por $da_t$ . Por lo que he visto, la actualización de la función de valor se hace calculando $\Delta$ :
$$ \Delta = \ u(c(a^*)) + \dfrac{\partial V_n(a)}{\partial a}da_t(a^*) - \rho V_n(a)$$
donde $u(c(a^*))$ y $da_t(a^*)$ representan la ecuación de control y transición como funciones de la política óptima. Es decir, maximizamos el lado derecho como en el ejemplo anterior (el caso de tiempo discreto), pero luego restamos $\rho V(a)$ de ambos lados. A continuación, la actualización de la función de valor se realiza de la siguiente manera:
$$V_{n+1}(a) = V_n(a) + \Delta$$
¿Cómo puede ser esto? Habría pensado que sólo tendría que utilizar la RHS maximizada de (*) y volver a introducir una nueva iteración. ¿Cómo es que el otro método es el correcto?