Un HJB está compuesto por dos componentes:
- un "componente central" que corresponde a aplicar un control óptimo
- la "dinámica" de la función de valor (que rodea a esta optimización).
Tomemos la versión de una dimensión del HJB (2.3) de L, C. A., & Mouzouni, C. (2019). A mean field game of portfolio trading and its consequences on perceived correlations. que conozco bien: $${\gamma\over 2} q^2 =\partial_t u + a \mu\; \partial_s u+\sup_\nu \left\{ \nu\partial_q u - \ell \;\nu^2/V) \right\}$$ con la condición terminal $u_T=-Aq^2$ (aquí tomé $L(x)=\ell x^2$ en la igualdad original para simplificarla).
Para resolverlo, una forma simple es aplicar una secuencia de iteraciones de valo-política:
- puedes comenzar con una suposición arbitraria (pero no demasiado estúpida) para el valor $u_n(t,q)$ para obtener una posición de tamaño $q$ en $t$.
- gracias a eso, puedes resolver la parte del control óptimo y encontrar una velocidad de negociación óptima $\nu^* $ que resuelve el supremo (para cada $(t,q)$). Puedes hacerlo numéricamente en general, pero aquí se puede hacer en forma cerrada: $\nu^*=\partial_q u_n\cdot V / (2\ell)$.
- gracias a eso, puedes insertarlo en el HJB y encontrar una PDE. Para nosotros será $${\gamma\over 2} q^2 =\partial_t u_n + a \mu\; \partial_s u+ {v\over 4\ell}(\partial_q u_n)^2.$$
- puedes resolverlo de manera retroactiva ya que tenemos la condición terminal. Te dará $v_{n+1}$.
Ahora puedes iterar. A menudo se habla del método de Howard ya que fue explicado en Howard, R.: Dynamic Programming and Markov Processes; MIT Press, Cambridge (1960).
¿Cuáles son las conclusiones:
- un HJB es una combinación de un supremo (que corresponde a resolver el control óptimo) y algunos términos de PDE.
- una vez que resuelves el supremo, obtienes una PDE que es hacia atrás (eso es natural: en la optimalidad del control proviene de un razonamiento hacia atrás).
- puedes iterar y convergerá (además Howard te dice que converges de manera monótona: en cada iteración estás más cerca de la verdadera función de valor y la verdadera política óptima).
Puedes hacer la relación con el aprendizaje por refuerzo pero no es tan cierto, ya que en RL la convergencia no es monótona. Sin embargo, puedes usar RL para resolver problemas de negociación óptima, cf Sección 5.4 de Mounjid, Othmane, and CharlesAlbert Lehalle. "Improving reinforcement learning algorithms: towards optimal learning rate policies." Mathematical Finance (2019).