6 votos

¿Cómo se resuelve en realidad una ecuación HJB estocástica en la práctica?

He leído una serie de trabajos recientes sobre market making. Casi todos los trabajos más recientes se centran en definir el problema en términos de un espacio de estado y acciones, derivando las ecuaciones y restricciones pertinentes de HJB, y avanzando desde ahí.

Me doy cuenta de que esto podría ser visto como una pregunta amplia, pero creo que es valioso desde la perspectiva de un programador. En la práctica, ¿cuáles son los métodos generales para abordar el problema de resolver una política óptima en tiempo real? Entiendo las bases teóricas del DPP, pero hay pocas bibliotecas o marcos diseñados para ayudar con esto, y aquellos que existen son extremadamente escasos en documentación. Estoy confundido sobre qué tan viables son métodos como la iteración de política y valor al resolver en línea (en términos de costo computacional y la latencia añadida resultante en el mundo de HFT). ¿Hay buenos ejemplos de alguien que tome un conjunto de ecuaciones de HJB para hacer market making óptimo (gestión de inventario) o ejecución y avance hasta el final (preferiblemente con código o pseudocódigo) para un MVP funcional?

2voto

John Rennie Puntos 6821

Un HJB está compuesto por dos componentes:

  • un "componente central" que corresponde a aplicar un control óptimo
  • la "dinámica" de la función de valor (que rodea a esta optimización).

Tomemos la versión de una dimensión del HJB (2.3) de L, C. A., & Mouzouni, C. (2019). A mean field game of portfolio trading and its consequences on perceived correlations. que conozco bien: $${\gamma\over 2} q^2 =\partial_t u + a \mu\; \partial_s u+\sup_\nu \left\{ \nu\partial_q u - \ell \;\nu^2/V) \right\}$$ con la condición terminal $u_T=-Aq^2$ (aquí tomé $L(x)=\ell x^2$ en la igualdad original para simplificarla).

  • La parte $\sup_\nu \left\{ \nu\partial_q u - \ell \;\nu^2/V) \right\}$ corresponde a aplicar un control óptimo $\nu$ que es una velocidad de negociación $\nu$. Puedes reconocer el costo instantáneo del impacto en el mercado en $\nu^2$ y la parte de "sangrado" $\nu\partial_q u$ (dice que negociar de alguna manera corresponde a cambiar tu inventario).

  • Los otros términos son

    • el costo ${\gamma\over 2} q^2$ de mantener una exposición abierta
    • la descomposición natural de la función de valor en el tiempo $\partial_t u$
    • y el término de impacto permanente en el mercado $a \mu\; \partial_s u$ que cambia el valor de tu posición.

Para resolverlo, una forma simple es aplicar una secuencia de iteraciones de valo-política:

  1. puedes comenzar con una suposición arbitraria (pero no demasiado estúpida) para el valor $u_n(t,q)$ para obtener una posición de tamaño $q$ en $t$.
  2. gracias a eso, puedes resolver la parte del control óptimo y encontrar una velocidad de negociación óptima $\nu^* $ que resuelve el supremo (para cada $(t,q)$). Puedes hacerlo numéricamente en general, pero aquí se puede hacer en forma cerrada: $\nu^*=\partial_q u_n\cdot V / (2\ell)$.
  3. gracias a eso, puedes insertarlo en el HJB y encontrar una PDE. Para nosotros será $${\gamma\over 2} q^2 =\partial_t u_n + a \mu\; \partial_s u+ {v\over 4\ell}(\partial_q u_n)^2.$$
  4. puedes resolverlo de manera retroactiva ya que tenemos la condición terminal. Te dará $v_{n+1}$.

Ahora puedes iterar. A menudo se habla del método de Howard ya que fue explicado en Howard, R.: Dynamic Programming and Markov Processes; MIT Press, Cambridge (1960).

¿Cuáles son las conclusiones:

  • un HJB es una combinación de un supremo (que corresponde a resolver el control óptimo) y algunos términos de PDE.
  • una vez que resuelves el supremo, obtienes una PDE que es hacia atrás (eso es natural: en la optimalidad del control proviene de un razonamiento hacia atrás).
  • puedes iterar y convergerá (además Howard te dice que converges de manera monótona: en cada iteración estás más cerca de la verdadera función de valor y la verdadera política óptima).

Puedes hacer la relación con el aprendizaje por refuerzo pero no es tan cierto, ya que en RL la convergencia no es monótona. Sin embargo, puedes usar RL para resolver problemas de negociación óptima, cf Sección 5.4 de Mounjid, Othmane, and CharlesAlbert Lehalle. "Improving reinforcement learning algorithms: towards optimal learning rate policies." Mathematical Finance (2019).

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X