Pregunta básica:
¿Podemos generalizar la EDP de HJB para aplicarla a controles óptimos de EDS no markovianas/dependientes de la trayectoria? En concreto, ¿cómo generalizamos la cartera log-óptima a procesos dependientes de la trayectoria?
Si está familiarizado con estos antecedentes de control estocástico para las SDE clásicas, vaya a la pregunta principal/objetivo para obtener más detalles.
Breve configuración y revisión: Los problemas de control estocástico se plantean a menudo en finanzas. Uno de mis favoritos es el de optimización de la log-utilidad de la riqueza. En el caso de un mercado compuesto por una acción $(S_t)_{t\geq 0}$ y un tipo de rendimiento de los bonos $r>0$ si la acción sigue un GBM general $$dS_t = \mu(t, S_t) S_t dt+\sigma(t, S_t) dB_t,$$ es decir, donde los coeficientes dependen únicamente del tiempo y del precio actual, entonces la solución se obtiene fácilmente resolviendo el HJB-PDE para el proceso de riqueza controlada $X$ : $$dX^\alpha = [r+(\mu-r)\alpha]X^\alpha dt+\alpha \sigma X^\alpha dB_t.$$ (Aquí he suprimido las dependencias de $t$ y $S_t$ por brevedad y el superíndice $\alpha$ es no una potencia). Entonces la función de valor óptimo $$v(t,x,s)= \max_\alpha \mathbb{E}(\log X_T |X_t=x, S_t=s),$$ debe resolver el HJB-PDE $$v_t+\sup_a \mathscr{L}_x^a v=0,$$ con condición de terminal $v(T,x,s)=\log x$ y para cada control $a$ , $\mathscr{L}_x^a$ es el generador infinitesimal del proceso controlado $X$ . En este caso, todo puede calcularse explícitamente de la siguiente manera.
Solución para GBM markovianos Una vez calculado el generador infinitesimal, obtenemos la EDP parabólica no lineal maximizando para el control óptimo en forma realimentada (es decir, depende de las derivadas de la función de valor $v$ ) $$v_t+rx v_x+\mu(t, s)s v_s+\frac12 \sigma^2(t, s) s^2 v_{ss} -\frac{(\lambda(t, s) v_x+\sigma(t, s) s v_{xs})^2}{2 v_{xx}}=0,$$ para $(t, x, s) \in [0, T)\times (0, \infty) \times (0, \infty)$ y $v(T, x, s)=\log x,$ para $(x,s)\in (0,\infty) \times (0,\infty)$ . Aquí los subíndices denotan derivadas parciales y $$\lambda(t, s)=\frac{\mu(t, s)-r}{\sigma(t, s)},$$ es el ratio de Sharpe. Adivinando $v(t,x,s)=\log x+u(t,s)$ nos lleva a concluir que $$v(t, x, s)=\log x +r(T-t)+\tfrac 12 \mathbb{E}^{t, s} \left[\int_t^T \lambda(w, S_w)^2 dw \right],$$ resuelve nuestra EDP no lineal original en $v$ . Esto también nos da el control óptimo $$a^*(t, x, s)=\frac{\mu(t, s)-r}{\sigma(t, s)^2},$$ una clara generalización de la fracción de Kelly para el caso constante $\frac{\mu-r}{\sigma^2}$ .
Pregunta principal/objetivo:
Un modelo aún más realista incorporaría path-dependency en los coeficientes $\mu$ y $\sigma$ . Por ejemplo, nos gustaría tener $\mu$ y $\sigma$ dependen de la trayectoria de $S$ hasta el momento $t$ . Ahora sé algunas cosas básicas. Por ejemplo, Bruno Dupire introduce el cálculo funcional de Ito. Un maravilloso resultado suyo es que la nueva fórmula funcional de Ito es exactamente igual que la fórmula estándar de Ito, salvo que las derivadas se sustituyen por derivadas generalizadas para los funcionales. Debido a esto, el generador infinitesimal también tiene el mismo aspecto, sólo que con diferentes notaciones de las derivadas. Su principal aplicación es para la fijación de precios de opciones dependientes de la trayectoria. ¿Ha utilizado alguien este cálculo funcional para generalizar la HJB-PDE de las SDE markovianas a las SDE no markovianas? ¿Podemos simplemente escribir la HJB-PDE con sus nuevas nociones de derivadas y obtener un análogo formal del caso anterior? En este caso, creo que podríamos tener una EDP estocástica y nuestras soluciones probablemente tendrán que tomarse en el sentido de la viscosidad. Un caso intrigante sería cuando $\mu$ y $\sigma$ se parametrizan o aproximan mediante redes neuronales (recurrentes), en cierto sentido. He encontrado algunos trabajos que incluyen controles dependientes de la trayectoria, y Oskendal trata el control de las difusiones de salto no markovianas utilizando FBSDEs. Si comprendo lo suficiente su trabajo lo especializaré a cuando no hay saltos e intentaré publicar una respuesta, pero también me interesan otros recursos.
Pido disculpas por la extensión de esta pregunta y por divagar un poco al final. Espero que no sea demasiado matemática, porque aunque la he formulado en términos algo generales, me interesan sobre todo las generalizaciones no markovianas/dependientes de la trayectoria de la utilidad logarítmica óptima.