Recientemente he comenzado a estudiar la optimización dinámica. No logro comprender del todo el hecho de que la función de valor de la ecuación de Bellman sea un punto fijo de una aplicación contractiva. Hasta ahora mi comprensión es bastante inocente: si el problema es finito, digamos: T∑t=0βtu(ct) construimos la ecuación de Bellman desde el final, como si conociéramos de antemano el valor máximo posible de la secuencia. Comenzando desde el último período T, simplemente repetimos la maximización añadiendo un término óptimo que refleje la utilidad del período actual u(ct), hasta llegar al período 0. Desde aquí puedo ver claramente cómo funciona la aplicación contractiva. Pero el caso infinito no es tan fácil para mí de comprender: solo puedo suponer que, mediante la iteración del operador de Bellman (Bv)(x), realizamos una "calibración" de la función de política hasta encontrar la función de valor (es decir, la máxima utilidad posible dadas nuestras condiciones de transversalidad) (Bv)(x)=v(x). ¿Estoy al menos pensando en la dirección correcta, o esta idea debería entenderse de otra manera? Gracias de antemano. (También, esta es mi primera pregunta en .stackexchange, y si hay algún problema con la presentación de mi pregunta, por favor, házmelo saber)
Gracias, después de leer tu publicación veo que es de hecho un punto fijo por definición. Sí, asumí que la función de utilidad está acotada, etc., por defecto. He encontrado un artículo que explica el punto con más detalle.