En resumen, ¿cuáles son algunas de las aplicaciones principales y recientes del aprendizaje por refuerzo en las finanzas que quedan fuera del ámbito habitual del modelado basado en agentes?
¿Puede explicar cómo funcionan los portafolios Q-learning descritos en su enlace? ¿Cómo determina RL qué acción para qué estado, y está esto restringido a las operaciones del día