4 votos

Cómo aplicar Levenberg Marquardt a la estimación de máxima probabilidad

En este documento de la p315:

http://www.ssc.upenn.edu/~fdiebold/papers/paper55/DRAfinal.pdf

Explican que utilizan Levenberg Marquardt (LM) (junto con BHHH) para maximizar la probabilidad. Sin embargo, según tengo entendido, el LM sólo puede utilizarse para resolver problemas de mínimos cuadrados (LS). ¿Son las soluciones LS y MLE las mismas para este tipo de problemas?

Sé que cuando los errores son normales como en OLS entonces las soluciones son las mismas. En este caso, los procesos que se estiman son AR(1), por lo que los errores son normales aunque el proceso general no lo sea. ¿Puedo tratar la solución MLE y LS indistintamente en esta situación?

En este caso, ¿puedo simplemente aplicar la LM para resolver la solución LS con la seguridad de que los parámetros óptimos de LS son también los que resolverán el problema MLE?

¿O hay que cambiar el algoritmo LM de alguna manera para que se pueda aplicar directamente a la estimación MLE? Si es así, ¿cómo?

5voto

Caramdir Puntos 201

Un AR(1), una vez que las series temporales y los rezagos están alineados y todo está configurado, es de hecho un problema de regresión estándar. Veamos, para simplificar, un problema de regresión "estándar". Intentaré sacar algunas conclusiones a partir de ahí.

Digamos que queremos realizar una regresión lineal en la que queremos aproximar $y$ con $$h_(x) = \sum_0^n \theta_i x_i = \theta^T x $$

OLS es un caso especial de una familia más amplia de algoritmos donde la función de coste elegida es:

$$ J(\theta) = \frac{1}{2} \sum_{i=1}^{m} (h_\theta(x_i) - y_i)^2 $$ , donde $\theta$ son los pesos, $y$ es el regresor (características), $x$ el regresor (variable objetivo) y $i$ denota el $i$ ón del elemento de la muestra.

Podríamos dar una interpretación probabilística al modelo de aprendizaje automático "mecánico" anterior. Tenemos que escribir:

$$ y_i = \theta^T x_i + \epsilon_i$$

Si asumimos que $\epsilon_i \sim N(0, \sigma^2)$ sabemos que $$ p(\epsilon_i) = \frac{1}{\sqrt{2 \pi} \sigma} \exp \bigg(-\frac{\epsilon_i^2}{2 \sigma^2} \bigg)$$

Podemos entonces escribir la probabilidad condicional

$$ p(y_i | x_i; \theta) = \frac{1}{\sqrt{2 \pi} \sigma} \exp \bigg(-\frac{(y_i - \theta^T x_i)^2}{2 \sigma^2} \bigg)$$

La función de probabilidad es entonces

$$ L(\theta) = \prod_{i=1}^m p(y_i | x_i; \theta)$$

$$ log L(\theta) = \prod_{i=1}^m \frac{1}{\sqrt{2 \pi} \sigma} \exp \bigg(-\frac{(y_i - \theta^T x_i)^2}{2 \sigma^2} \bigg) $$

que después de algunos cambios se convierte en:

$$ log L(\theta) = m \log{\frac{1}{\sqrt{2 \pi} \sigma}} - \frac{1}{\sigma^2}\frac{1}{2}\sum_{i=1}^{m}(y_i - \theta^T x_i)^2$$

que de hecho es exactamente el mismo problema de optimización: se puede recortar lo anterior y dejar sólo el $J(\theta)$ del problema OLS.

P: Sé que cuando los errores son normales como en OLS entonces las soluciones son las mismas. En este caso, los procesos que se estiman son AR(1), por lo que los errores son normales aunque el proceso general no lo sea. ¿Puedo tratar la solución MLE y LS indistintamente en esta situación?

En la derivación anterior vemos que el MLE no considera $\theta$ como una variable aleatoria, como es el caso de otra metodología (MAP bayesiano) Por lo tanto, creo que se podrían tratar indistintamente MLE y LS sabiendo que los errores son normales. Para una inferencia adecuada: AZUL.

P: ¿Hay que cambiar el algoritmo LM de alguna manera para que se pueda aplicar directamente a la estimación MLE? Si es así, ¿cómo?

Creo que esto es cierto ya que el problema de optimización es el mismo.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X