Un AR(1), una vez que las series temporales y los rezagos están alineados y todo está configurado, es de hecho un problema de regresión estándar. Veamos, para simplificar, un problema de regresión "estándar". Intentaré sacar algunas conclusiones a partir de ahí.
Digamos que queremos realizar una regresión lineal en la que queremos aproximar $y$ con $$h_(x) = \sum_0^n \theta_i x_i = \theta^T x $$
OLS es un caso especial de una familia más amplia de algoritmos donde la función de coste elegida es:
$$ J(\theta) = \frac{1}{2} \sum_{i=1}^{m} (h_\theta(x_i) - y_i)^2 $$ , donde $\theta$ son los pesos, $y$ es el regresor (características), $x$ el regresor (variable objetivo) y $i$ denota el $i$ ón del elemento de la muestra.
Podríamos dar una interpretación probabilística al modelo de aprendizaje automático "mecánico" anterior. Tenemos que escribir:
$$ y_i = \theta^T x_i + \epsilon_i$$
Si asumimos que $\epsilon_i \sim N(0, \sigma^2)$ sabemos que $$ p(\epsilon_i) = \frac{1}{\sqrt{2 \pi} \sigma} \exp \bigg(-\frac{\epsilon_i^2}{2 \sigma^2} \bigg)$$
Podemos entonces escribir la probabilidad condicional
$$ p(y_i | x_i; \theta) = \frac{1}{\sqrt{2 \pi} \sigma} \exp \bigg(-\frac{(y_i - \theta^T x_i)^2}{2 \sigma^2} \bigg)$$
La función de probabilidad es entonces
$$ L(\theta) = \prod_{i=1}^m p(y_i | x_i; \theta)$$
$$ log L(\theta) = \prod_{i=1}^m \frac{1}{\sqrt{2 \pi} \sigma} \exp \bigg(-\frac{(y_i - \theta^T x_i)^2}{2 \sigma^2} \bigg) $$
que después de algunos cambios se convierte en:
$$ log L(\theta) = m \log{\frac{1}{\sqrt{2 \pi} \sigma}} - \frac{1}{\sigma^2}\frac{1}{2}\sum_{i=1}^{m}(y_i - \theta^T x_i)^2$$
que de hecho es exactamente el mismo problema de optimización: se puede recortar lo anterior y dejar sólo el $J(\theta)$ del problema OLS.
P: Sé que cuando los errores son normales como en OLS entonces las soluciones son las mismas. En este caso, los procesos que se estiman son AR(1), por lo que los errores son normales aunque el proceso general no lo sea. ¿Puedo tratar la solución MLE y LS indistintamente en esta situación?
En la derivación anterior vemos que el MLE no considera $\theta$ como una variable aleatoria, como es el caso de otra metodología (MAP bayesiano) Por lo tanto, creo que se podrían tratar indistintamente MLE y LS sabiendo que los errores son normales. Para una inferencia adecuada: AZUL.
P: ¿Hay que cambiar el algoritmo LM de alguna manera para que se pueda aplicar directamente a la estimación MLE? Si es así, ¿cómo?
Creo que esto es cierto ya que el problema de optimización es el mismo.