Los términos MA son errores retardados (no es necesario obtenerlos manualmente - por ejemplo en R se puede utilizar la función Arima que lo hace por usted y cualquier programa/lenguaje tendrá esta función básica como se menciona +1 respuesta de @RichardHardy en +1 comentario de @Dayne).
Por ejemplo, siguiendo a Verbeek (2008) Guía de econometría moderna 4ª ed pp 261 ARMA(p,q) en forma general se puede escribir como:
$$y_t=\theta_1 y_{t−1}+ … + \theta_p y_{t−p} + \epsilon_t+ \alpha_1 \epsilon_{t−1}+…+ \alpha_q \epsilon_{t−q}$$ La distinción entre el efecto de los coeficientes AR y los coeficientes MA es que modelan formas fundamentalmente diferentes de relaciones con realizaciones pasadas. Los términos AR modelan la autocorrelación de la variable dependiente, es decir, la relación con sus propias realizaciones pasadas. Los términos MA modelan la dependencia de los errores que el modelo cometió en el pasado. Estos tienen diferentes implicaciones en cuanto a la persistencia de la serie. Creo que lo mejor es visualizar esto. Aquí hay dos imágenes que tomé del mencionado Verbeek de las páginas 260-261.
En esta primera imagen se puede ver el efecto de la autocorrelación en el proceso AR(1) cuando $\theta=0.5$ . Se puede ver que, aunque sólo tenemos un término AR, su efecto es persistente a lo largo de varios períodos.
Sin embargo, consideremos ahora el caso del proceso MA(1) donde $\alpha=0.5$ . Como se puede ver claramente a continuación, el efecto se ve sólo para un período.
La ventaja de incluir términos MA (siempre que realmente deban estar ahí y no los añada sólo por gusto), en general, es que modelará con más precisión la persistencia en su modelo, tendrá un mejor ajuste y unas previsiones más precisas que de otro modo. Siempre es importante obtener la forma funcional correcta, ya que una forma funcional incorrecta puede incluso sesgar los resultados. Es decir, en un nivel muy básico (y estoy simplificando demasiado) esto es como preguntar por qué a veces utilizamos $\ln y = \alpha + \beta \ln x + e$ en lugar de $y = \alpha + \beta x +e$ es porque queremos conseguir la forma funcional correcta para que no haya una mala especificación en el modelo.