He leído opiniones contradictorias sobre la inclusión de variables dependientes retardadas en la modelización, y supongo que en parte depende del investigador y del alcance y el objetivo de la investigación.
Actualmente estoy modelando la liquidez de las acciones alemanas, con una regresión de datos de panel (efectos temporales fijos), y mis variables independientes son el precio (registrado), el número de acciones freefloat (registrado) y el valor de mercado.
Utilizando E-views, mis resultados son correctos, excepto por un valor de Durbin-Watson en torno a 1,5.
Asumiendo que Durbin Watson es válido para los datos del panel (pero para las acciones separadas, el DW también es demasiado bajo), tenemos autocorrelación en los errores.
Esto es un problema porque:.
(i) Las estimaciones de los coeficientes de regresión son ineficientes. (ii) Las previsiones basadas en las ecuaciones de regresión no son óptimas. (iii) Las pruebas de significación habituales de los coeficientes no son válidas. [fuente: Granger]
Incluir una variable dependiente retardada, es decir, la liquidez del día anterior, resuelve este problema y, como es de esperar, aumenta un poco más la R^2. Pero no estoy muy seguro de que este sea el camino a seguir. Esto es modelar la liquidez donde la liquidez del día anterior es el factor más importante.... Otra opción sería que me falta una variable independiente?
En concreto, los documentos de Achen (¿Retrasarse o no retrasarse? Reevaluación del uso de variables dependientes Dependent Variables in Regression Analysis) y Wilkins (Why Lagged Dependent Variables Can Supress the Explanatory Power of Other Independent Variables) hablan de estas cuestiones.