Señalé algunos problemas con la regresión en datos de series temporales en un respuesta anterior .
Aunque el ejemplo del VIH que he utilizado tiene que ver con la causalidad, en realidad no he pensado demasiado en la causalidad a la hora de escribir la respuesta general.
Sea cual sea la serie que utilices, debe ser estacionaria. Hay un interesante artículo de towardsdatascience llamado Cómo (no) utilizar el aprendizaje automático para la previsión de series temporales: Cómo evitar las trampas que muestra algunos de los problemas.
Dejando a un lado las cuestiones relacionadas con el ST, la comparación de las estimaciones de las regresiones simples y múltiples es en sí misma interesante. Sólo hay dos casos especiales en los que la regresión simple de $y$ en $x_1$ producirá la misma estimación OLS en $x_1$ como retroceso $y$ en $x_1$ y $x_2$ . Veamos por qué.
$\tilde{y}=\tilde{\beta_o}+\tilde{\beta_1}x_1$ y el análogo de regresión múltiple $\hat{y}=\hat{\beta_o}+\hat{\beta_1}x_1+\hat{\beta_2}x_2$ . Existe la siguiente relación entre $\tilde {\beta_1}$ y $\hat{\beta_1}$ : $$\tilde{\beta_1}=\hat{\beta_1}+\hat{\beta_2}\tilde{\phi_1}$$ donde $\tilde{\phi_1}$ es el coeficiente de la pendiente de la regresión simple de $x_{i2}$ en $x_{i1}$ , $i=1,...n$ . Por lo tanto, $\tilde{\beta_1}$ difiere del efecto parcial de $x_1$ en $\hat{y}$ . El término de confusión es el efecto parcial de $x_2$ en $\hat{y}$ veces la pendiente en la regresión de la muestra de $x_2$ en $x_1$ .
Hay dos casos distintos en los que son iguales:
- el efecto parcial de $x_2$ en $\hat{y}$ es cero en la muestra ( $\hat{\beta_2}=0$ )
- $x_1$ y $x_2$ no están correlacionados en la muestra ( $\tilde{\phi_1}=0$ )
Mostrar este sesgo de variable omitida en general requiere un poco de álgebra matricial y no es importante aquí. Todo lo que quiero mostrar es que si se asume que ambas juegan un papel, dejar de lado cualquiera de ellas conducirá a estimaciones sesgadas. Por eso, la definición de un modelo adecuado es bastante difícil. No por la causalidad (por sí sola), sino porque la correlación por sí sola no es lo que importa en el análisis de regresión. El resultado de la regresión simple de $$\frac{sample \ covariance \ of \ x \ and \ y}{sample \ variance \ of \ x}$$ sólo funciona si se cumplen las dos condiciones anteriores. De lo contrario, su estimador estará sesgado.
El año base no debería importar mucho en general, ya que se trata principalmente de una transformación del conjunto de datos únicamente (por lo que sé).
Para la modelización de los tipos de interés, creo que Una investigación sobre la modelización de los tipos de interés: PCA y Vasicek es una lectura interesante. La mejor explicación del PCA que he encontrado se encuentra aquí . Muestra muy bien en un gráfico dinámico cómo PCA minimiza el error ortogonal (perpendicular) a la línea del modelo. Los residuos de OLS son ortogonales a los regresores, lo cual es una implicación del supuesto de exogeneidad estricta $E(\epsilon_i|x_1,....,x_n) =0$ que no es restrictivo siempre que los regresores incluyan un término constante. Esto significa que el momento cruzado $E(x,y)$ de dos variables aleatorias x e y es cero (lo que significa que x es ortogonal a y y viceversa). En las series temporales (TS), esto se reformula diciendo que los regresores son ortogonales a los regresores pasados, actuales y futuros. Para la gran mayoría de los modelos de series temporales, esta condición no se cumple. Esto afecta principalmente a la teoría de las muestras finitas y puede demostrarse que el estimador sigue teniendo buenas propiedades en las muestras grandes.
Editar
Si su variable independiente es el Wilshire 5000 como índice, yo diría que en sí mismo es un gran preocupación . Esto es idéntico al anterior pregunta . La correlación casi siempre existirá y variará con el tiempo. Sin embargo, esto no es un análisis de regresión.
En general, plantear una pregunta y responderla con estadísticas es una tarea delicada y compleja. Suelo seguir algo en la línea de:
-
¿Qué trato de conseguir? ¿una previsión? ¿explicar los movimientos pasados de las variables? ¿valorar una propiedad o empresa?
-
¿Cuál es mi hipótesis? ¿Cuál es la teoría (económica) que la sustenta?
-
¿Se ha preguntado esto antes en alguna parte? Si es así, ¿qué utilizaron y ¿por qué?
-
¿Qué tipo de modelo debo utilizar? GLM (OLS), ML, ARIMA,... y qué forma funcional es la más adecuada para ello.
-
¿Qué datos serán necesarios para responder a esto (y satisfacer los supuestos del modelo elegido)
-
¿Cómo tengo que limpiar, transformar y comprobar mis datos antes de poder utilizarlos? ¿Son estacionarios? ¿Hay ruido? ¿Hay rupturas estructurales (Paul Volker, la Gran Moderación, la burbuja Dot.com, la crisis de las hipotecas de alto riesgo, la crisis de Covid, por nombrar algunas)? ¿Cómo puedo tener en cuenta estos cambios de régimen?
-
¿Hay algún factor diferente que influya en esto?
-
¿Corre el riesgo de sufrir un sesgo por variables omitidas? ¿O de multicolinealidad?
-
¿Qué pruebas son las más adecuadas para comprobar los problemas mencionados? Cómo comprobar la estacionariedad, la colinealidad, ...
-
Una vez configurado el modelo, recogidos los datos y transformados adecuadamente, se comprueban los resultados. Por ejemplo, ¿el término de error no está correlacionado con mi(s) variable(s) explicativa(s)? Si no es así, ¿qué he pasado por alto? Vuelva a hacer lo anterior.
-
¿Estoy exagerando ahora (la extracción de datos)?
-
¿Cómo se comparan los resultados con los hallazgos existentes? ¿Cómo los interpreto?
1 votos
¿Qué quiere decir con "no en una regresión múltiple, sino utilizando cada conjunto de datos indexados como variable independiente de y de una en una"? Si quiere decir que no $y = \alpha +\beta_1 x_1 + \beta_2 x_2 + ...$ pero $y = \alpha +\beta_1 x_1 $ y $y = \alpha +\beta_2 x_2$ por separado, eso supone una gran diferencia. Del mismo modo, si uno es un índice (presumiblemente un valor) y el otro una tasa de crecimiento, también hay una gran diferencia. Si ambos son valores (que crecen con el tiempo), los parámetros de la regresión serán erróneos.
0 votos
Quiero decir que si hiciera dos regresiones separadas, sí. ¿Qué importancia tiene? Si mi y es un tipo de interés y mi variable independiente es el índice Wilshire 5000, ¿mi coeficiente de regresión no representaría simplemente el movimiento unitario en mi tipo de interés dado un movimiento unitario en el índice Wilshire 5000? Incluso si estoy usando un Q4 2007 = 100 mi coeficiente sólo representa el movimiento en y dado un movimiento de una unidad en esa representación particular del Wilshire 5000, ¿verdad?