6 votos

Alternativa a la regresión lineal

Soy estudiante de tercer año de economía y hasta ahora todo lo que hemos tenido en econometría y básicamente todos los estudios empíricos en las materias económicas que hemos tenido hasta ahora son regresiones lineales. ¿Hay alguna alternativa, puede alguien sugerir algún material de lectura o dirección en la que pueda explorar?

0 votos

Depende fuertemente de lo que quieras hacer: ¿pronóstico? ¿clasificación?

0 votos

¿Puedes darme un ejemplo de ambos?

0 votos

¿Por regresión lineal, te refieres a lineal en los parámetros o en la forma funcional lineal? Hay una explicación de la diferencia en blog.minitab.com/blog/adventures-in-statistics-2/...

7voto

mctylr Puntos 757

Hay numerosas direcciones a seguir que te llevan más allá de los mínimos cuadrados ordinarios (OLS), regresión lineal. ¡El universo de los métodos estadísticos es grande!

Dos libros que disfruté particularmente son Econometría de Hayashi y Elementos de Aprendizaje Estadístico de Hastie et. al. Mirando hacia atrás en tu pregunta, estos libros pueden ser demasiado avanzados. Pero tal vez no. Una versión más sencilla de este último es Una Introducción al Aprendizaje Estadístico (y puede ser interesante desde la perspectiva de una exposición más amplia a la ciencia de datos que solo econometría).

  • El libro de Hayashi Econometría presenta una variedad de métodos a través de la lente de GMM y con un enfoque hacia la econometría de series de tiempo.
  • Elementos de Aprendizaje Estadístico es un clásico moderno de la literatura de estadísticas y aprendizaje automático. Es excelente para abrir los ojos a métodos fuera de la econometría tradicional.

Algunos ejemplos más allá de los mínimos cuadrados ordinarios...

  • Estimación de máxima verosimilitud (MLE)

    Debes conocer esto si continúas haciendo estadísticas. Es un caballo de batalla omnipresente.

    Si puedes especificar la función de verosimilitud entonces los parámetros de la función de verosimilitud pueden ser estimados maximizando la función de verosimilitud. En ciertos casos especiales (por ejemplo: regresión lineal con términos de error condicionalmente normales) el estimador OLS es el estimador MLE. Indudablemente has encontrado la estimación MLE antes si estimaste un modelo logit. La estimación MLE está en todas partes en la física, ingeniería y ciencias.

    Sin embargo, existen problemas al aplicar MLE a modelos económicos. A menudo sabemos que un modelo económico en general es falso. Un modelo implicará ciertos hechos que son completamente falsos. Obligar al modelo a que coincida con los datos en un sentido de máxima verosimilitud puede no inducir una elección útil de parámetros. GMM puede utilizarse como un enfoque alternativo para probar selectivamente ciertas predicciones de un modelo.

  • GMM es otro método amplio para estimar parámetros basados en condiciones de momento que en términos esperados deberían ser cero. El libro de Hayashi Econometría desarrolla la regresión de mínimos cuadrados ordinarios, variables instrumentales, estimación de máxima verosimilitud y otros métodos como casos especiales de GMM con diferentes condiciones de momento. OLS puede considerarse como GMM utilizando la condición de ortogonalidad de los regresores y los términos de error. MLE puede derivarse como GMM sobre el score.

    Un tributo de John Cochrane a GMM se encuentra aquí.

  • Métodos de emparejamiento para estimar efectos causales son comunes en ciertas áreas de la economía.

    La idea es emparejar una entidad tratada con una entidad no tratada basándose en características observables. Una técnica ampliamente utilizada, por ejemplo, es el emparejamiento por puntaje de propensión

  • Hay todo tipo de variaciones en los métodos lineales clásicos:

    La idea aquí es empezar con mínimos cuadrados ordinarios pero luego sesgar los estimados de coeficientes hacia cero para reducir el sobreajuste y mejorar la predicción fuera de la muestra.

Referencias

Fumio, Hayashi, 2000, Econometría

Hastie, Trevor, Robert Tibshirani, Jerome Friedman, 2009, Elementos de Aprendizaje Estadístico

James, Gareth, Daniela Witten, Trevor Hastie, y Robert Tibshirani, 2017, Una Introducción al Aprendizaje Estadístico

0 votos

¡Gracias! Leí Introducción al aprendizaje estadístico y principalmente la motivación para esta pregunta surgió de la decepción de no ver métodos de regularización utilizados en nuestras clases de economía y econometría... ¡Gracias! :)

0 votos

@econ Vas a ver más técnicas de aprendizaje automático utilizadas en economía, especialmente para problemas o subproblemas donde el interés está en un pronóstico $\hat{y}$ y no te importa tanto por qué o cómo obtuviste ese pronóstico. Sin embargo, ten en cuenta que muchas técnicas de aprendizaje automático pueden ser problemáticas para problemas de $\hat{\beta}$ donde estás tratando de estimar un parámetro específico (por ejemplo, cuál es el efecto causal de $x$). Las técnicas de aprendizaje automático, etc., también pueden provocar preguntas hostiles de muchos economistas que no conocen las técnicas y/o las ven con sospecha.

4voto

Mads Hansen Puntos 24537

La regresión lineal, a pesar de su simplicidad, es en realidad una herramienta muy poderosa. Es por eso que está en todas partes en econometría, para darte un ejemplo con el que quizás estés familiarizado, considera un modelo autorregresivo, resulta que puedes escribir el estado futuro de una variable que sigue este modelo como una combinación lineal de estados anteriores

$$ X_t = C + \phi_1 X_{t-1} + \phi_2 X_{t-2} + \cdots + \phi_p X_{t-p} + \eta_t \tag{1} $$

entonces, si conoces los coeficientes $\{\phi_k \}_{k=1}^p$ puedes predecir cuáles serán los futuros valores de $X$. La parte interesante es que estos números se obtienen a través de la regresión lineal: simplemente llama $y = X_t$, $x_1 = X_{t-1}, x_2 = X_{t-2},\cdots$ y date cuenta de que la Ecuación (1) se puede escribir como

$$ y = C + \phi_1 x_1 + \phi_2 x_2 + \cdots + \phi_p x_p + \epsilon \tag{2} $$

En este sentido, la regresión lineal se puede utilizar para la predicción. Pero hay otras herramientas, te voy a enlazar a este otro hilo donde puedes tener una idea de cómo se pueden usar las redes neuronales para esta tarea: predecir series temporales. Pero la predicción también se puede hacer con una variedad de métodos: las máquinas de vectores de soporte son opciones populares.

3voto

Yacoby Puntos 603

La regresión es la asignación de cualquier función de cualquier dimensión a un resultado. Existe un número infinito de funciones. Además, hay una gama más amplia de herramientas de regresión lineal que solo soluciones al estilo de mínimos cuadrados. Supongo que aún no has cubierto las herramientas lineales si estás en tu tercer año.

Para obtener más herramientas lineales, revisa la regresión por cuantiles y la regresión de Theil. Ambos son muy robustos. Los métodos de regresión de cuantiles, mínimos cuadrados ordinarios y de Theil son utilizables para un polinomio de cualquier grado. Si estás estudiando métodos al estilo de mínimos cuadrados como OLS, GLS o FGLS, entonces también estás estudiando métodos no lineales al mismo tiempo. Todas las herramientas lineales se pueden adaptar fácilmente a problemas no lineales. La parte que nadie te ha dicho es que estás estudiando regresión no lineal, pero usando modelos lineales para estudiar las propiedades porque son más fáciles.

La conexión es similar a la conexión entre Álgebra 2 en la escuela secundaria y cálculo 1. Es necesario tener base en lo primero para lo segundo.

En lugar de preocuparte por los métodos "no lineales", te recomendaría tomar dos rutas diferentes.

La primera son métodos no paramétricos y libres de distribución. La segunda son métodos bayesianos. Tu instructor me odiará para siempre por esta recomendación.

Los métodos libres de distribución son los más fáciles de entender. Son robustos bajo cualquier suposición distribucional, lo que resulta en una pérdida material de poder. Siempre funcionan, pero son soluciones débiles porque sabes tan poco acerca de cómo funciona el mundo. La regresión de Theil es un ejemplo de ello.

Los métodos no paramétricos son un poco más difíciles de entender. No dependen de un parámetro para realizar inferencias. Por lo tanto, por ejemplo, cuando has realizado una prueba t, has asumido que existe una media y que es significativa. No siempre es cierto que exista una media en una distribución y no siempre es cierto que sea una medida significativa cuando sí existe. Los métodos no paramétricos te permiten realizar pruebas en datos sin hacer referencia a un parámetro. Al igual que los métodos libres de distribución, son más débiles que la prueba paramétrica equivalente. Siempre funcionan, pero es más probable que no detecten un efecto que realmente está presente.

Finalmente, después de haber analizado los métodos libres de distribución y no paramétricos, deberías mirar los métodos bayesianos. Los métodos bayesianos son anteriores a los métodos frecuentistas, pero te permiten resolver problemas que no tienen solución frecuentista. A simple vista, pueden parecer iguales a los problemas que estás resolviendo ahora, pero debajo de la superficie, abren mundos enteros de predicción y modelado no disponibles con los métodos frecuentistas.

Los métodos bayesianos invierten la dirección de la incertidumbre. Con un método de hipótesis nula, afirmas que la nula es cierta y utilizas los datos para refutarla. Básicamente, estás realizando una prueba como $\Pr(x|\theta)$, es decir, cuál es la probabilidad de ver estos datos si la nula en realidad es verdadera. El uso de métodos bayesianos invierte la pregunta. El bayesiano pregunta ¿$\Pr(\theta|x)$? El método bayesiano pregunta, "¿cuál es la probabilidad de que la hipótesis sea verdadera, dado los datos que realmente se vieron?"

El frecuentista trabaja en el "espacio muestral", que es el conjunto de todos los posibles resultados de un evento aleatorio. El bayesiano trabaja en el "espacio de parámetros", que es el conjunto de todas las posibles explicaciones.

Un buen post que muestra las diferencias que puedes ver fácilmente está en la diferencia entre un intervalo de confianza frecuentista y un intervalo creíble bayesiano. Está en https://stats.stackexchange.com/questions/2272/whats-the-difference-between-a-confidence-interval-and-a-credible-interval

William Bolstad escribe un buen libro introductorio sobre métodos bayesianos si has tenido cálculo a través de la integración. No puedes hacer métodos bayesianos sin saber integración.

Hay un mundo gigante por ahí. Ve a explorar.

2voto

Coincoin Puntos 12823

Siempre se puede pensar en un modelo de regresión lineal como una aproximación de primer orden de Taylor de algún modelo de regresión no lineal. Por lo tanto, la linealidad en sí misma no es un problema particularmente grave.

Dicho esto, hay un par de modelos de regresión no lineales comunes que son accesibles a nivel de pregrado, a saber, modelos con variables dependientes binarias: logit y probit.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X