Una alternativa sería utilizar un método bayesiano, a diferencia del LASSO, el análisis factorial o el análisis de componentes principales. Los métodos bayesianos no tienen problemas con la multicolinealidad, a menos que, por supuesto, se trate de una colinealidad perfecta. LASSO puede considerarse un método bayesiano con una distribución a priori de Laplace y un procedimiento posterior de minimización de pérdidas.
Yo encuentro dos dificultades con LASSO que usted puede no encontrar. La primera es que no me creo los priores implícitos. La segunda es que sólo puedo considerar una posible función de verosimilitud para generar los datos. Una prioridad de Laplace en torno a $\beta=0$ es un poco fantasioso. ¿Cree usted que estos artículos no interactuar entre sí? Aunque LASSO tiene un proceso de selección de variables eficaz, no puede probar otras funciones de probabilidad potenciales. Bayes le permitiría probar tanto las variables como los modelos de probabilidad.
El último argumento a favor de los métodos bayesianos es que no pueden contar la información por partida doble. La razón de la ausencia del supuesto de dependencia lineal es que los métodos frecuentistas cuentan doblemente la información, excepto cuando los factores son ortogonales. En la mayoría de los casos, el impacto es muy pequeño, pero el hecho de que la gente se fije en los factores de inflación de la varianza implica que no siempre es lo suficientemente pequeño.
Cuando los elementos covarían fuertemente, comparten una enorme cantidad de información mutua mientras poseen muy poca información única. Una vez que se ha incluido la información en un cálculo bayesiano, esa misma información obtenida en otro lugar no afectará a la posterioridad, puesto que ya está en ella.
Hay dos formas de calcular la posterioridad bayesiana. Una forma es considerar toda la información de la muestra conjuntamente en un gran cálculo. La otra es considerar la muestra una observación cada vez. El prior normalizaría la probabilidad de una sola observación y produciría un posterior. Esa posterior se convertiría en la nueva distribución a priori y el mismo proceso ocurriría para la segunda observación y así sucesivamente.
Visualmente, si se observara la evolución de las formas de la parte posterior a medida que se incluyen elementos individuales de la muestra, se comenzaría con una entidad geométrica muy inestable, amplia y que a veces se desplaza rápidamente. Suponiendo que la muestra sea muy grande, notarías que la posterior apenas se altera con cada nueva observación, ya que el teorema de Bayes está ignorando cualquier información que ya haya captado.
Produje los posteriors para una secuencia de lanzamientos de monedas. Iba a hacer un problema de regresión bivariante y multicolineal, pero luego me di cuenta de que la parte bayesiana de la simulación tardaría horas en ejecutarse y no tengo tiempo libre. Si consigo un poco de tiempo libre, editaré este post con una simulación visual de las distribuciones de muestreo de la regresión OLS frente a la bayesiana. Aunque no será esta semana que viene.
Para mostrar el tamaño decreciente del impacto de la información de las observaciones, simulé doscientos lanzamientos de monedas. Se creía que el parámetro era mayor y no menor, por lo que utilicé una densidad previa Beta(2,1), la distribución triangular. Esto ayuda a ver el impacto del conocimiento previo en las estimaciones de los parámetros.
El gráfico uno es el de los experimentos uno a cinco con el previo incluido para que se pueda ver fácilmente cómo se menea el posterior con cada pieza de información adicional. Durante las rondas uno a cinco, el prior tiene un efecto sustancial porque equivale a observar dos aciertos y un fallo, antes del primer lanzamiento de la moneda.
El gráfico dos corresponde a los experimentos del cinco al doscientos. Como se puede ver, entre las rondas veinte y doscientas, el modo ya no se mueve mucho y aunque la masa se está estrechando, no es nada comparado con el estrechamiento de los primeros tiempos de la muestra, que se puede ver mejor en el gráfico de todos los posteriores.
Es de esperar que el conjunto completo deje un poco más claro cómo se necesitan muchas observaciones más adelante en la muestra para hacer un pequeño movimiento en comparación con los primeros momentos de la muestra.
Cuando no hay información mutua, esta misma convergencia ocurre también con los métodos frecuentistas, pero no hay ninguna construcción comparable para los métodos frecuentistas, excepto posiblemente para mostrar el movimiento de los límites de un intervalo de confianza durante una serie de meta-análisis.
Intentaré hacer una simulación para mostrar gráficamente el efecto de la doble contabilidad. Volviendo a la discusión anterior, los priores importan y LASSO tiene un prior muy pesimista y poco realista, que no hay efecto. Por supuesto, esa es la razón por la que los métodos bayesianos se consideran métodos "optimistas" y los métodos frecuentistas se consideran métodos "pesimistas".