Me gustaría entender los impulsores del pago anticipado de un determinado sector de MBS. Tengo algunas variables explicativas que creo que explicarían los CPR reales y quiero modelar los prepagos mediante una simple regresión lineal. Tengo millones de préstamos y varios años de datos mensuales. A mi entender, necesito agrupar estos datos para cada marca de tiempo (mes) antes de ejecutar esta regresión. Lo que quería entender es que, al agrupar los datos por tiempo y tomar los promedios ponderados de las variables explicativas, acabo perdiendo en cierta medida información, así que ¿hay otras formas de reunir los datos de los pagos anticipados aparte de agruparlos de esta manera? ¿Está bien hacer sólo esta agrupación y luego ejecutar la regresión, y hay algún ajuste realizado a las predicciones / parámetros después de la regresión se ejecuta para tener en cuenta la agrupación? Supongo que me estoy preguntando si los datos se configuran normalmente como longitudinales (lo que estoy intentando hacer) o como datos de panel.
Respuesta
¿Demasiados anuncios?Se trata de una decisión compleja que implica la compensación entre sesgo de agregación y error de medición . Por ejemplo, véase enlace . En general, no hay una respuesta definitiva: el nivel adecuado para agrupar depende de la aplicación específica del modelo, el conjunto de características y el acceso a los recursos informáticos, entre otros factores.
Dado que está intentando modelar los pagos anticipados utilizando una regresión lineal simple, es probable que su elección del nivel para agrupar tenga menos impacto en el poder predictivo/explicativo de su modelo que su elección de la especificación del modelo y las variables explicativas que decida incluir.