Edit1:
Basándome en la información adicional que ha proporcionado, sigo creyendo que mis recomendaciones son válidas y que debería analizar los datos que faltan e intentar rellenarlos antes de utilizar una regresión para crear valores imputados.
Si cree que los siguientes supuestos sobre la regresión de imputación y el análisis de datos son ciertos, entonces probablemente esté en buena forma: 1. La especificación es correcta y está basada en la teoría económica de la literatura. 2. Ha identificado correctamente sus datos perdidos como MCAR o MAR. 3. 3. Ha ejecutado correctamente su regresión en Matlab. (Nota: Yo uso SAS y Stata, así que no puedo dar consejos específicos sobre cómo hacer su regresión).
Respuesta original:
Si utiliza una regresión para rellenar las lagunas de datos de otra regresión, es posible que desee dar un paso atrás. Al utilizar valores estimados junto a los valores reales, puedes encontrarte con problemas cuando intentes interpretar los resultados. La imputación a través de la regresión no guarda ninguna forma de analizar la precisión o exactitud de sus valores imputados. Su modelo final puede estar sobreidentificado en el sentido de que su regresión final no tendrá en cuenta la incertidumbre de los valores imputados.
Las lagunas en los datos - que parece que usted está tratando - son una espina en el costado del análisis econométrico. Cuando se trata de datos que presentan lagunas importantes, es muy importante preguntarse por qué existen esas lagunas. Si se debe a una mala recopilación de datos por parte de algo o alguien sobre quien se puede influir, hay que llamar a esa persona o empresa para averiguar por qué hay una laguna en sus datos. Lo más probable es que o bien lo sepan y tengan una solución, o bien no tengan ni idea y necesiten encontrar una solución. Por supuesto, a veces puede que ya no apoyen el conjunto de datos, o en un raro subconjunto de casos simplemente no les importa que sus datos sean malos.
Para aquellas ocasiones en las que no puede rellenar absolutamente las lagunas de datos, tiene varias opciones. Una, que a veces es aconsejable si dispone de recursos importantes (por ejemplo, una empresa de la lista Fortune 500), es recopilar los datos usted mismo y crear un conjunto de datos que se ajuste a sus necesidades específicas (o pagar a alguien para que lo haga).
Si no puedes rellenar las lagunas y no puedes recopilar los datos por ti mismo, estás atascado con un conjunto de opciones menores. El primer paso es indagar en la naturaleza de los datos que faltan.
MCAR - Falta completamente al azar Si X es su variable de interés, y contiene datos perdidos, y la razón por la que faltan los datos es independiente de los datos no perdidos e independiente de otros datos en el conjunto de datos, entonces sus datos perdidos son MCAR. Los datos MCAR son bastante inofensivos y son comunes en los grandes conjuntos de datos. Si representan menos del 5% de los datos, normalmente se pueden eliminar las observaciones. Si es superior al 5%, probablemente querrá utilizar la imputación (más adelante) para rellenar los huecos. Por tanto, si sus datos eran MCAR, su estrategia de utilizar la imputación por regresión es realmente aplicable. Sin embargo, debe tener en cuenta que la imputación por regresión no es una estrategia segura. Como he mencionado anteriormente, puede llevar a una sobreidentificación.
MAR - Missing At Random La diferencia aquí es que la razón por la que faltan los datos es independiente con los otros datos en la variable de interés pero puede depender de otros datos en otras variables. Para los datos MAR debe utilizar la imputación múltiple.
DATOS NO IGNORABLES Este tipo de datos que faltan no faltan en absoluto. Por ejemplo, digamos que quiere averiguar si su hijo está saliendo con una chica en la escuela. Así que le da un cuestionario. En él se pregunta: "¿Sales con una chica en la escuela?" Él deja la pregunta en blanco. Eso me diría: Sí, puede que esté saliendo con una chica en la escuela.
Para los datos no ignorables, la razón por la que faltan depende de los otros datos de la variable. En nuestro escenario, la no respuesta de mi hijo era en realidad una forma de respuesta implícita.
Los datos no ignorables no deben ser imputados ni ignorados. Hay que hacer todo lo posible para rellenarlos. Si aún así no puede rellenarlos, debe considerar la posibilidad de cambiar de conjunto de datos o, si eso no es factible, al menos anotar detalladamente estos datos que faltan en su investigación.
TÉCNICAS DE IMPUTACIÓN Para más detalles sobre las técnicas de imputación, le recomiendo que consulte la documentación de su paquete estadístico.
MÉTODOS BÁSICOS DE IMPUTACIÓN (sólo para MCAR): Decoración en caliente - Esto es esencialmente sólo el intercambio de un valor similar seleccionado al azar de los datos que no faltan. No recomiendo esta técnica. Puede llevar a conclusiones falsas y es estadísticamente poco sólida.
Sustitución de la media - Sustituir los valores que faltan por la media de los datos que no faltan. Esta opción es mejor que la de la cubierta caliente, pero no por mucho. Sin embargo, es una opción si sólo necesita una idea temprana de los resultados de su modelo (por ejemplo, para propuestas informales de artículos a colegas).
Imputación de la regresión - Esto es básicamente lo que usted hizo. Tiene problemas con la sobreidentificación, pero no es tan malo en el esquema de las cosas asumiendo que usted está usando un buen modelo para estas estimaciones.
Imputación múltiple (la mejor opción para el SAM) - La forma más rigurosa de imputación requiere que usted extraiga sus imputaciones de muchos conjuntos de datos, utilizando un procedimiento particular como el de An Overview of Multiple Imputation de Donald Rubin.
Muchos paquetes estadísticos ya tienen programados métodos de imputación, ya que su configuración es bastante técnica.
En general, hay que equilibrar la cantidad de datos que faltan, el tipo de datos que faltan, las limitaciones de tiempo y la necesidad de obtener resultados muy precisos, y tomar una decisión sobre lo que se quiere hacer. Como en el resto de la economía, esta decisión es un compromiso.