Estoy tratando de predecir los ingresos de los graduados de ciertos programas de maestría n años después de la graduación, utilizando el conjunto de datos a nivel individual de la Encuesta de la Comunidad Americana para calibrar mi ecuación. Me proporciona observaciones de individuos que enumeran sus ingresos, edad, programa de grado y otras variables, pero no me dice los años transcurridos desde la graduación o los años en la fuerza de trabajo. ¿Cómo puedo predecir mejor los ingresos n años después de la graduación?
Me gustaría que mi producto final fuera una ecuación de regresión de la forma
ingreso_año_n = salario_inicial(muchas variables) * (1+tasa_de_subidas)^n
Mi planteamiento inicial es el siguiente:
- Las personas más jóvenes con esta titulación tienen 23 años. Todos ellos deben haberse graduado el año anterior. Utilízalos para calibrar la función salario_inicial.
- El siguiente grupo más joven es el de 24 años. Deben tener un año de experiencia o estar recién graduados. Conozco aproximadamente la proporción de cada uno, porque sé cuántos jóvenes de 23 años hay en el conjunto de datos, pero no sé cuáles son los recién graduados y cuáles los que se graduaron el año pasado.
- El siguiente más joven tiene 25 años, este grupo tiene 0, 1 o 2 años de experiencia, y conozco las proporciones de cada uno.
Y así sucesivamente. Esto parece el principio de un enfoque que podría funcionar, pero no puedo averiguar cómo pasar de estos datos a una ecuación de regresión que prediga los ingresos después de un cierto número de años.
¿Alguna idea? Sé que no hay una solución perfecta, estoy buscando un hack lo suficientemente cerca de usar la ecuación en el mundo real. Cualquier cosa sería muy apreciada, gracias una tonelada.