En mi proyecto de curso de métodos de investigación, estoy investigando el impacto de asistir a una escuela privada durante la educación primaria y secundaria en los salarios futuros, utilizando datos transversales. Me he encontrado con una situación en la que algunos individuos en mi muestra son estudiantes universitarios que actualmente no ganan un salario. ¿Cómo debo abordar este problema? ¿Debería excluirlos del análisis?
Respuestas
¿Demasiados anuncios?Si solo tienes datos de corte transversal y no tienes datos sobre los salarios de estos estudiantes, entonces tiene sentido omitirlos de tu conjunto de datos.
Por lo general, no se recomienda eliminar observaciones de los datos, ya que se te puede acusar de seleccionar datos o minería de datos, pero para estas observaciones la variable dependiente simplemente no existe.
Un enfoque alternativo sería estimar el salario potencial que estos estudiantes podrían obtener si estuvieran empleados, pero es discutible si esto mejoraría significativamente la investigación. Algunas personas incluso podrían argumentar que es peor que eliminar las observaciones, y estimar los datos faltantes requeriría mucho trabajo. En consecuencia, recomendaría simplemente eliminar los datos.
El mejor enfoque aquí dependerá del contenido de tu muestra.
Si la muestra incluye individuos de todas las edades, o al menos una buena gama de edades, entonces mi sugerencia sería excluir todos los individuos cuya edad sea inferior a la edad en la que la mayoría de las personas que asisten a la universidad han completado sus estudios y se han unido al mercado laboral. La alternativa de excluir solo a aquellos que asisten a la universidad puede resultar en sesgo porque la asistencia a la universidad puede no ser independiente del tipo de escuela a la que asistieron. Muchas personas progresan hacia trabajos de mayor ingreso a lo largo de sus carreras, por lo que aquellos que trabajan a una edad en la que muchos otros están en la universidad tenderán a tener ingresos más bajos que los trabajadores más antiguos. Por ejemplo, aquellos que asistieron a escuelas privadas tienen más probabilidades de asistir a la universidad, por lo que excluir a individuos en la universidad pero no a otros de una edad similar tendería a aumentar los ingresos promedio dentro de la muestra de aquellos que asistieron a escuelas privadas en comparación con otros.
Por otro lado, si toda la muestra está compuesta por individuos en edad universitaria, entonces no hay otra alternativa más que, como dice csilvia, excluir a aquellos que están en la universidad. Sería cuestionable si los resultados serían significativos, especialmente si una gran proporción de individuos asistió a la universidad.
En mi país, los ingresos vitalicios de los Médicos superan los de los Fontaneros cuando ambos grupos alcanzan la década de los 40. Los salarios convergen en algún momento anterior, pero lleva tiempo recuperar los ingresos perdidos. Los maestros nunca alcanzan a los fontaneros.
Si comparas los salarios puntuales de Fontaneros y Estudiantes de Medicina, el efecto es real, y tiene un efecto real en los ingresos de por vida, y es un efecto real de la educación en escuelas privadas: a los 21 años, los estudiantes de escuelas privadas ganan menos que los graduados de escuelas de oficios.
El problema que estás observando es un problema general de las estadísticas puntuales, y no tiene una solución universal. Obtendrás respuestas diferentes a diferentes preguntas. Deberías hacer ambos cálculos, y, posiblemente, los números serán similares en ambos casos. Si tienes suerte, la respuesta será dramáticamente diferente para los dos cálculos, y tendrás una observación interesante que agregar a tu informe.