Cuando construyo datos de panel a partir de grandes encuestas de hogares (por ejemplo, las Encuestas de Medición del Nivel de Vida del Banco Mundial), intento construir un conjunto de datos con el mayor número posible de variables potencialmente utilizables. Esto crea un gran conjunto de datos desequilibrados y no sé cuántos datos equilibrados quedan hasta que ejecuto una regresión.
Personalmente no he encontrado ningún problema con esto, pero me pregunto qué piensan otras personas cuando tienen que utilizar el conjunto de datos que construyo. Hasta ahora no he trabajado con otros, pero me pregunto cómo debería construir un buen conjunto de datos para trabajar si tengo que hacerlo con profesores. ¿Debo construir un conjunto de datos equilibrado? ¿O un conjunto de datos desequilibrado con muchas variables con muchos valores perdidos?