4 votos

¿Qué ocurre cuando dejo fuera las celdas vacías en la regresión?

Estoy usando Stata 14.1 para hacer una regresión, y tengo un matsize too small error. Me dio algo más de salida para decirme las posibles razones de este problema, y creo que esta era la razón que se aplicaba a mí

If you are using factor variables and included an interaction that has
lots of missing cells, either increase matsize or set emptycells drop to
reduce the required matrix size; see help set emptycells.

Sí, estoy utilizando variables factoriales (una por cada estado de EE.UU. y Washington DC), y sí hay muchas celdas vacías.

Estoy tratando de averiguar qué opción es mejor, eliminar las celdas vacías o aumentar el tamaño de la matriz para que pueda incluir todas las variables del factor.

Tiene artículos de ayuda sobre cómo hacer ambas cosas: eliminar las celdas vacías o aumentar el tamaño de las mats. No es el "cómo" sino el "por qué" lo que estoy tratando de averiguar. ¿Qué sucede matemáticamente cuando dejo las celdas vacías? (Probablemente no entienda las matemáticas, así que si hay una respuesta simplificada sobre si es bueno o malo dejar las celdas vacías, probablemente sería mejor).

1voto

Brent D Puntos 125

Cuando tiene celdas vacías (y por celdas vacías, supongo que se refiere a un valor faltante de una variable específica de la observación), entonces STATA, por defecto, elimina toda la fila. Así que, en cierto sentido, incluso cuando tiene un solo valor perdido en una variable y tiene, por ejemplo, 100 variables, pierde toda la fila (toda la observación). Esto es por defecto. Si quiere evitar esto, quizás piense en imputar los puntos de datos que faltan.

0 votos

Pero en cuanto a los resultados, ¿me arriesgo a tener más prejuicios? ¿Es menos válido? ¿Etc?

1voto

Scimonster Puntos 169

Para responder al "PORQUÉ", si tiene un lote de celdas vacías, entonces una de las razones puede ser que cuando STATA elimina las filas correspondientes, acaba teniendo menos observaciones (filas) que características (x's). Intuitivamente, podría pensar en ello así: cada observación es capaz de explicar un "hecho". Cada uno de los coeficientes de su modelo es un hecho sobre cómo sus x influyen en su y. Si tiene menos observaciones que x, no puede explicar todos sus hechos.

Dependiendo de lo que esté haciendo, podría recurrir a técnicas de selección de modelos para reducir el número de características (si su modelo no sigue directamente la teoría y tiene muchas características). Las técnicas de regularización (por ejemplo, la estandarización) también son posibles, pero cambiarán la interpretación de los coeficientes y es posible que se pierda la capacidad de explicación de los resultados. De lo contrario, es necesario imputar los valores de las celdas que faltan, como se indica en la respuesta de @ChinG.

No estoy seguro de cómo planea "aumentar el tamaño de la matriz", a menos que esto implique reunir más observaciones, no sería lo correcto.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X