Dejemos que $y$ sea la proporción en $[0,1]$ en lugar del porcentaje. Creo que los problemas aquí son la posible no linealidad y la censura. Puedes intentar incluir términos cuadráticos en el lado derecho. Al mismo tiempo, puede probar los siguientes modelos.
I. Modelos lineales: Si no hay $y$ es exactamente 0 o 1, los modelos lineales estarán bien. Se me ocurren las siguientes cuatro opciones.
-
$y=\beta_0 + \beta_1 x + u$ si no $y$ se acerca a 0 o 1.
-
Un modelo logarítmico $\ln y = \beta_0 + \beta_1 x + u$ que es útil cuando algunos $y$ se acercan a cero, pero todos están lejos de uno. Tenga en cuenta que la interpretación cambia.
-
Transformar la variable dependiente en $-\ln (1-y)$ . Esto es útil si $y$ están todos lejos de cero, pero algunos se acercan a uno. Pero esto me parece un poco antinatural, y yo consideraría el siguiente modelo logístico en su lugar.
-
El modelo logístico $\ln \frac{y}{1-y} = \beta_0 + \beta_1 x +u$ . Esto suele ayudar si hay muchos $y\simeq 0$ y $y\simeq 1$ . La interpretación se hace en términos de logits.
II. Modelos Tobit: Si algunos $y$ son exactamente 0 o 1, puede probar los modelos Tobit ( help tobit
en Stata). Recuerde que se asume la normalidad para el término de error antes de la censura. Además, el uso de modelos Tobit significa que $y$ podría ser mayor que 1 (menor que 0) si no se censura".
0 votos
Estas respuestas pueden ser útiles. stats.stackexchange.com/questions/11985/ - Las respuestas van desde: no hacer nada hasta GLM con enlace logit.