Consideremos una regresión con una variable ficticia: $$ y_i = \alpha + \beta D_i + \varepsilon_i. $$ Entonces $\beta$ serán identificados por: $$ \mathbb{E}(y_i|D_i = 1) - \mathbb{E}(y_i| D_i = 0) = \beta $$
- ¿Si debo utilizar el logaritmo para esta variable de resultado porque no estoy seguro de que sea una proporción o un valor real (proporción para mí normalmente es un porcentaje, no un millón)?
Depende de lo que quieras. Si se mide tal cual, se obtiene $$ \beta = \mathbb{E}(y_i | D_i = 1) - \mathbb{E}(y_i|D_i = 0). $$ Si se mide en troncos, se está estimando: $$ \tilde \beta = \mathbb{E}(\ln(y_i)|D_i = 1) - \mathbb{E}(\ln(y_i)|D_i = 0). $$
- Hago la regresión con el resultado anterior y el coeficiente de una variable ficticia es 2 (mayor que 1), ¿es anormal? (La variable ficticia aquí sólo recibe los valores de 0 y 1)
Sí, $\beta$ puede ser superior a 1 si el rango de $y_i$ es va más allá del intervalo de la unidad. Por otro lado, si $y_i$ está acotado entre cero y 1, entonces $\beta$ normalmente también debería estar entre $0$ y $1$ como entonces $0 \le \mathbb{E}(y_i|D_i = 1), \mathbb{E}(y_i|D_i = 0) \le 1$ .
En su caso, $y_i$ está entre 0 y 1 millón, por lo que estos límites no se cumplen.