$R^2$ mide el ajuste del modelo a los datos. Fíjate en el orden de esa frase, "el modelo a los datos", y no "los datos al modelo". Se trata de utilizar $R^2$ como criterio para seleccionar entre dos posibles ecuaciones. El hecho de que estés publicando aquí también significa probablemente que o bien alguien te ha dicho que no puedes hacer eso o que leas en internet que esto no funcionará. El hecho es que puede funcionar, pero no funciona bien.
Varios aspectos de cómo $R^2$ se calcula lo convierten en un criterio inadecuado. En primer lugar, y esta es la razón clásica, todo lo que hay que hacer para aumentar $R^2$ es añadir variables. Si se predijera el impacto de los sustitutos de la leche en el rendimiento de los bebés en una prueba física y se añadiera el precio de los diamantes de tres quilates, sin defectos y de color D, tal como se comercializan en Hong Kong, su $R^2$ puede subir, pero no bajará. Además, la suma total de los cuadrados cambiará bajo la transformación que usted propone. Por ello, no es adecuado utilizar una prueba F para comparar modelos.
Esto le lleva a la AIC y al BIC. Filosóficamente, el AIC y el BIC son aproximaciones algorítmicas del factor de Bayes para elegir entre los dos modelos. Como usted conoce sus datos y nosotros no, debería leer un libro sobre la selección de modelos, como este .
Sin embargo, dada la escasa información que ha proporcionado, parecería, al menos en apariencia, que el AIC o el BIC producirían resultados equivalentes. Esto se debe a que sólo tiene dos modelos y tienen el mismo número de parámetros.
Si no has utilizado antes un método bayesiano, invierten el sentido de la probabilidad. En lugar de suponer que un modelo es verdadero y determinar si los datos son tan extremos o más extremos que alguna norma, supone que los datos son fijos y no aleatorios y que los modelos son inciertos, por lo que selecciona los mejores parámetros y modelos basándose en los datos. No existe una hipótesis nula. Así que el AIC o el BIC son aproximaciones de probabilidades transformadas en una regla algorítmica.
Se diferencian en dos aspectos. En primer lugar, el BIC da a cada modelo la misma probabilidad a priori de ser "verdadero", mientras que el AIC da probabilidades en proporción a su número de parámetros, de modo que los modelos complejos son penalizados por ser complejos. En segundo lugar, aproximan la función de verosimilitud de forma diferente, de modo que el AIC acaba penalizando menos los modelos complejos que el BIC, a menos que el tamaño de la muestra sea grande.
La razón para utilizar cualquiera de estas herramientas, en lugar de un método bayesiano completo, es que son más rápidas, son buenas aproximaciones en la mayoría de las circunstancias a la solución bayesiana y son menos complejas que un proceso de selección de modelos bayesianos.
No se puede formalizar la idea de que el logaritmo reduce la volatilidad y crea más bonito modelos porque puede que no lo haga. Consideremos un modelo cuya verdadera forma es $y=5x+7$ y luego transformas esas variables. Es de esperar que un modelo log-lineal sea peor que el modelo sin transformar. Aunque el uso de los logaritmos reduciría la escala de todas las variables, $R^2$ se basa en la escala relativa. Dividir todas las variables por dos también reduciría la variabilidad, pero no mejoraría $R^2$ o la selección del modelo.