Basándome en su documento y en las variables, supongo que pregunta por el uso en modelos econométricos. Hay algunas reglas generales para la toma de registros (no hay que darlas por supuestas). Véase, por ejemplo Wooldrigde: Introductory Econometrics P. 46 .
- Cuando una variable es una cantidad positiva en $, se suele tomar el logaritmo (salarios, ventas de la empresa, valor de mercado...)
- Lo mismo ocurre con variables como la población, el número de empleados, las inscripciones escolares, etc. (¿Por qué? - véase más adelante).
- Las variables medidas en años (educación, experiencia, permanencia, edad, etc.) no suelen transformarse (en su forma original).
- Los porcentajes (o proporciones) como las tasas de desempleo, las tasas de participación, el porcentaje de estudiantes que aprueban los exámenes, etc., se ven de cualquier manera, con tendencia a utilizarse en forma de nivel. Si se toma un coeficiente de regresión que incluya la variable original (no importa si es una variable independiente o dependiente), se tendrá una interpretación del cambio en puntos porcentuales. La siguiente tabla resume lo que ocurre en las regresiones debido a diversas transformaciones:
Ahora bien, aparte de la interpretación de los coeficientes en las regresiones (que ya es útil de por sí), el logaritmo tiene varias propiedades interesantes. Lo hice hace unos años, simplemente copiando y pegando aquí (por favor, disculpen que no cambie el formato y haga los gráficos más bonitos, etc.).
¿Por qué el logaritmo natural es una opción tan natural?
Gilbert Strang: Tasas de crecimiento y gráficos logarítmicos complementa lo que sigue a continuación, por lo que vale la pena verlo.
Lista de identidades logarítmicas y Por qué las devoluciones de los registros también es bueno.
Hay 6 razones principales por las que utilizamos el logaritmo natural:
- La diferencia logarítmica se aproxima al cambio porcentual
- La diferencia logarítmica es independiente de la dirección del cambio
- Escalas logarítmicas
- Simetría
- Es más probable que los datos se distribuyan normalmente
- Es más probable que los datos sean homocedásticos
Razón 1: La diferencia logarítmica se aproxima al cambio porcentual
¿Por qué? Bueno, hay varias maneras de demostrarlo:
Si tienes dos valores:
x = valor Antiguo (digamos 1,0) y = valor Nuevo (digamos 1,01)
Propiedad 1: Un simple cálculo porcentual muestra que es el 1%.
$$\frac{New - Old}{Old} = \frac{New}{Old} - 1 = \frac{1.01}{1.0} -1 = 0.01$$
Sugerencia : No se trata de un error informático en el cálculo del porcentaje exacto:
Documentos de Python
Redondeo en Python
¿Está rota la matemática de punto flotante?
Pero, ¿cómo funciona la aproximación logarítmica?
Propiedad 2 Khan Academy Propiedades logarítmicas $$ln(uv)=ln(u)ln(v)$$
Esto permite simplificar en gran medida ciertas expresiones.
Propiedad 3: $$ ln (1 + x) \approx x $$
Ahora combinando las propiedades establecidas podemos reescribir
$$ x = \frac{New - Old}{Old} = \frac{New}{Old} - 1 $$
utilizando:
$$ ln (1 + x) \approx x $$
da:
$$ ln \Bigg(1 + \frac{New}{Old} - 1\Bigg) = ln \Bigg(\frac{New}{Old}\Bigg) \approx \frac{New - Old}{Old}$$
que utilizando las propiedades de los troncos $$ln \Bigg(\frac{u }{ v}\Bigg) = ln (u) - ln (v) $$
puede reescribirse como
$$ ln (New) - ln (Old) \approx \frac{New - Old}{Old}$$
Razón 2: La diferencia logarítmica es independiente de la dirección del cambio
Otro punto que vale la pena señalar es que de 1,1 a 1 es una disminución de casi el 9,1%, de 1 a 1,1 es un aumento del 10%, la diferencia logarítmica 0,953 es independiente de la dirección del cambio, y siempre está entre 9,1 y 10. Además, si se invierten los valores de las diferencias logarítmicas, lo único que cambia es el signo, pero no el valor en sí.
Razón 3: Escalas logarítmicas
Una variable que crece a una tasa de crecimiento constante aumenta en incrementos cada vez mayores a lo largo del tiempo. Tomemos una variable x que crece a lo largo del tiempo a una tasa de crecimiento constante, digamos que al 3% anual:
Ahora bien, si lo representamos contra el tiempo utilizando una escala vertical estándar (lineal), el gráfico parece exponencial. El aumento de se hace cada vez más grande con el tiempo. Otra forma de representar la evolución de es utilizar una escala logarítmica para medir en el eje vertical. La propiedad de la escala logarítmica es que el mismo aumento proporcional de esta variable está representado por la misma distancia vertical en la escala. Como la tasa de crecimiento es constante en este ejemplo, se convierte en una línea lineal perfecta.
Esto muestra el efecto de las escalas logarítmicas muy bien en los ejes verticales.
La razón es que las distancias entre 0,1 y 1, 1 y 10, 10 y 100, etc., son iguales en la escala logarítmica.
Razón 4: La simetría lo explica con más detalle.
A diferencia de estos ejemplos, las variables económicas como el PIB no crecen a un ritmo constante cada año.
- Su tasa de crecimiento puede ser mayor en algunas décadas y menor en otras.
- Sin embargo, al observar su evolución en el tiempo, suele ser más informativo utilizar una escala logarítmica que una escala lineal.
- Por ejemplo, el PIB es varias veces mayor ahora que hace 100 años. La curva es cada vez más pronunciada y es muy difícil ver si la economía crece más rápido o más lento que hace 50 o 100 años.
Razón 4: Simetría
Una transformación logarítmica reduce la asimetría positiva porque comprime el extremo superior (la cola) de la distribución y alarga el extremo inferior. La razón es que las distancias entre 0,1 y 1, 1 y 10, 10 y 100, y 100 y 1000 son iguales en la escala logarítmica. Esto también se puede ver en el gráfico pyplot de arriba.
Esto tiene otra implicación importante:
- Si se aplica cualquier transformación logarítmica a un conjunto de datos, la media (promedio) de los logaritmos es aproximadamente igual al logaritmo de la media original, sea cual sea el tipo de logaritmos que se utilice.
- Sin embargo, sólo en el caso de los logaritmos naturales, la medida de dispersión denominada desviación estándar (DE) es aproximadamente igual al coeficiente de variación (la relación entre la DE y la media) en la escala original.
Razón 5: Es más probable que los datos se distribuyan normalmente Empecemos con una distribución log-normal
Una variable x tiene un distribución logarítmica normal si $log(x)$ se distribuye normalmente. Una distribución logarítmica normal resulta si una variable aleatoria es el producto de un gran número de variables independientes e idénticamente distribuidas. Esto se demostrará a continuación.
Esto es similar al distribución normal que resulta si la variable es la suma de un gran número de variables independientes e idénticamente distribuidas.
Distribución Log-Normal :
$\mu$ es la media y $\sigma$ es la desviación estándar del logaritmo de la variable distribuido normalmente.
Prueba de normalidad de Shapiro-Wilk
Si el Valor p $\leq 0.05$ entonces se rechazaría la hipótesis NULA de que las muestras provienen de una distribución Normal. En pocas palabras, hay una rara posibilidad de que las muestras provengan de una distribución normal.
Uso del módulo de estadísticas de SciPy
En el siguiente apartado se demuestra que si se toman los productos de las muestras aleatorias de una distribución uniforme se obtiene una función de densidad de probabilidad log-normal.
Definición de
$${\displaystyle \mu =\ln \left({\frac {m}{\sqrt {1+{\frac {v}{m^{2}}}}}}\right),\qquad \sigma ^{2}=\ln \left(1+{\frac {v}{m^{2}}}\right).} $$
La función de densidad de probabilidad para la distribución log-normal es:
$$ p(x) = \frac{1}{\sigma x \sqrt{2\pi}}\ \cdotp \ e^{\bigl(-\frac{(ln(x) \ - \ \mu)^2}{2\sigma^2}\bigr)} $$
donde $\mu$ es la media y $\sigma$ es la desviación estándar del logaritmo de la variable distribuida normalmente, que acabamos de calcular anteriormente. Dada la fórmula, podemos calcular y trazar fácilmente la PDF.
Razón 6: Lo más probable es que los datos sean homocedásticos. A menudo, se observa que las mediciones varían porcentualmente, por ejemplo, en un 10%. En tal caso:
- algo con un valor típico de 80 podría saltar dentro de un rango de $\pm 8$ mientras que
- algo con un valor típico de 150 podría saltar dentro de un rango de $\pm 15$ .
Aunque no sea en un porcentaje exacto, a menudo los grupos que tienden a tener valores más grandes también tienden a tener una mayor variabilidad dentro del grupo. Una transformación logarítmica suele hacer que la variabilidad dentro del grupo sea más similar entre los grupos. Si la medida varía en base al porcentaje, la variabilidad será constante en la escala logarítmica. Compruebe esta referencia para más información.
Empecemos por generar una distribución condicional de $y$ dado $x$ con una varianza $f(x)$ .
En pocas palabras, necesitamos algo en lo que la variabilidad de la fecha aumente cuando $x$ aumenta.
4 votos
Hola: los registros a veces se utilizan para estabilizar la varianza de la respuesta. También se utilizan para obtener una interpretación diferente del coeficiente estimado. Por ejemplo, si ajustas un modelo de $log(y) = beta \times log(x)$, entonces, la estimación de beta (si es positiva) es una estimación del aumento porcentual en $y$ dado un cambio del uno por ciento en el valor de $x$.