1 votos

¿Qué significa controlar una variable?

Digamos que quiero ver el efecto de tener una piscina en el precio de las propiedades de una ciudad. ¿Qué significa realmente para controlar para los códigos postales?

¿Y responde esto a la pregunta crucial de si quiero incluir el efecto de los códigos postales en mi análisis?

1voto

iainlbc Puntos 2276

Explicación resumida:

Controlar una variable significa esencialmente que se mide una variable independiente y se tiene en cuenta su presencia para anular/eliminar sus efectos sobre otras variables y la variable dependiente (por ejemplo, efectos de interacción, sesgo de variables omitidas, (multi)colinealidad, etc.)

Así pues, cuando controlamos los códigos postales, estamos tomando medidas en nuestro análisis estadístico (regresión) para asegurarnos de que tenemos en cuenta los efectos directos e indirectos de los códigos postales en nuestro modelo estadístico para que sea eficiente y no dé lugar a lecturas incorrectas debido a un sesgo estadístico. Para conseguirlo, podemos utilizar técnicas como, por ejemplo, la regresión multilineal y las variables de interacción.

Explicación detallada:

Si su objetivo es analizar el efecto puro de tener una piscina instalada en una propiedad sobre su precio, "controlar" los códigos postales sería asegurarse de que el impacto de los códigos postales (por ejemplo, vivir en una zona socioeconómica rica o pobre) no influye en la lectura (coeficiente) de la variable de la que buscamos ver el efecto puro (en este caso, que las piscinas aumenten el precio de la vivienda).

Así, en el caso de que se haga un análisis de una sola variable (una regresión mono-lineal/simple): [how does <hasPool> impact <housePrice>] la variable hasPool tendrá una significación estadística inexacta y también un valor de efecto exagerado (la variable hasPool incorporará otras cosas como el hecho de que "los códigos postales ricos tienen piscinas, los códigos postales ricos también aumentan el precio de la vivienda"). Esta situación es un sesgo de variable omitida (se ha olvidado de tener en cuenta los códigos postales y parte de su efecto se está leyendo como resultado de tener una piscina).

NB: Esto no significa que las regresiones simples sean malas o inútiles. Son muy útiles para evaluar rápidamente si vale la pena considerar una variable en un modelo antes de comprometerse a incluirla en el mismo. Esto se debe a que es más rápido obtener una mirada rápida (pero, por supuesto, como se ha señalado anteriormente, muy imprecisa) de la variable en lugar de imputarla inmediatamente en el modelo que se está utilizando, que (si tiene muchos datos y muchas variables) podría tardar años en terminar de procesarse. Sin embargo, no debería utilizar una regresión simple para averiguar el efecto puro de una variable independiente por sí sola, sino que una regresión multilineal es más eficaz.

A continuación, podría realizar una regresión multilineal (análisis que incorpora más de una variable) como: [how do <hasPool> and <locatedInRichZipcode> impact <housePrice>] . Las variables hasPool y locatedInRichZipcode ahora se tienen en cuenta las causas del aumento del precio de la vivienda. hasPool es ahora más preciso, ya que también se mide el efecto de estar situado en un código postal rico. Sin embargo, la colinealidad (alta correlación entre dos variables) entre tener una piscina y estar en un código postal rico aumenta los errores estándar de los coeficientes y, por lo tanto, podría dar lugar a que la variable se considere incorrectamente insignificante desde el punto de vista estadístico, y también hace que el efecto puro de las variables medidas sea borroso.

Sin embargo, estar en un código postal rico y tener una piscina son sucesos estrechamente relacionados, por lo que tendríamos que incorporar también una variable de interacción hasPoolAndLocatedInRichZipcode para tener en cuenta el efecto de "zona compartida" del diagrama de venas por tener una piscina y estar en una zona rica: [how do <hasPool>, <locatedInRichZipCode>, and <hasPoolAndLocatedInRichZipcode> impact <housePrice>] .

Se trata de una regresión más eficaz y, aunque el análisis estadístico mejora al "controlar" (es decir, tener en cuenta) los códigos postales y su efecto, podemos aproximarnos mejor a cuál es el efecto puro (coeficiente) de una variable como tener una piscina sobre el precio de la vivienda.

Tenga en cuenta.

Por supuesto, los ejemplos anteriores son una simplificación extrema de las variables que deben incluirse y de cómo funcionan algunas de las técnicas para que la explicación sea más sencilla de leer. Podrían utilizarse otras técnicas de regresión y, evidentemente, habría que tener en cuenta variables como el número de habitaciones o el tamaño de la casa en pies cuadrados, así como el tamaño de la piscina (una piscina olímpica grande puede hacer que la casa sea muy valiosa, mientras que una piscina diminuta del tamaño de una bañera de hidromasaje puede ser un lastre para el valor de la casa), con el fin de obtener una regresión más precisa y una lectura más exacta de cuál es el efecto puro (coeficiente) de la variable hasPool.

¿Por qué digo "cada vez más preciso"? - Bueno, eso es porque hay básicamente una cantidad infinita de variables que podrían impactar en el precio de una casa, y por lo tanto nunca podemos averiguar cuál es el efecto puro EXACTO de la variable hasPool. En un mundo perfecto, podríamos ejecutar hipotéticamente una regresión con la cantidad casi infinita de variables, pero debido a limitaciones como el presupuesto de investigación, la disponibilidad de datos, la complejidad del modelo de regresión que el ordenador debe analizar (aumentando el tiempo de procesamiento), etc., lo mejor es que intentemos compactar la cantidad de variables observadas en la regresión para hacer una regresión eficiente pero nunca perfecta para analizar el efecto.

Espero que esto ayude. Si quieres aprender con más detalle sobre el control de variables o simplemente sobre estadísticas/econometría en general, te recomiendo encarecidamente que leas Estadísticas de Jim ¡!

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X