1 votos

¿afecta el sobremuestreo a la correlación?

Tengo un conjunto de datos mensuales. Una columna es mi variable objetivo y todas las demás son mis características. He calculado la correlación entre mi objetivo y todas las demás características y luego hice una regresión lineal y obtuve mis betas y R2.

Ahora mi pregunta es más teórica. Si sobremuestreo a datos diarios (he usado una interpolación lineal) y calculo de nuevo la correlación, las betas y el R2, han cambiado mucho. ¿Puede alguien explicarme por qué ocurre esto? ¿se ve afectada la correlación por el sobremuestreo? Es de esperar que mis betas cambien porque tengo muchos más datos después del sobremuestreo y también el R2, pero no realmente la correlación si el tamaño de mis datos mensuales ya era bastante grande. Gracias

2voto

Vivek Kumbhar Puntos 2643

Cuando se lleva a cabo el coeficiente de correlación entre la variable objetivo (denominada x) y la variable característica (denominada y), el coeficiente de correlación es una función del tamaño de la muestra:

$ r = \frac{n \Sigma xy - (\Sigma x \Sigma y)}{\sqrt{(n\Sigma x^2 - \bar{x}^2 )(n\Sigma y^2 - \bar{y}^2 )}}$

Así que los datos diarios tendrán un impacto en la correlación.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X