Estoy observando la varianza de las variaciones (logarítmicas) de los precios de los valores frente a la cantidad de debates en las redes sociales sobre ellos. No estoy interesado en construir un modelo. Sólo estoy buscando para ver si hay una correlación significativa.
Supongamos que los medios sociales están representados por una variable numérica "sm". Todas las series con las que estoy trabajando son débilmente estacionarias. La distribución de los datos de precios es la que cabría esperar: normal con colas gordas. Sin embargo, las estadísticas básicas de un conjunto típico de observaciones de "sm" son:
nobs 240.000000
NAs 0.000000
Minimum 0.000000
Maximum 725.000000
1. Quartile 52.000000
3. Quartile 119.250000
Mean 99.245833
Median 82.000000
Sum 23819.000000
SE Mean 5.573789
LCL Mean 88.265806
UCL Mean 110.225861
Variance 7456.110861
Stdev 86.348775
Skewness 3.428570
Kurtosis 17.793173
En el caso de los precios frente a "sm" contemporáneos, lag(1), y a veces lag(2), la correlación es positiva pero pequeña, más o menos lo que yo esperaría. Como la distribución no es normal, me pregunto si la matriz de correlación cruzada ( Función ccf() en R ) proporciona una evaluación razonable de la correlación cruzada (asumiendo la linealidad). Agradezco cualquier comentario sobre cómo interpretar estos resultados, así como cualquier comentario sobre las mejores prácticas.