¿Cuáles son las métricas adecuadas para comprobar las discrepancias en estas dos series temporales?

Question

¿Cuáles son las métricas adecuadas para comprobar las discrepancias en estas dos series temporales?

Preguntado el 30 de Octubre, 2012: Cuando se hizo la pregunta
260 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy obteniendo datos de mercado de precio de compra/venta y volumen de dos fuentes diferentes para el mismo ticker y para el mismo día y comprobando que en los intervalos de tiempo X son "aproximadamente iguales". Sin embargo, las marcas de tiempo de las dos fuentes diferentes no son exactamente iguales, por lo que lo que estoy haciendo es volcar el precio cada vez que las marcas de tiempo abarcan un segundo diferente del día. A veces el precio varía entre ese segundo, a veces no, pero en cualquier caso vuelco la forma en que se ve al principio de ese segundo (o milisegundo). Después de hacer esto para ambas fuentes, hice un simple gráfico de los resultados y las cosas se ven consistentes gráficamente:

All the ask observations throughout the day for source 1

All the ask observations throughout the day for source 2

Las marcas de tiempo no siempre se alinean, aunque cuando intersecciono las columnas de marcas de tiempo y obtengo un subconjunto de las observaciones, y las cruzo obtengo valores relativamente pobres. Peor en las granularidades más altas, probablemente debido a las discrepancias de las marcas de tiempo. No estoy seguro de si debería mirar alguna otra métrica para convencerme de que ambas fuentes me están proporcionando información similar sobre la demanda/oferta a lo largo del día, o cuál es la metodología adecuada para comparar estas dos series temporales entre sí. ¿Es la cointegración entre ellas lo que estoy buscando? Lo que me interesa confirmar es que, suponiendo que la primera fuente me proporcione datos precisos a partir de los cuales construyo mi visión de la oferta/demanda a lo largo del día, la segunda fuente no esté demasiado equivocada.

Preguntado el 30 de Octubre, 2012 por Robin M

Answer 1

2 Respuestas

Answer 2

2voto

akshay madhukar nayak Puntos 1

No es raro encontrar diferencias significativas en los datos de precios históricos de diferentes fuentes y proveedores de datos. Por ejemplo, si observa el símbolo del ETF "EEM" para el periodo desde 2001 hasta ahora utilizando datos gratuitos de Yahoo y datos gratuitos de Google de Internet, verá que durante parte de este periodo coinciden y durante parte del tiempo son bastante diferentes. Cuando se utilizan datos históricos, el problema es: ¿Cómo se "sabe" realmente que una serie es "exacta"?

Desde una perspectiva comercial práctica, algunas sugerencias son:

1) Desconfíe de los datos gratuitos. Si usted es un operador serio, probablemente le convenga comprar los datos a un proveedor de datos fiable que los haya comprobado en busca de errores y los haya limpiado adecuadamente en el momento original. Esto es especialmente importante si se trata de datos de contratos de futuros continuos.

2) En lugar de intentar fusionar dos versiones diferentes de la misma serie de datos cuando no están de acuerdo (y, por lo tanto, AL MENOS una de ellas es probablemente errónea), puede ser mejor analizarlas por separado y luego ver cuáles son las diferencias resultantes en sus señales de trading de los dos conjuntos.

3) No tiene sentido contaminar datos buenos con datos malos. Si realmente sabes que un conjunto de datos es bueno, utilízalo tal cual. "Menos datos, pero buenos" es mejor que "Más datos, incluyendo algunos malos", especialmente si se pretende utilizar algún tipo de algoritmo predictivo.

Respondido el 23 de Julio, 2014 por akshay madhukar nayak (1 Puntos )

Answer 3

0voto

rFactor Puntos 162

Para tener en cuenta las discrepancias entre dos series temporales, se suele utilizar el algoritmo DTW (Dynamic Time Warping).

Citando a la wiki - "En general, DTW es un método que calcula una coincidencia óptima entre dos secuencias dadas (por ejemplo, series temporales) con ciertas restricciones. Las secuencias se "deforman" de forma no lineal en la dimensión temporal para determinar una medida de su similitud independiente de ciertas variaciones no lineales en la dimensión temporal."

El problema es que el algoritmo puede volverse intratable para una entrada grande, por lo que generalmente se ejecuta en un sistema distribuido.

Respondido el 23 de Julio, 2014 por rFactor (162 Puntos )

¿Cuáles son las métricas adecuadas para comprobar las discrepancias en estas dos series temporales?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

Finanhelp.com

Powered by:

¿Cuáles son las métricas adecuadas para comprobar las discrepancias en estas dos series temporales?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

Finanhelp.com

Powered by: