Me preguntaba cuál es la mejor práctica para representar elementos en una serie temporal, especialmente con grandes cantidades de datos. El enfoque/contexto es en un motor de pruebas de espalda y la comparación de múltiples series.
Parece que hay dos opciones:
1) Utilizando un índice entero, o
2) Utilizar un índice basado en la fecha
Por el momento estoy utilizando fechas, pero esto afecta al rendimiento y al uso de la memoria, ya que estoy utilizando una tabla hash en lugar de una matriz, y requiere cierta sobrecarga en la iteración (ya sea hacia adelante o hacia atrás), ya que tengo que determinar la fecha válida siguiente/anterior antes de poder acceder a ella.
Sin embargo, me permite agregar datos sobre la marcha (por ejemplo, construir el ohlc para la semana anterior cuando se miran las barras diarias) y, lo que es más importante para mí, me permite comparar diferentes series con la certeza de que estoy mirando la misma fecha/hora. Si estoy mirando un tema de la equidad en relación con un índice más amplio, y decir que el índice más amplio es la falta de unas pocas barras por cualquier razón, el uso de una matriz indexada entero significaría que estoy buscando en los datos futuros para el índice amplio frente a los datos actuales para el valor dado. No veo cómo podría manejar estas situaciones a menos que esté utilizando la fecha / hora.
Usar índices de enteros sería mucho más fácil en cuanto a código, así que me preguntaba qué hacen los demás o si hay una mejor práctica con esto.