La limpieza de datos es importante para muchas grandes instituciones:
"Es un hecho conocido que varios fondos de cobertura tienen un puñado de doctores sólo haciendo limpieza de datos" . Tenga en cuenta que muchas grandes instituciones que utilizan una gran cantidad de datos para sus modelos internos (bancos, fondos de pensiones y de cobertura, seguros, etc.) suelen tener su propia división para la limpieza y recopilación de datos. A menudo, para reforzar los modelos cuantitativos internos, las empresas pueden recurrir a datos externos comprados a otra empresa, que necesitan una mayor limpieza para ser fiables.
Emplear una limpieza de datos adecuada es una parte importante de la creación de un modelo/estrategia cuantitativa que funcione, ya que introducir datos ruidosos (mal limpiados) en un modelo cuantitativo siempre dará malos resultados. En mi sincera opinión, No creo que sea necesario ser un doctorado para hacer el trabajo . Sin embargo, hay una gran oferta de desarrolladores cuánticos/técnicos que buscan trabajo en un fondo de cobertura. Por lo tanto, los fondos de cobertura pueden ser selectivos y contratar a "los mejores de los mejores" para el trabajo, que suelen ser los doctores.
Un ejemplo de un procedimiento de limpieza sencillo:
He proporcionado un ejemplo rápido de un procedimiento de limpieza de datos para una mejor comprensión.
Cuando se trabaja con datos bursátiles de alta frecuencia (TAQ) (es decir, datos bursátiles intradía), es necesario limpiarlos antes de que los datos sean útiles. Un procedimiento de limpieza bien conocido se describe en Barndorff-Nielsen et al. (2009). Núcleos realizados en la práctica: Operaciones y comillas. ( véase el apartado 3.1 ), que le proporciona los pasos necesarios para eliminar los valores atípicos, las operaciones anormales, los registros erróneos de las marcas de tiempo y los precios en la base de datos, etc. En el documento, proporcionan un análisis detallado sobre cómo la varianza realizada cambia drásticamente al aplicar más de sus reglas de limpieza de datos especificadas ( ver sección 4. Análisis de datos ). Sin embargo, este procedimiento de limpieza sólo se aplica a los datos bursátiles de alta frecuencia y será diferente cuando tenga que limpiar datos alternativos.
Para concluir la respuesta En este caso, he proporcionado una ilustración gráfica de los datos comerciales depurados frente a los brutos (con ruido) para un solo día arbitrario en el SPY. El procedimiento de limpieza sigue exactamente las reglas proporcionadas en el documento anterior ( haga clic en la foto para obtener una mejor calidad de imagen ):
Vemos cómo el procedimiento de limpieza es capaz de detectar los valores atípicos. Obsérvese también el extraño comportamiento de las operaciones en las horas previas y posteriores al mercado. Esta es la razón principal del paso de limpieza, P1.
2 votos
¿Podría ser más específico? ¿A qué tipo de datos se refiere? ¿Cuál es la fuente de tu dato? Muchas gracias
0 votos
Cualquier dato relacionado con el comercio, es decir, casi todo. Hay bastantes fuentes, pero aquí hay una de Nick Patterson (ex empleado de Rentec) que dice que tenían 7 doctores sólo trabajando en la limpieza de datos en el minuto 38:00: thetalkingmachines.com/episodes/
2 votos
"Es un hecho bien conocido que varios fondos de cobertura tienen un puñado de doctores sólo haciendo limpieza de datos" . Tenga en cuenta que muchas grandes instituciones que utilizan una gran cantidad de datos para sus modelos internos (bancos, fondos de pensiones y de cobertura, seguros) suelen tener su propia división para la limpieza y recopilación de datos. A menudo, para reforzar los modelos cuantitativos internos, las empresas pueden recurrir a datos externos comprados a otra empresa, que necesitan una mayor limpieza para ser fiables. [1/2]
2 votos
En general, la limpieza adecuada de los datos es una parte importante de la creación de un modelo/estrategia cuantitativo que funcione, ya que introducir datos ruidosos (mal limpiados) en un modelo cuantitativo siempre dará malos resultados. En mi sincera opinión, No creo que sea necesario ser doctor para hacer el trabajo. . Sin embargo, hay una gran oferta de desarrolladores de quant/técnicos informáticos que buscan empleo y quieren trabajar en un hedgefund. Por lo tanto, los fondos de cobertura pueden ser selectivos y conseguir "lo mejor de lo mejor" para el trabajo, que suelen ser doctores. [2/2]
1 votos
Supongo que si escuchas a tu propia fuente de Nick Patterson, tienes tu respuesta. En primer lugar, no afirma que todo lo que hacen es limpieza de datos. En segundo lugar, sólo menciona que, en su opinión (busque lo que hace y lo que hizo, por lo que se necesita cierta cautela), se dedicaban principalmente a la regresión simple. La razón por la que necesitan contratar a gente inteligente no es porque el modelo sea tan difícil, sino para entender cuándo los datos son basura (sus palabras y él lo explica con más detalle). "Lo más importante es hacer bien las cosas sencillas". "Nadie te dice qué hay que retroceder, cuál es el objetivo, cuál es la fuente....".
1 votos
¿Es tan difícil correr 100 metros? La respuesta es no. Si el objetivo es correrlos en menos de 9,85 s, resulta casi imposible. Muy buen discurso para este tema .
0 votos
@Pleb ¿Puedes hacer que sea una respuesta?
0 votos
@BobJansen Puedo. Pero el comentario es muy genérico.
2 votos
@Pleb De acuerdo, pero eso es inherente a esta pregunta a no ser que el propio Jim Simons decida contestar ;)