1 votos

¿Cuál es la posible fuente de este filing_index.csv?

Estoy leyendo el libro Machine Learning for Algorithmic Trading de Stefan Jansen. Y hay un archivo llamado filing_index.csv, que contiene información sobre el índice de algunos archivos de la SEC. Se puede acceder a él a través del siguiente enlace.

https://github.com/stefan-jansen/machine-learning-for-trading/blob/main/data/sec-filings/filing_index.csv

Aquí hay algunas filas del principio del archivo

"CIK","COMPANY_NAME","FORM_TYPE","DATE_FILED","EDGAR_LINK","QUARTER","TICKER","SIC","EXCHANGE","HITS","YEAR"
1000180,"SANDISK CORP","10-K","2013-02-19","edgar/data/1000180/0001000180-13-000009.txt",1,"SNDK","3572","NASDAQ","3",2013
1000209,"MEDALLION FINANCIAL CORP","10-K","2013-03-13","edgar/data/1000209/0001193125-13-103504.txt",1,"TAXI","6199","NASDAQ","0",2013
1000228,"HENRY SCHEIN INC","10-K","2013-02-13","edgar/data/1000228/0001000228-13-000010.txt",1,"HSIC","5047","NASDAQ","3",2013
1000229,"CORE LABORATORIES N V","10-K","2013-02-19","edgar/data/1000229/0001000229-13-000009.txt",1,"CLB","1389","NYSE","2",2013
1000232,"KENTUCKY BANCSHARES INC  KY ","10-K","2013-03-28","edgar/data/1000232/0001104659-13-025094.txt",1,"KTYB","6022","OTC","0",2013
1000298,"IMPAC MORTGAGE HOLDINGS INC","10-K","2013-03-12","edgar/data/1000298/0001047469-13-002555.txt",1,"IMH","6798","NYSE MKT","0",2013

Este libro no parece haber mencionado la fuente de este archivo de índice de presentación. Como alguien que no está familiarizado con los archivos de la SEC, ¿podría alguien ayudarme a encontrar la fuente de este archivo? ¿O está hecho por el propio autor del libro?

1voto

xrost Puntos 129

Esta información se extrae de la base de datos de Edgar mediante un paquete de Python o sus propias herramientas de extracción web:

Creo que el autor construyó el filing_index.csv utilizando un script/paquete similar al paquete de Python llamado python-edgar ( véase aquí para la documentación ). El paquete construye un archivo master-index con toda la información disponible de la base de datos Edgar desde un año definido por el usuario ( predefinido a 1993 ).

Como también se expresa en la documentación puede obtener los archivos de la empresa a través de la archivo master-index filtrando, por ejemplo, la empresa (número CIK) y el tipo de formulario mediante grep en Python ( ver ejemplo de la documentación de Github ). Para completar, he proporcionado fragmentos de citas de la documentación del paquete que detalla cómo obtener la información necesaria:

Coser los archivos trimestrales a un archivo maestro

python-edgar sólo hace una cosa y la hace bien: obtener y limpiar los archivos de índice trimestral sin comprimir en su ordenador. Utiliza herramientas de línea de comandos, en el espíritu de la filosofía unix, para unir estos archivos de índice y crear nuestro archivo de índice maestro. [...]

Tomar los archivos de una empresa específica

Ahora que hemos descargado los archivos de índice, resulta fácil, con un poco de programación en la línea de comandos, filtrar rápidamente por empresa y extraer las URL de los archivos que queremos con grep. En el siguiente ejemplo grep por CIK (1000045), almacenamos la salida en un archivo de texto intermedio, que volvemos a abrir con cat y grep de nuevo por el formulario 10-K. Prefijamos las rutas con https://www.sec.gov/Archives/ y obtendrá la URL completa.

La salida del ejemplo anterior, es muy similar a la información del filing_index.csv con menos detalles que el archivo csv de los autores ( columnas que faltan más allá de "EDGAR_LINK" ):

1000045|NICHOLAS FINANCIAL INC|10-K|2015-06-15|edgar/data/1000045/0001193125-15- 
223218.txt|edgar/data/1000045/0001193125-15-223218-index.html
1000045|NICHOLAS FINANCIAL INC|10-K|2016-06-14|edgar/data/1000045/0001193125-16- 
620952.txt|edgar/data/1000045/0001193125-16-620952-index.html
1000045|NICHOLAS FINANCIAL INC|10-K|2017-06-14|edgar/data/1000045/0001193125-17- 
203193.txt|edgar/data/1000045/0001193125-17-203193-index.html
1000045|NICHOLAS FINANCIAL INC|10-K|2018-06-27|edgar/data/1000045/0001193125-18- 
205637.txt|edgar/data/1000045/0001193125-18-205637-index.html

El autor podría entonces convertir el resultado anterior en un archivo csv y posiblemente fusionarlo con los datos de valores del Base de datos CRSP (o similar), para darle las últimas columnas que faltan en la salida.


En conclusión No creo que encuentre ninguna forma fácil de descargar el mismo tipo de información que se proporciona en filing_index.csv . Este puede también es el caso por el que el autor no ha mencionado la fuente. No obstante, espero que esto proporcione alguna información.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X