14 votos

Fuentes de Máquina lectora de Noticias

Estoy empezando un proyecto que consiste en la correlación y la previsión Forex series de tiempo para los comunicados de prensa. Soy consciente de fuentes tales como Thomson Reuter legibles por máquina, noticias y Dow Jone del Newswire servicios. Sin embargo, ambos requieren de costosas suscripciones. ¿Alguien sabe de alguna similar, pero sin equivalente que puedo utilizar para desarrollar una prueba de concepto?

Creo que los comunicados de prensa no tienen que ser estrictamente en tiempo real, y un poco de retraso está bien así, pero la marca de tiempo es esencial.


Creo que no debería haber limitado mi pregunta apenas legible por máquina noticias que son preprocesadas. Lo que me interesa, es más a lo largo de las líneas de Ransquawk en vivo de los titulares del servicio que proporciona el texto basado en los titulares de las noticias de las actualizaciones. Los datos de texto no están en un "legible por máquina", pero que está bien como puedo aplicar unas sencillas técnicas de PNL en mi lado para extraer información. Los principales problemas es cómo aprovechar estos canales en directo, ya que la mayoría de ellos no ofrecen una API. Y ya que estoy trabajando es más una prueba de concepto, creo un archivo de sellos de tiempo a la noticia puede hacer así.

8voto

Markus Olsson Puntos 12651

De acuerdo con Thomas para la mayor parte, aunque yo recomendaría que usted firme para arriba para un juicio con Dow Jones Newswire. Me gusta la API de la aplicación y que Newsware ( http://www.newsware.com/) pone a su disposición. No es adecuado para hft pero yo lo uso con el fin de mantenerse informados y buscar a menudo se utiliza la mnemotecnia. Creo que tienen un muy capaz de API y recuerdo que ofrecen los ensayos.

Usted puede leer en el fin de calcular histórico reacciones a ciertas publicaciones económicas, sin embargo, estoy dispuesto a apostar que usted no encontrará maneras correctamente (es decir, sostenible) previsión de futuro de los movimientos de los precios basada en los últimos comunicados de prensa. Creo que la única manera de monetizar la reacción de los precios de las noticias y lanzamientos económicos es a través de hft y el empleo de un host de profesionales altamente cualificados, los lingüistas, los programadores y los economistas. A mi conocimiento todo el software que es capaz de analizar el texto y la obtención de las señales de comercio de los comunicados de prensa se stricly patentado por la misma razón por la que cuesta una fortuna de desarrollar algo que tiene un borde. No es exactamente el patio de recreo para la gente en el sector minorista, y ni siquiera el patio de recreo para la mayoría de los bancos de inversión, simplemente por falta de muy especializados de los recursos que son necesarios para tener éxito en este esfuerzo.

7voto

Dave Webb Puntos 90034

Sería relativamente trivial para implementar una web rascador para cualquier sitio web que estaban interesados en la recopilación de noticias de - ver Hermosa Sopa para Python. Esto le permitirá reunir y analizar los datos de noticias de varias fuentes en una forma que puede ser más robusto que depender de un solo servicio. Por ejemplo, usted podría raspar la pantalla de un determinado sitio web por los titulares de las noticias es la presentación de informes, y, a continuación, utilizar una variedad de técnicas estadísticas para el clúster y analizar las historias.

No estoy seguro de si esto concuerda con los términos de uso de ciertos sitios web, así que no voy a comentar sobre eso.

6voto

ADL Puntos 21

He utilizado https://newsapi.org/ para uno de mis últimos proyectos.

  • gratis
  • acceso a más de 30.000 fuentes de noticias de todo el mundo (estados unidos, Alemania, India, Japón, etc.)
  • API RESTful de regresar JSON
  • excelente documentación de la API
  • ninguna limitación

Ejemplo: Titulares

Solicitud: https://newsapi.org/v2/top-headlines?country=us&apiKey=YOUR_API_KEY

Respuesta:

{
  status: 'ok',
  totalResults: 36,
  articles: [
    {
      source: {
        id: 'cnbc',
        name: 'CNBC'
      },
      author: 'Lauren Thomas',
      title:
        'Target reports holiday same-store sales growth of 5.7%, maintains 2018 outlook - CNBC',
      description:
        "Target said its same-store sales climbed 5.7 percent during this past holiday season, topping growth of 3.4 percent a year ago and surpassing some analysts' expectations.",
      url:
        'https://www.cnbc.com/2019/01/09/target-reports-2018-holiday-sales.html',
      urlToImage:
        'https://fm.cnbc.com/applications/cnbc.com/resources/img/editorial/2017/12/04/104877704-RTX3JT8Z-2-shopping-target.1910x1000.jpg',
      publishedAt: '2019-01-10T11:30:10Z',
      content:
        'Target saw a surge of shoppers head to its stores and website this past holiday season, a sign that its investments in store remodels and delivery services are paying off, and an early sign that consumers across the U.S. spent more on gifts this year. div &gt… [+3929 chars]'
    },
    {
      source: {
        id: 'bloomberg',
        name: 'Bloomberg'
      },
      author: null,
      title:
        'Ford to Cut Thousands of Jobs in Europe, Eyes Plant Closures - Bloomberg',
      description: null,
      url:
        'https://www.bloomberg.com/news/articles/2019-01-10/ford-to-cut-thousands-of-jobs-in-europe-eyes-plant-closures',
      urlToImage: null,
      publishedAt: '2019-01-10T10:00:00Z',
      content:
        "To continue, please click the box below to let us know you're not a robot."
    },
    {
      source: {
        id: 'al-jazeera-english',
        name: 'Al Jazeera English'
      },
      author: 'Al Jazeera',
      title:
        'Turkey says will launch Syria attack if US delays troop pullout - Aljazeera.com',
      description:
        "Turkey and US remain at loggerheads over the future of Syrian Kurdish forces after Trump's decision to pull out troops.",
      url:
        'https://www.aljazeera.com/news/2019/01/turkey-launch-syria-attack-delays-troop-pullout-190110092123874.html',
      urlToImage:
        'https://www.aljazeera.com/mritems/Images/2018/12/16/fcef9a3bf7424348b7fe95c865939579_18.jpg',
      publishedAt: '2019-01-10T09:55:00Z',
      content:
        'Turkey will go ahead with an offensive against Syrian Kurdish fighters in Syria if the United States delays the withdrawal of its troops from the war-torn country, Turkish Foreign Minister Mevlut Cavusoglu has said.'
    }
    // ... and many more
  ]
};

2voto

David G Puntos 3588

Las noticias no es libre, y por lo tanto, usted no encontrará una empresa que ofrece legible por máquina de los servicios de noticias de forma gratuita. Mi mejor sugerencia es pedir a un formato legible por máquina noticias de la compañía para un día de pena de datos históricos. Incluso que podría no funcionar, sin embargo, como no perder su tiempo si ellos no piensen que van a comprar su servicio.

2voto

Andrea Bertani Puntos 156

Si usted es un académico interesado en este campo yo le sugerimos ponerse en contacto con Sirca. Thomson Reuters es activo con académicos, a través de su asociación con Sirca en Australia (www.sirca.org.au). Sirca tiene otro texto legible por máquina de los productos disponibles.

Finanhelp.com

FinanHelp es una comunidad para personas con conocimientos de economía y finanzas, o quiere aprender. Puedes hacer tus propias preguntas o resolver las de los demás.

Powered by:

X