Es allí cualquier publicó una investigación de calidad decente vinculación de noticias o de información no estructurada a la rentabilidad del activo? Sé que Thomson Reuters ofrece a sus Legible por Máquina noticias (MRN), de modo que alguien la use. Pero no puedo encontrar mucho en el dominio público.
Respuestas
¿Demasiados anuncios?Sólo para tu INFORMACIÓN Reuters producto se llama NewsScope.
El punto de venta es que proporcionan un sentimiento de lectura por noticia para que el usuario no tiene que realizar ningún tipo de PNL.
Si usted tiene una Reuters el representante de ventas o en contacto con ellos, entonces ellos pueden obtener varias líneas de investigación/blanco papeles que son interesantes. Aquí están las que he sido capaz de encontrar en línea (mi representante de ventas, me ha dado mejor, pero yo no guardar):
http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1558434
El uso de su Evento Índices de producto: http://puppetmastertrading.com/images/Reuters_NewsScope_Event_Indices_Whitepaper.pdf
Deutsche Bank Estrategia Cuantitativa (NOSOTROS) equipo de armar el siguiente fragmento sobre este tema (nota: su investigación está disponible para los clientes, pero me encontré con que alguien ha subido la pieza a un boceto del sitio web). En caso de que el link muere, algunos de los trabajos académicos que el sitio es:
- Akbras, F., E. Kocatulum, y S. Sorescu, 2008, "La manipulación de los precios públicos siguientes noticias: Reacción exagerada para perdedores, underreaction para los ganadores"
- Barber, B. y T. Odean, 2007, "Todo lo que reluce: El efecto de la atención y noticias sobre el comportamiento de compra de los inversionistas individuales e institucionales", en la Revisión de Estudios Financieros, Volumen 21, Número 2
- Da, Z., J. Engelberg, y P. Gao, 2009, "En la búsqueda de atención"
- Tetlock, P., 2009, "Hace público de noticias de resolver la existencia de información asimétrica?"
Su introducción dice:
Este mes vamos a afrontar otro nuevo conjunto de datos: noticias sentimiento. Los lectores habituales de nuestra investigación se sabe que este es un tema que nos resulta especialmente interesante, y que ya hemos hecho un montón de trabajo en. En este informe en particular, tomamos lo que pensamos es un innovador aproximación al estudio de la capacidad predictiva de las noticias de los sentimientos; en lugar de utilizar el estándar de modelos lineales, nos centramos en tres no-lineal, el "aprendizaje" tipo de modelos: clasificación y los árboles de regresión, los bosques de árboles de clasificación y regresión, y multivariante de adaptación regresión de splines. Todos los tres de estos modelos son los únicos que nos permiten tomar una datacentric el enfoque de nuestro análisis. En lugar de al predefinir una hipotética relación y, a continuación, la prueba, que nos permiten los datos para determinar la forma del modelo. Esto nos permite una mejor entender que las variables dentro de nuestro conjunto de datos son los más importantes en la determinación de la post-evento rendimientos anormales. También nos permite hacer modelos no lineales complejas relaciones que no pueden ser aparente a primera vista.
En general nos encontramos con que las noticias sentimiento, en conjunción con modelos no lineales, puede generar alfa. Mejor aún, nos encontramos con este alfa es relativamente correlación con el más tradicional quant factores. Por supuesto, también hay un lado negativo. La capacidad predictiva de noticias sentimiento es de corta duración; los mejores resultados se obtienen cuando la previsión sólo de los próximos cinco días. Por lo tanto, para algunos cuantitativa de los inversores, la señal en su propio puede tener demasiado el volumen de negocio viable. Sin embargo, nos muestran que hay maneras en las que incluso menor frecuencia de los inversores a utilizar noticias sentimiento de datos para mejorar sus acciones-proceso de selección.
Una más reciente DB Quant pieza pone de relieve otro trabajo reciente, Dzielinski, 2011, "Noticias de la sensibilidad y de la sección transversal de la rentabilidad de las acciones".
Resultados
Primero de todo, el autor demuestra que no es, como se esperaba, un estadístico y económico la diferencia en los rendimientos de las noticias de días en comparación con los no-noticias de días. Además, si bien la dirección la diferencia está en conformidad con el sentimiento, la magnitud de la diferencia no se refieren a las noticias positivas o negativas. Estas diferencias en los rendimientos entre noticias y sin noticias de los días son en realidad heterogénea entre las poblaciones: las pequeñas y ilíquidos existencias tienden a reaccionar con más fuerza, como libro bajo-a-mercado y de la alta volatilidad de las acciones. A partir de un la industria de punto de vista, las reacciones también difieren sustancialmente, aunque siguen siendo importantes, en a cada grupo. Curiosamente, Dzielinski finalmente encuentra que hay una prima de riesgo que se adjunta a la noticia la sensibilidad, y que este fenómeno sigue siendo después de controlar por factores de riesgo conocidos. La planilla mensual de la cartera de coberturas es significativamente diferente de cero y se sitúa en 0.95% en promedio. La estrategia presenta todavía importantes cargas sobre algunos factores de riesgo, como podría haberse esperado desde el panel de regresiones en las sub-muestras.
En la misma pieza, DB también menciona
Un cuento con moraleja sobre todos estos enfoques se dijo Tim Loughran y proyecto de Ley de MacDonald en la Revista de Finanzas, 2011 (Cuando Es una Responsabilidad No un Pasivo? El Análisis Textual, Diccionarios, y de 10 Ks, aquí).
En sus análisis muestran que el uso común de Harvard Psychosociological Diccionario es inadecuada para la clasificación de sentimiento en un contexto financiero. Sus resultados son específicos para el análisis de 10-k, pero probablemente también indicativo de la dificultad con la PNL en las finanzas. Algunas de sus conclusiones:
- La mayoría de los errores en las clasificaciones simplemente introducir ruido en las estimaciones;
- Algunos errores en las clasificaciones presentar falsos positivos (por ejemplo. "cáncer" es normalmente negativo, pero en un contexto financiero es neutral, lo más probable es que se refiere a un sector de la industria.
- Un simple largo-corto de estrategia basado en positivo/negativo contar las palabras de los rendimientos de los pequeños (positivo) de las partículas alfa que no son estadísticamente significativas.
Por supuesto, hay varias advertencias:
- Este enfoque es "mainstream" académico de finanzas, con todos sus pros y contras (pros: limpieza enfoque, reproducible, la sencillez sugiere una baja probabilidad de los datos de espionaje; contras: no estrictamente cuantitativa, y - en este caso - no utilizar el corte de la tecnología de punta);
- Los resultados están basados en el horizonte de la rentabilidad de la cartera (comprar/corto y estrategia en 12 meses horizonte);
- El análisis textual se limita a baja frecuencia de la información (10-Ks) frente a la media/alta frecuencia de la información proporcionada por fuentes de noticias.
Una investigación reciente
En un reciente artículo de Frank Zhao es muy interesante, para empezar: Procesamiento del Lenguaje Natural - Parte I: Imprimación.
Puede encontrar más artículos sobre este repo (demasiado largo para copiar todos aquí): nlp_papers
Aplicaciones
Si usted está buscando para las posibles aplicaciones de la actual SoTA de investigación a los mercados financieros, he aquí una lista rápida:
La equidad
- Predecir el impacto de una determinada informe sobre el precio de las acciones.
- Predecir la capitalización de mercado basado en los informes trimestrales, comunicados de prensa, etc.
- Predecir el futuro crecimiento de las ganancias basadas en los más recientes informes trimestrales, comunicados de prensa, conferencias, etc. disponible.
De Renta Fija
- Predecir la calificación de crédito (probabilidad de incumplimiento) de un emisor en particular dado sus informes trimestrales, comunicados de prensa, etc). Por ejemplo, podría ser valiosa para predecir que los bonos en su universo va a ir de BB BBB (aumento de los ángeles de predicción) y viceversa.
La sostenibilidad
- Predecir la ESG decenas de compañías que recibieron sus informes de sostenibilidad. Es difícil manualmente un seguimiento de cada empresa en su inversor universo a evaluar su ESG puntuaciones (Ambientales, Sociales y de Gobernabilidad). La PNL puede ayudar a cavar en las empresas de documentos.
- Predecir la probabilidad de que una empresa en particular para unirse a la de noruega lista negra (desde el fondo de pensiones noruego).
Riesgo
- Predecir los factores de riesgo de la exposición de un stock dado trimestral de informes y comunicados de prensa. Si una acción se inició la negociación sólo recientemente, se tiene muy poca información para evaluar su exposición a factores de riesgo. La PNL puede ayudar mediante los informes de la compañía para predecir su factor de exposición.
- Predecir la correlación/matriz de covarianza entre los activos. Útil si usted no tiene un periodo histórico importante para el cálculo de la matriz.
Conjunto de datos
- XpressFeed de S&P
- Neuralyst: PNL conjunto de datos para el Mercado de valores. Backtesting es libre de cargo. Descargo de responsabilidad: he construido este conjunto de datos.
- Diario de Noticias para el Mercado de valores de Predicción: Juguete conjunto de datos de Kaggle