Knowledge graph population from news streams

Author

Fernández Cañellas, Dèlia

Director

Giró Nieto, Xavier

Codirector

Bou Balust, Elisenda

Tutor

Marqués Acosta, Fernando

Date of defense

2023-10-09

Pages

130 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions

Doctorate programs

DOCTORAT EN TEORIA DEL SENYAL I COMUNICACIONS (Pla 2013)

Abstract

(English) Media producers publish large amounts of multimedia content online - both text, audio, image and video. As the online media market grows, the management and delivery of contents becomes a challenge. Semantic and linking technologies can be used to organize and exploit these contents through the use of knowledge graphs. This industrial doctorate dissertation addresses the problem of constructing knowledge resources and integrating them into a system used by media producers to manage and explore their contents. For that purpose, knowledge graphs and their maintenance through Information Extraction (IE) from news streams is studied. This thesis presents solutions for multimedia understanding and knowledge extraction from online news, and their exploitation in real product applications, and it is structured in three parts. The first part consists on the construction of IE tools that will be used for knowledge graph population. For that, we built an holistic Entity Linking (EL) system capable of combining multimodal data inputs to extract a set of semantic entities that describe news content. The EL system is followed by a Relation Extraction (RE) model that predicts relations between pairs of entities with a novel method based on entity-type knowledge. The final system is capable of extracting triples describing the contents of a news article. The second part focuses on the automatic construction of a news event knowledge graph. We present an online multilingual system for event detection and comprehension from media feeds, called VLX-Stories. The system retrieves information from news sites, aggregates them into events (event detection), and summarizes them by extracting semantic labels of its most relevant entities (event representation) in order to answer four Ws from journalism: who, what, when and where. This part of the thesis deals with the problems of Topic Detection and Tracking (TDT), topic modeling and event representation. The third part of the thesis builds on top of the models developed in the two previous parts to populate a knowledge graph from aggregated news. The system is completed with an emerging entity detection module, which detects mentions of novel people appearing on the news and creates new knowledge graph entities from them. Finally, data validation and triple classification tools are added to increase the quality of the knowledge graph population. This dissertation addresses many general knowledge graph and information extraction problems, like knowledge dynamicity, self-learning, and quality assessment. Moreover, as an industrial work, we provide solutions that were deployed in production and verify our methods with real customers.


(Català) Els productors de contingut multimèdia publiquen grans quantitats de contingut en línia, tant en forma de text, àudio, imatge com de vídeo. A mesura que el mercat dels mitjans de comunicació en línia creix, la gestió i distribució de continguts es converteixen en un repte. Les tecnologies semàntiques i d'enllaç es poden utilitzar per organitzar i explotar aquests continguts mitjançant l'ús de grafs de coneixement. Aquesta tesi de doctorat industrial aborda el problema de construir recursos de coneixement i integrar-los en un sistema utilitzat pels productors multimedia per gestionar i explorar els seus continguts. Amb aquest propòsit, s'estudien els grafs de coneixement i el seu manteniment mitjançant l'extracció d'informació a partir de fonts de notícies. Aquesta tesi presenta solucions per a la comprensió multimèdia i l'extracció de coneixement de les notícies en línia, així com la seva explotació en aplicacions de productes reals. Està estructurada en tres parts. La primera part consisteix en la construcció d'eines d'extracció d'informació que s'utilitzaran per a la població del graf de coneixement. Per això, hem desenvolupat un sistema holístic d'enllaç d'entitats (EL), capaç de combinar dades multimodals per extreure un conjunt d'entitats semàntiques que descriuen el contingut de les notícies. El sistema de EL es complementa amb un model d'extracció de relacions (RE) que prediu les relacions entre parells d'entitats mitjançant un mètode innovador basat en el coneixement del tipus d'entitat. El sistema final és capaç d'extreure tripletes de coneixement que descriuen el contingut d'un article de notícies. La segona part es centra en la construcció automàtica d'un graf de coneixement d'esdeveniments de notícies. Presentem un sistema en línia multilingüe per a la detecció i comprensió d'esdeveniments a partir de "feeds" de mitjans de comunicació, anomenat VLX-Stories. El sistema recupera informació de llocs web de notícies, les agrega en esdeveniments (detecció d'esdeveniments) i les resumeix extreient etiquetes semàntiques de les seves entitats més rellevants (representació d'esdeveniments) per respondre a les quatre preguntes bàsiques del periodisme: qui, què, quan i on. Aquesta part de la tesi aborda els problemes de detecció i seguiment de temes, modelització de temes i representació d'esdeveniments. La tercera part de la tesi es basa en els models desenvolupats en les dues parts anteriors per omplir un graf de coneixement a partir de notícies agregades. El sistema es completa amb un mòdul de detecció d'entitats emergents, que detecta mencions de persones noves que apareixen a les notícies i crea noves entitats al graf de coneixement a partir d'elles. Finalment, s'afegeixen eines de validació de dades i classificació de tripletes per augmentar la qualitat de la població del graf de coneixement. Aquesta tesi aborda molts problemes generals dels grafs de coneixement i de l'extracció d'informació, com el coneixement dinàmic, l'aprenentatge autònom i l'avaluació de la qualitat. A més, com a treball industrial, proporcionem solucions que s'han implementat en producció i verifiquem els nostres mètodes amb clients reals.


(Español) Los productores audiovisuales publican grandes cantidades de contenido multimedia en línea, en forma de texto, audio, imagen o video. A medida que crece el mercado de medios en línea, la gestión y entrega de contenidos se convierte en un desafío. Las tecnologías semánticas y de enlace se pueden utilizar para organizar y explotar estos contenidos mediante el uso de grafos de conocimiento. Esta tesis de doctorado industrial aborda el problema de construir recursos de conocimiento e integrarlos en un sistema utilizado por los productores de medios para gestionar y explorar sus contenidos. Con ese propósito, se estudian los grafos de conocimiento y su mantenimiento a través de la extracción de información de flujos de noticias. Esta tesis presenta soluciones para la comprensión multimedia y la extracción de conocimiento de noticias en línea, y su explotación en aplicaciones de productos reales, y está estructurada en tres partes. La primera parte consiste en la construcción de herramientas de extracción de la información que se utilizarán para la población del grafo de conocimiento. Para eso, construimos un sistema holístico de enlace de entidades (EL) capaz de combinar datos multimodales para extraer un conjunto de entidades semánticas que describen el contenido de las noticias. El sistema de EL se complementa con un modelo de extracción de relaciones (RE) que predice las relaciones entre pares de entidades con un método novedoso basado en el conocimiento del tipo de entidad. El sistema final es capaz de extraer tripletas que describen el contenido de un artículo de noticias. La segunda parte se centra en la construcción automática de un grafo de conocimiento de eventos de noticias. Presentamos un sistema en línea multilingüe para la detección y comprensión de eventos a partir de "feeds" de medios de comunicación, llamado VLX-Stories. El sistema recopila información de sitios de noticias, las agrega en eventos (detección de eventos) y las resume extrayendo etiquetas semánticas de las entidades más relevantes (representación de eventos) para responder a las cuatro W del periodismo: quién, qué, cuándo y dónde. Esta parte de la tesis aborda los problemas de detección y seguimiento de temas (TDT), modelado de temas y representación de eventos. La tercera parte de la tesis se basa en los modelos desarrollados en las dos partes anteriores para poblar un grafo de conocimiento a partir de noticias agregadas. El sistema se completa con un módulo de detección de entidades emergentes, que detecta menciones de personas novedosas que aparecen en las noticias y crea nuevas entidades en el grafo de conocimiento a partir de ellas. Finalmente, se agregan herramientas de validación de datos y clasificación de tripletas para aumentar la calidad de la población del grafo de conocimiento. Esta disertación aborda muchos problemas generales de los grafos de conocimiento y extracción de información, como la dinamicidad del conocimiento, el autoaprendizaje y la evaluación de la calidad. Además, como trabajo industrial, proporcionamos soluciones que se implementaron en producción y verificamos nuestros métodos con clientes reales.

Keywords

Knowledge Graph Population; Relation Extraction; Natural Language Processing; Entity Linking; Topic Detection and Tracking; Information Extraction; Named Entity Recognition; Named Entity Disambiguation; Topic Modeling; Triple Validation

Subjects

004 - Computer science and technology. Computing. Data processing; 621.3 Electrical engineering

Knowledge Area

Àrees temàtiques de la UPC::Enginyeria de la telecomunicació; Àrees temàtiques de la UPC::Informàtica

Note

Tesi amb menció de Doctorat Industrial (Generalitat de Catalunya)

Documents

TDFC1de1.pdf

6.065Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/

This item appears in the following Collection(s)