Unsupervised Mining of Knowledge Gaps in Scientific Literature - Archive ouverte HAL Access content directly
Conference Papers Year :

Unsupervised Mining of Knowledge Gaps in Scientific Literature

, (1) ,
1
Silvia Fernandez¹
  • Function : Author
  • PersonId : 1049035
Pierre Jourlin
Eric Sanjuan²
  • Function : Author
  • PersonId : 1049036

Abstract

Literature Based Discovery (LBD) relies on the identification of gaps in the scientific literature. Most of the existing methods are supervised and rely on the use of specific large knowledge domain databases like MedLine for medical study. We present here a tractable approach based on Natural Language Processing techniques with few linguistic resources and Formal Concept Lattice exploration. Entities are automatically extracted from full text scientific papers based on their acronym forms. An unsupervised classification is build using syntax and WordNet relations. Resulting classes are clustered into multiple formal concepts and the knowledge gaps are identified in the resulting Galois Lattice. The feasibility and the relevance of the outcome is analyzed on a large corpus of fulltext journal articles dealing with nuclear energy research.
La découverte au travers de la littérature (Literature Based Discovery ou LBD) repose sur l'identification des lacunes dans la littérature scientifique. La plupart des méthodes existantes sont supervisées et s'appuient sur l'utilisation de larges bases de connaissances spécifiques telles que MEDLINE dans le domaine de la médecine. Dans cet article, nous présentons une approche fondée sur des techniques de Traitement de la Langue Naturelle (TALN), d'exploration de treillis de concepts formels et sur une utilisation minimale de ressources linguistiques. Les entités sont extraites automatiquement à partir du texte intégral des articles scientifiques en fonction de leurs acronymes. Une classification non supervisée est construite en utilisant la syntaxe et les relations de WordNet. Les classes résultantes sont regroupées en plusieurs concepts formels et les lacunes de connaissances sont définies dans le treillis de Galois induit. La faisabilité et la pertinence des résultats sont analysées sur un large corpus textuel d'articles de revues portant sur la recherche en énergie nucléaire.
Fichier principal
Vignette du fichier
jadt2010_final.pdf (563.13 Ko) Télécharger le fichier
Origin : Files produced by the author(s)
Loading...

Dates and versions

hal-02152783 , version 1 (11-06-2019)

Identifiers

  • HAL Id : hal-02152783 , version 1

Cite

Silvia Fernandez¹, Pierre Jourlin, Eric Sanjuan². Unsupervised Mining of Knowledge Gaps in Scientific Literature. Journées d’Analyse statistique des Données Textuelles, Jun 2010, Rome, Italy. ⟨hal-02152783⟩

Collections

UNIV-AVIGNON LIA
31 View
17 Download

Share

Gmail Facebook Twitter LinkedIn More