Jump to Navigation

Bibliome

Acquisition et formalisation de connaissances à partir de textes

Responsable : Claire Nédellec

La littérature scientifique constitue un gisement de connaissances scientifiques de grande valeur, mais largement inexploité parce qu’uniquement sous forme textuelle. La croissance très rapide du volume de publications sous forme d'articles ou de bases de données à un niveau mondial rend impossible une veille scientifique systématique. Il est nécessaire de doter les chercheurs d’outils semi-automatiques pour sélectionner, extraire et formaliser ces connaissances, qui seront ensuite confrontées et intégrées avec des connaissances de sources et domaines étendus dans un objectif de modélisation de connaissance.

L’équipe de recherche Bibliome en collaboration avec d’autres laboratoires a pour objectif de développer de nouvelles méthodes et technologies, intégrées dans la Suite Alvis et appliquées à différentes questions biologiques. Ces méthodes identifient des connaissances fines dans de larges corpus de documents de genres divers et les mettent en relation faisant appel à la linguistique computationnelle et à l’apprentissage automatique.

 


Projets

 

Projets en cours

Infrastructure H2020 Text-mining OpenMinTeD (2015-2018)

D-ONT, Exploitation optimisée des bases de données phénotypiques - Des ontologies pour le partage d’information, ACI Phase 2016-2018

IMSVInstitut de modélisation des systèmes vivants, Lidex de l'Université Paris-Saclay (2014-2016)

SeeDev, Regulations in the devlopement of Arabidopsis thaliana seed (Challenge Lidex CDS) (2015)

Projets récents

OntoBiotopeMetaprogramme INRA MEM (Metagenomics of microbial ecosystems). (2012-2013).

Triphase: Semantic information system for publications in animal physiology and agricultural systems. PHASE department (2013-2014).

QuaeroAutomatic multimedia content processing Oséo. (2008-2013).

FSOV SAM BléSelection of wheat by genetic markers Fond de soutien à l'obtention végétale (2010-2013).

 


Animation

 

Workgroup Labex DigiCosme D2K (from Data to Knowledge)

INRA CATI ICAT (Knowledge Engineering and Text Analysis)

BioNLP-Shared Task (201120132016): corpus annoté et service d'évaluation

LLL, Learning Language in Logics (2005)


Membres de l'équipe Bibliome


Claire Nédellec

 

 

 Claire Nédellec, Directrice de Recherche, responsable de l'équipe Bibliome.

 

 

Robert Bossy

 

 

 Robert Bossy, Ingénieur de Recherche, responsable de la Suite Alvis.

 

 

 

 Louise Deléger, Chercheuse.

 

Dialekti Valsamou, doctorante IDEX IDI.

 

 

 Philippe Bessières, Directeur de Recherche.

 

 

Dialekti Valsamou, doctorante IDEX IDI.

 

 

 Dialekti Valsamou, en thèse, IDEX IDI.

 

 

 

Estelle Chaix, post-doc, projet OpenMinTeD.

 

 

 

 Arnaud Ferréen thèse, IDEX IDI.

 

 

 

 

 Mouhamadou Ba, post-doc, projet OpenMinTeD.

 

 

 

 



Logiciels de l'équipe

BioYaTeA is an extension of the YaTeA term extractor that deals with prepositional attachments and adjectival participle. It extracts terms from documents in French and in Eglish. Its distribution includes post-filtering of irrelevant terms. It is publicly available as CPAN module. Part of this work has been funded by the European project Alvis and the French project Quaero. See (Golik et al., CiCLING'2013) for more details.

    AlvisAE (Alvis Annotation Editor) est un éditeur d'annotation en ligne. Il permet de visualiser et d'annoter les entités et les relations d'un texte. Il inclut des fonctions de gestion de campagne d'annotation. Il permet d'annoter les entités par les concepts d'une ontologie et de réviser l'ontologie en parallèle. Il est intégré à AlvisNLP. Ce travail a été partiellement financé par le projet Quaero. Voir LAW VI paper pour plus de détails.

    AlvisIR (Alvis Information Retrieval) is an on-line generic semantic search engine ; only few hours are needed to create a a new instance for a given document collection and an ontology. A user query with the ontology concepts retrieves all documents that contain the concepts, in the form of specific concepts, or synonyms. AlvisIR semantic search engine also handles relationnal queries. See for example search on biotopes of microorganisms . Part of this work has been funded by the European project Alvis and the French project Quaero.

    Alvis NLP/ML est une chaîne de traitement pour l'annotation sémantique de documents textuels, intégrant des outils de traitement automatique des langues naturelles pour la segmentation en mots/phrases, la reconnaissance d'entités nommées, l'analyse de termes, le typage sémantique et l'extraction de relations. Ces outils exploitent des ressources externes, comme des terminologies ou des ontologies. AlvisNLP/ML propose plusieurs outils pour l'acquisition (semi)-automatique de ces ressources, fondées sur des techniques d'apprentissage automatique. La chaîne est facilement configurable et extensible par ajout de nouveaux composants. Ce travail a été partiellement financé par le projet européen Alvis et le projet Quaero. Voir Nédellec et al., Handbook on Ontology, 2009.

    TyDI (Terminology Design Interface) is a collaborative tool for the manual validation and structuring of terms either originating from terminologies or extracted from training corpus of textual documents. It is used on the output of so-called term extractor programs (like BioYatea), which are used to identify candidates terms (e.g. compound nouns). With TyDI, a user can validate candidate terms and specify synonymy/hyperonymy relations. These annotations can then be exported in several formats, and used in other natural language processing tools. Part of this work has been funded by the French project Quaero. More details (Golik et al., Ekaw 2010 ).


    On-line services

    Semantic search engines based on AlvisIR technology

    • AnimalIR indexes Animal Journal articles with ATOL ontology
    • SamBlé indexes a large set of full-papers on genetic markers of bread wheat. FSOV SamBlé Project
    • Biotope relational search engine indexes all PubMed references on habitats of microorganisms (1,16 millions references) with Alvis Suite technology and OntoBiotope Ontology. Funded by Quaero project and MEM metaprogramme.
    • TriPhasIR indexes the publications of the PHASE scientific department (2010-2014) with the TriPhase termino-ontology.

    Other on-line services

     Cocitations est un service en ligne équipé d'une base de données indexant les phrases issues des références PubMed et mentionnant au moins deux noms de gènes. Un utilisateur peut interroger la base en donnant un nom de gène dans une espèce données (seule Bacillus subtilis est actuellement disponible), et sélectionne le second gène en parcourant la liste des gènes cocités. Les références ou phrases correspondantes sont alors affichées, et les occurrences des noms de gènes sont surlignées.

    • OntoBiotope Database is an on-line service for the navigation through the OntoBiotope database of microorganisms and habitats described in PubMed reference. The result of the user query is display through a treemap representation.
     

     

     

     



    Main menu 2

    Page | by Dr. Radut