Loading...
 
[Show/Hide Left Column]

GT D2K        

Groupe de travail DigiCosme

D2K : De la Donnée à la Connaissance

Axe: DataSense 2
Coordinatrices : Claire Nédellec, MaIAGE ; Chantal Reynaud, LRI
Objectif : Résolution de questions complexes suivant un point de vue guidé par la tâche, combinaison de méthodes interdisciplinaires allant du traitement des données et de l’information à celui de la connaissance
Productions Scientifiques :
Financement Labex en : 2015
Image


Documents : Lien vers le projet soumis à la commission Recherche

Problème abordé
Pour répondre à des questions complexes dans les domaines scientifiques, techniques et industriels, l’intégration de méthodes issues de très nombreux domaines des STIC est nécessaire : analyse d’images, analyse du signal, traitement de la langue, système d’information, apprentissage automatique, représentation des connaissances, logique et raisonnement, traitement de l’incertitude, modélisation dynamique et systémique, etc. La modélisation du vivant et l’optimisation de filières de transformation sont deux exemples illustratifs de telles questions complexes. Plus encore, des avancées décisives sur des questions complexes et finalisées nécessitent de prendre résolument un point de vue guidé par la tâche à traiter. La réussite repose alors sur la capacité des chercheurs à prendre en compte à tout niveau dans la résolution des problèmes une double perspective interdisciplinaire STIC / domaine d’application qui assure que les contraintes et les priorités du domaine d’application sont intégrées et qui assure également la faisabilité des solutions informatiques envisagées.

Les questions au coeur de cette problématique qui seront abordées dans ce groupe de travail sont les suivantes :
  • la représentation des entrées et les sorties des traitements. Quelle représentation de l’information utile et disponible pour un traitement, guidé par la tâche et les connaissances a priori afin d’obtenir le meilleur résultat ? Les ontologies et de manière générale la représentation formelle de connaissances apportent des réponses intéressantes à la problématique de normalisation, mais la question est bien plus large.
  • la réconciliation de données incertaines, incomplètes, hétérogènes et contradictoires est également identifiée comme un point clef (avec la prise en compte de la provenance, des conditions de production des données, des protocoles de collecte, des types de mesures). Détection de contradictions aux niveaux données et connaissances, validation et fusion.
  • la gestion de données complexes et/ou massives : optimisation du stockage et interrogation efficace de données structurées ou non, à l’aide de connaissances.
  • l’extraction d’information à partir de textes (EI, Q&A) et l’analyse d’images, guidées par les modèles de connaissances et servant à les enrichir (Ontology population). Couplage avec le raisonnement et la révision non-monotone.
  • la conception d’outils facilitateurs d’interaction :
    • Plateforme de gestion de projets collaboratifs (wiki, forum, détection et résolution de contradictions),
    • Outils informatiques coopératifs (par exemple, apprentissage et acquisition de connaissance)
    • Utilisabilité : visualisation, interaction homme-machine, ergonomie
    • Conception, réutilisation et adaptation de workflows. Infrastructures, service. Formation en ligne des utilisateurs.

Réunions de travail


Réunion du 09/05/2017
14h00 - 17h00 LRI, Bât. 650, Ada Lovelace, salle 455. Thème : "Ouverture des données scientifiques et fouille de texte - évolution de la loi et des pratiques"

- Les données ouvertes,
Sophie Aubin, animatrice du Pôle Gestion des Connaissances (GeCo) à la DIST (Délégation Scientifique et Technique) de l'INRA, Versailles.
Télécharger

- Quels droits pour le TDM ?
Claire Nédellec, MaIAGE, Jouy-en-Josas, INRA.
Télécharger



Réunion du 27/02/2017
14h00 - 17h00 LRI, Bât. 650 Ada Lovelace, salle 455. Thème : "Ontologies et extraction d'informations à partir de textes"

- Validation of Claimed Relations by Different SF Systems for KBP Task, Rashedur Rahman, LIMSI, CNRS, Université Paris-Sud. Télécharger

- Extraction et classification de relations sémantiques dans des articles
scientifiques, Kata Gabor, LIPN, Institut Galilée, Université Paris-13.

Résumé :
De nos jours, la production d'articles scientifiques croît à un rythme accéléré. Cette explosion d'information rend le travail des chercheurs, des relecteurs et des experts de plus en plus difficile. Ce problème a attiré l'attention de plusieurs chercheurs dans les domaines du web sémantique, de la scientométrie et du traitement du langage naturel, qui explorent des solutions pour fournir un meilleur accès à la littérature scientifique par une analyse sémantique profonde du contenu des textes. La compréhension profonde d'un domaine scientifique et de son état de l'art requiert l'identification des entités pertinents et les relations sémantiques qui les lient. De telles relations peuvent être extraites en utilisant ressource ontologique existante. Cependant, la disponibilité et la couverture des ressouces spécifiques sont limitées, puisque leur construction est coûteuse en termes de temps de travail et de besoin d'expertise. Ainsi, nous cherchons à mettre en oeuvre une approche non supervisée pour l'identification des relations sémantiques dans un corpus de spécialité. Notre approche ne nécessite pas des données d'apprentissage annotées et bien qu'elle soit spécifiquement dédiée à la littérature scientifique, elle reste applicable sur n'importe quel domaine pour lequel une telle littérature existe.

La présentation explorera les problématiques spécifiques à la tâche d’extraction et classification de relations de manière non supervisée. Deux approches complémentaires seront présentées. La première se concentre principalement sur les relations lexicales, et elle est basée sur la caractérisation du sens des mots individuels par des vecteurs distributionnels (word embeddings). Ces vecteurs sont créés à partir de corpus et combinés pour représenter le sens et la relation sémantique du couple d’entités. Nous proposons une nouvelle méthode de combinaison de vecteurs distributionnels qui permet de mieux estimer la similarité relationnelle entre deux couples d’entités. L’avantage de cette méthode est de pouvoir s’appliquer à des couples d’entités qui ont peu de co-occurrences dans le corpus. La deuxième approche, à son tour, s’appuie sur les contextes de co-occurrence des entités. Les couples d’entités sont caractérisés par leurs co-occurrences avec des motifs spécifiques à la relation, qui sont extraitsautomatiquement à partir du corpus. Nous montrons que cette approche peut bénéficier de la fouille de motifs séquentiels, qui crée un espace vectoriel plus adapté (moins creux) pour un clustering non supervisé. Après la présentation des résultats, nous indiquerons quelques directions vers une hybridisation des deux approches.



Réunion du 08/06/2016
14h00 - 17h00 LRI, Bât. 650 Ada Lovelace, salle 455. Thème : "Compétitions dans le domaine biomédical"

- Une tâche partagée en résumé automatique de texte : retours d'expérience.
Kevin Cohen, chercheur invité au LIMSI,CNRS. Télécharger

- BioNLP Shared Task 2016 : acquisition automatique de connaissances dans les domaines des habitats bactériens et la génétique des plantes.
Robert Bossy, unité MaIAGE INRA. Télécharger

Résumé : Dans cet exposé nous décrirons l'organisation et les résulats obtenus lors de la campagne 2016 de BioNLP-ST pour les tâches "Bacteria Biotopes" et "Genetics of Seed Development". L'élaboration de ces tâches sont guidées par un besoin d'automatisation de l'acquisition de bases de connaissances à partir de la littérature scientifique. Nous exposerons comment cet objectif a influencé l'annotation des corpus de référence et le choix des métriques d'évaluation. Les résultats obtenus par les participants montrent les capacités et les limites de l'acquisition automatique de bases de connaissances.



Réunion du 23/03/2016
14h00 - 17h00 LRI, Bât. 650 Ada Lovelace, salle 455. Thème : "Analyse de contenus multimedia"

- Indexer et enrichir la TV (sans regarder les images)
Vincent Claveau (Irisa, Rennes) Télécharger

Avec la convergence numérique se développe de nouveaux modes de consommation de la télévision. On regarde ses émissions préférées en rediffusion (replay, catch-up TV), sur son ordinateur, ou avec tablette sur les genoux (second screen). Avec ces nouveaux usages, il est devenu possible de proposer des services innovants au téléspectateur pour enrichir son expérience.
Dans cet exposé, nous verrons comment le traitement automatique des langues peut jouer un rôle central pour construire ces services, soit en conjonction avec les autres médias (images, sons), soit sans.

- Indexation multimodale de documents multimedia
Camille Guinaudeau et Hervé Bredin (Limsi, Université Paris-Saclay) Télécharger la présentation de Camille- Télécharger la présentation d'Hervé

L’indexation de documents multimedia nécessite d’extraire les informations portées par les différentes modalités, utilisées ensemble ou séparément, pour caractériser le contenu des documents.
Au cours de cet exposé Camille Guinaudeau présentera les travaux effectués au sein du groupe du Traitement du Langage Parlé autour de l’indexation multimodale de séries télévisées et Hervé Bredin décrira la campagne d’évaluation « Multimodal Person Discovery in Broadcast TV » proposée en 2015 lors du workshop MediaEval.



Réunion du 19/02/2016
9h30 - 12h30, LRI, Bât. 650 Ada Lovelace, salle 455. Thème : "Connaissances et Raisonnement"

- Measuring Inconsistencies in Knowledge Bases
Yue Ma, Equipe LaHDAK, LRI - Université Paris-Sud - CNRS - Université Paris-Saclay Télécharger

Reasoning about inconsistent knowledge bases has been a long-standing challenge in the AI community because inconsistencies are often unavoidable in real-world applications. In recent years, measuring inconsistency has been widely studied to give a quantitative treatment of inconsistencies. In this talk, I will first introduce the problem of inconsistency measuring, followed by the challenges in defining a proper inconsistency measure. Different approaches to setting an inconsistency measure will be presented, together with their theoretical properties and computational algorithms whenever available. Application secnarios will be discussed to show the usage of an inconsistency measure.

- Semantic for Consistent Query Answering
Michaël Thomazo, Projet OAK, INRIA - Université Paris-Saclay

I will introduce the problem of querying ("Which animals are on the sofa?") data ("Garfield is a cat", "Garfield is a dog", "Garfield is on the sofa") in presence of ontologies ("A cat is an animal", "A dog is an animal", "No dog is a cat as well") when there are inconsistencies between the data and the ontology. After showing that the classical first-order semantics is not very well suited for this, I will present several alternative semantics and discuss their pros and cons.



Réunion du 13/01/2016
9h30 - 12h30, LRI, Bât. 650 Ada Lovelace, Salle 455. Thème : "Connaissances et Analyse d'images"

- Modélisation de connaissances anatomiques pour l'interprétation d'images médicales
Isabelle Bloch, LTCI, CNRS, Télécom ParisTech, Université Paris-Saclay Télécharger

Nous présentons l'intérêt de la modélisation de connaissances pour guider l'interprétation d'images, en particulier médicales, en insistant sur les connaissances structurelles telles que des relations spatiales. Ces connaissances peuvent être modélisées sous forme d'ontologies, de graphes, ou encore de réseaux de contraintes, associés à des représentations floues de relations spatiales. Nous illustrons quelques méthodes de reconnaissance d'objets et de scènes, guidées par ces modèles, en particulier en imagerie cérébrale, pour la segmentation et la reconnaissance de structures internes du cerveau, y compris en présence de tumeurs.

- Extraction/utilisation d'informations à partir d'images acquises en microscopie: quelques exemples
Alain Trubuil, INRA - CRJ, Unité MaIAGE - Jouy en Josas

Dans cette présentation, l'objectif est de montrer sur un exemple qu'une information élaborée peut parfois être inférée à partir de données d'imagerie en apparence assez simples. Alain Trubuil s'appuie, pour cela, sur le développement précoce des embryons de plantes et montre que certaines traces du passé de l'embryon peuvent aussi être extraites et servir pour représenter et comparer des embryons.



Réunion du 13/10/2015
9h30 - 12h30, LRI, Bât. 650 Ada Lovelace, Salle 455. Thème : "Modélisation et Processus"
Télécharger le compte rendu

- Présentation équipes : Groupe Bibliome (MAiAGE, INRA), Groupe BioInfo (LRI- Univ. PSud)

- Construction d'une ontologie multi-étapes et multi-échelles : Juliette Dibie-Barthélémy (Groupe Link - MIA - Inra & AgroParisTech) Télécharger
We propose to face the heterogeneity of the experimental data and experts knowledge on food transformation processes by building an ontology. The Multi-Scales and Multi-Steps Ontology, MS²0, presented allows one to model a dynamic process composed of a sequence of operations that allows inputs to be transformed in several different outputs, the inputs and outputs being studied at different scales (from the microbial cell components to the target functionality at the population level). The presentation is illustrated by examples on the eco-design of the system of stabilized micro-organisms production, described at different scales (from the microbial cell components to the target functionality at the population level) and at different steps of the production process.

- (Ré)-utilisation de workflows scientifiques pour une meilleure reproductibilité des expériences bioinformatiques : Sarah Cohen-Boulakia (Equipe BioInfo - LRI - UPSud) Télécharger
L'intégration des données biologiques (hautement complémentaires) est un besoin fort pour faire progresser les connaissances en biologie. Dans ce contexte, les workflows scientifiques sont utilisés pour intégrer finement les données et faire face à leur grande hétérogénéité. Ils permettent de décrire précisément les outils bioinformatiques utilisés (et l'ordre dans lequel les utiliser) lors d'une expérience bioinformatique. Une même expérience peut alors être "rejouée" plusieurs fois (à l'identique pour faire valider un résultat par un tiers, ou en modifiant des paramètres pour mieux comprendre un résultat expérimental etc). L'utilisation (et la réutilisation) de workflows scientifiques joue donc un rôle clé dans la reproductibilité des expériences bioinformatiques.
Dans cet exposé, nous présentons d'abord les résultats d'une étude approfondie que nous avons mené de la réutilisation des workflows disponibles dans les grands entrepôts de workflows. Face au relativement faible taux de réutilisation que notre étude met en évidence, nous avons proposons des contributions suivant deux axes.
Premièrement, nous présentons des méthodes d'interrogation d'entrepôts de workflows efficaces et précises (en collaboration avec l'université de Humboldt, Berlin) pour permettre aux utilisateurs de retrouver plus rapidement et facilement des analyses existantes effectuant des tâches similaires à celles qu'ils souhaitent entreprendre. Deuxièmement, nous présentons des travaux qui visent à réduire la complexité structurale des workflows (qui peuvent avoir des structures de graphes très complexes) dans deux projets, ZOOM*userviews (avec l'université de Pennsylvanie) et DistillFlow (avec l'université de Manchester) pour rendre les workflows scientifiques plus lisibles et facile à interpréter (donc à réutiliser) pour l'utilisateur.
Enfin, nous dégageons des axes de collaboration possible avec les membres du groupe de travail D2K notamment autour des thématiques d'annotation de workflows en utilisant des ontologies et des techniques de fouille de texte.



Réunion de lancement
08/06/2015, 9h30 - 12h30, LRI, Bât. 650 Ada Lovelace, Salle 455. Télécharger le compte rendu

- Présentation équipes : Groupe Iles (LIMSI- Univ. PSud), Groupe LaHDAK (LRI- Univ. PSud), Groupe TII (LTCI - TelecomParisTech)

- Annotations précises et personnalisées pour l'interprétation de textes décrivant des entités (C. Alec - LRI - LaHDAK) Télécharger
Ce travail présente une approche d'annotation sémantique de documents issus d'un corpus où chaque document du corpus décrit une entité particulière (un produit, un objet, une personne) relevant d'un même domaine. Notre but est d'interpréter chaque document, i.e. de l'annoter avec des types précis, qui traduisent des points de vue particuliers qui peuvent changer d'une application à l'autre et qui ne sont pas forcément aisément définissables. Le processus d'annotation d'un document s'appuie sur une ontologie et s'effectue en deux étapes. Les caractéristiques de base d'une entité sont tout d'abord extraites du document la décrivant, puis un raisonnement sur ces caractéristiques permet d'inférer les annotations à associer à ce document. L'approche combine de façon automatique des techniques de TAL, d'Apprentissage et du Web Sémantique et est validée sur deux domaines, celui des descriptions de destinations de vacances et celui des films.

- Apprentissage automatique pour l'extraction de réseaux de régulation géniques à partir d'articles (Dialekti Valsamou - MaIAGE-INRA et LIMSI CNRS/UPSud) Télécharger
L'exposé porte sur l’extraction automatique de connaissances sémantiques relationnelles à partir d’articles scientifiques sur le développement de la graine de la plante modèle Arabidopsis thaliana. Les connaissances extraites permettront la reconstruction des réseaux de régulations en incluant les niveaux génétique et moléculaire, les facteurs environnementaux et les phénotypes associés. Une meilleure compréhension de ces mécanismes présente de nombreux intérêts finalisés pour l'agriculture et l'industrie. Ces connaissances sont décrites par des expressions complexes qui impliquent des entités biologiques reliées par des relations sémantiques spécialisées. L’approche retenue est celle de l’apprentissage automatique supervisé à base de noyau, appliqué à des exemples préalablement représentés et normalisés grâce à une analyse linguistique automatique profonde. La collaboration implique trois laboratoires, MaIAGE, LIMSI et IJPB, à l'interface de l'extraction d'information et de la biologie.



Équipes participantes, avec contact pour chacune
  • MaiAGE, équipe Bibliome : Claire Nédellec ; équipe BioSys : Alain Trubuil
  • LRI, équipe LaHDAK : Chantal Reynaud ; équipe Modhel : Yolaine Bourda ; équipe Bioinformatique : Christine Froidevaux
  • LIMSI CNRS, équipe ILES : Brigitte Grau ; équipe TLP : Camille Guinaudeau
  • Télécom ParisTech, LTCI, équipe TII : Isabelle Bloch
  • Inra et AgroParisTech, MIA-Paris, équipe Link : Juliette Dibie
  • LIST, équipe LVIC : Olivier Ferret
  • LAL : Balázs Kegl
  • INRIA Saclay, équipe AT-SAC : Gregory Grefenstette ; équipe AVIZ : Jean-Daniel Fekete ; équipe ILDA : Emmanuel Pietriga
  • IBISC, équipe Arobas : Fariza Tahi
  • MAS, équipe LogiMAS : Céline Hudelot
  • GMPA, équipe Malices : Nathalie Perrot
  • Prism, équipe ADAM : Béatrice Finance



Calls [toggle]

No records to display

Appels

No records to display

Evènements

No records to display

Agenda

No records to display