Loading...
 
[Show/Hide Left Column]

Prédiction et Analyse 

de données structurées et hétérogènes

 PASADENA


Axe: DataSense
Coordinateurs : Arthur Tenenhaus, Centrale-Supélec ; Flora Jay, Université Paris-Sud ; Maxime Sangnier, Université Pierre et Marie Curie (précédemment : Slim Essid, Télécom ParisTech ; Florence d'Alché-Buc, Télécom ParisTech)
Objectif : Séminaire mensuel concernant l'analyse de données structurées et hétérogènes
Productions Scientifiques :
Financement Labex en : 2015-2018



Présentation :
De nombreux domaines tels que la bioinformatique, la chimiométrie, le génie biomédical ou encore le multimédia sont caractérisés par des données numériques complexes provenant de sources multiples, hétérogènes, souvent interconnectées et potentiellement de grande dimension (e.g. données omiques multimodales, données d’imagerie multimodales, vidéos, etc...). En plus de cette structure globale, chaque source d'information peut présenter une structure spécifique complexe (e.g. structure tensorielle, graphe, arbre, séquence) explicite ou non dans les différentes données. Ces données ne peuvent être réduites à un simple tableau individus × variables et requièrent une analyse intégrée permettant de tirer profit des complémentarités qui existent entre les différentes sources. Cependant, les méthodes traditionnelles, pour être utilisées, requièrent d’altérer leur organisation naturelle au risque de perdre l'information pertinente. Ainsi, le développement de méthodes statistiques d'analyse de données capables d’épouser les structures globales et spécifiques est essentiel pour qui souhaite extraire de l'information pertinente.

Nous distinguons trois grandes problématiques autour de l’analyse de ces données: (i) L’analyse (non supervisée) des relations entre modalités (e.g. identification des liens entre données omiques, correspondance entre vidéo, audio et sous-titres) qui peut notamment aller jusqu'à l'inférence d'une structure cachée (e.g. pour la structuration automatique de vidéos, en chapitres, scènes, séquences, etc.) (ii) celle de la classification/régression (supervisée) à partir de données hétérogènes (e.g. la détection d'opinions dans un signal audio-visuel) ; ou encore
(iii) la prédiction structurée qui vise de manière fortement ou faiblement supervisée à prédire un type de données à partir d'un autre (e.g. la compréhension de scènes visuelles en multimédia, ou automatic captionning). Dans chacune de ces thématiques, la prise en compte de la structure des données peut prendre plusieurs formes: un espace de représentation bien choisi, une régularisation appropriée ainsi que des algorithmes robustes au bruit et aux données manquantes. Les différentes équipes intéressées par ce groupe de travail développent différents types d’approches dans des domaines applicatifs parfois lointains. Un des intérêts de ce groupe est donc de se placer au niveau méthodologique et de répondre ensemble aux défis suivants :
  1. Extraction de l'information pertinente noyée dans un ensemble de variables éclatées en plusieurs tableaux (eux-mêmes potentiellement structurés).
  2. Réduction de la dimension par projection et/ou sélection de variables.
  3. Identification de structure à partir de données hétérogènes.
  4. Prédiction de classes, de sorties vectorielles à partir de données hétérogènes.
  5. Prédiction d’un type de données en fonction d’un ou plusieurs autres.

Équipes concernées et liste des participants:
Au sein du Labex
  • LTCI (Télécom ParisTech) : Chloé Clavel, Slim Essid, Florence d’Alché-Buc, Joseph Salmon
  • L2S (Centrale-Supélec) : Arthur Tenenhaus, Frédéric Pascal, Emmanuel Vazquez, Laurent Le Brusquet, Rémy Boyer, Francois Orieux
  • Neurospin (INRIA-CEA) : Vincent Frouin, Cathy Philippe, Bertrand Thirion, Gael Varoquaux, Lenka Zdeborová, Alexandre Gramfort
  • LRI (Université Paris Sud) : Flora Jay, Balazs Kegl
Au sein de l’Université Paris-Saclay
  • IBISC (Université d'Evry Val d'Essonne) : Blaise Hanczar, Farida Zehraoui, Fariza Tahi
  • Lamme (Université d'Evry Val d'Essonne) : Marie Szfaranski
  • MICS (CentraleSupelec) : Sarah Lemler
Extérieur à l’Université Paris-Saclay
  • LSTA, LIP6 (Université Pierre et Marie Curie) : Maxime Sangnier
  • Institut du Cerveau et de la Moelle Epinière (ICM) : Vincent Perlbarg, Francois Xavier-Lejeune, Ivan Moszer
  • Université de Dallas : Hervé Abdi
  • Institut Pasteur : Vincent Guillemot

Associated Internship project 1:
Responsible researcher:
  • Inria, Parietal team: Bertrand Thirion
  • Telecom Paris, IDS, S2A: Joseph Salmon
Selected candidate: Jérôme-Alexis Chevalier
Master:Data science
University:Paris 7
Date: May-Sept 2017
Digicosme axis: Datasense
Project Summary:
Inferential statistics give a probabilistic control on the selection of variables associated with a target of interest. However, they are mostly limited to univariate models, that ignore the structure of the input variables (smoothness, correlation, complementary information). By contrast, multivariate inference has become popular in the framework of regularized regression (lasso, ridge Elastic Net and more complex avatars), however, they do not bring guarantees on the variables selected. While some solutions have recently been proposed in the case where the number of features is not too large, they are inefficient in the large p, small n regime encountered in many domains, e.g. brain imaging or genomics.
The most promising solutions so far consist in a combination of sparsity and randomization, and in the case where the data are high-dimensional and structures, clustering. Practical procedures have been proposed, but they do not come with analytic guarantees, and thus require costly non-parametric procedures to obtain significance results.

Perspectives:J.A. Chevalier is starting a PhD thesis on the same topic.

Associated Internship project 2:
Responsible researcher:
  • Inria, Parietal team: Bertrand Thirion
  • Telecom Paris, IDS, S2A: Alexandre Gramfort
Selected candidate:Meghana Madhyastha
Master:technology
University:IIT Bengalore
Date: May-Aug 2017
Digicosme axis: Datasense
Project Summary:
Understanding how cognition emerges from the billions of neurons that constitute the human brain is one of the remaining major open problems in science. Human studies performed with functional MRI are most often easier than animal studies and can be used to probe the full repertoire of high-level cognitive functions. While the analysis of data specific to a given experiment is a relatively well-mastered process, a serious limitation is the difficulty to compare data across multiple datasets, as they require to pool together brain images acquired under different settings and assess the effect of different experimental conditions that correspond to psychological effects studied by neuroscientists. Such meta-analyses are now becoming possible thanks to the existence of public data resources (OpenfMRI openfmri.org and NeuroVault neurovault.org, are well-mastered by researchers of the Parietal team) but the statistical analysis framework is still lagging behind.
The purpose of this internship is to set up a machine learning framework that takes as input large collections of images and a description of the associated protocols, and returns topographical representations associated with these concepts.

Perspectives: This project clarifies the statistical challenges for future large-scale analysis of brain functions aka mega-analyses.

Associated Internship project 3:
Responsible researcher:
  • Inria, Parietal team: Alexandre Gramfort
  • CREST, ENSAE: Marco Cuturi
Selected candidate: Hicham JANATI
Master:Data science
University:ENSAE
Date: May-Sept 2017
Digicosme axis: Datasense
Project Summary:
Multi-task regression consists in inferring jointly multiple regression models for different prediction tasks. The intuition is that a single joint estimation outperforms several estimations carried out independently if tasks share some similarities, which happens typically when different subsets of features are useful for all regression tasks. This intuition led to several seminal contributions in the machine learning literature, e.g. multi-task Lasso or Multi-task Feature Learning (MTFL). However, this assumption of common features between all tasks can be too restrictive as it is the case in for supervised learning tasks in functional brain imaging. The idea of this project is to use optimal transport theory to alleviate this limitation.

Perspectives:Hicham JANATI is starting a PhD thesis on the same topic.


Associated Post-doc project: AMPHI Approximate Message Passing for High-dimensional inference
Responsible researchers:
  • Inria, Parietal team: Bertrand Thirion
  • Telecom Paris: Joseph Salmon
  • CEA/Institut de Physique Théorique: Lenka Zdeborova
Link:
Project Summary:
In many scientific fields, the data acquisition devices have benefited of hardware improvement to increase the resolution of the observed phenomena, leading to ever larger datasets. While the dimensionality has increased, the number of samples available is often limited, due to physical or financial limits. This is a problem when these data are processed with estimators that have a large sample complexity, such as multivariate statistical models. In that case it is very useful to rely on structured priors, so that the results reflect the state of knowledge on the phenomena of interest. The study of the human brain activity through neuroimaging belongs among these problems, with up to 10 6 features, yet a set of observations limited by cost and participant comfort. We are missing fast estimators for multivariate models with structured priors, that furthermore provide statistical control on the solution.
We want to join forces to design a new generation of inverse problem solvers that can take into account the complex structure of brain images and provide guarantees in the low-sample-complexity regime. To this end, we will first adapt alternating direction method of multipliers (ADMM) or Approximate Message Passing (AMP) methods to the brain mapping setting, using first simple convex priors regularizations. We will then consider more complex structured priors that control the variation of the learned image patterns in space and non-convex priors. Crucial gains are expected from the use of the EM algorithm for parameter setting. We will also examine the estimation of parametric and non-parametric confidence intervals about the estimates.

Start of the project: 2017



Réunions:
Kick-off
Lundi 22 février, 14h-18h
Télécom Paristech, site Barrault, salle F609

Présentations :
  • Bertrand Thirion (INRIA): Learning representations from functional brain imaging.
  • Arthur Tenenhaus (CentraleSupélec, SSE): Structured data analysis
  • Slim Essid (LTCI, Télécom ParisTech): Machine Learning for Multimodal Data Analysis at Télécom ParisTech.
  • Florence d'Alché-Buc (LTCI, Télécom ParisTech): Operator-valued kernel regression: a new kernel angle.
  • Flora Jay (CNRS, LRI): Infering past and present demography from genetic data.

Réunion 2
Mercredi 22 juin, 14h-18h
Centrale Supélec, département Signal et Statistique, salle A305

Présentations :
  • Vincent Frouin (I2BM, NEUROSPIN): A genetic study of Human height in the IMAGEN cohort. Lessons for imaging-genetics.

Réunion 3
Mercredi 26 octobre, 14h-18h
Télécom Paristech, site Barrault, salle C47

Présentations :
  • Céline Brouard (Aalto University): Fast metabolite identification with Input Output Kernel Regression.
  • François Yvon (LIMSI/CNRS): Cross-lingual transfer for tagging and parsing: expectations met and failed.

Réunion 4
Réunion conjointe au séminaire Scube de Supélec
Mardi 31 janvier, 10h30
Supélec, salle du conseil du L2S

Présentation :
  • Dominik Janzing (Max Planck Institute for Intelligent Systems, Tuebingen, Germany): Detecting confounding in multivariate linear models via spectral analysis.

Réunion 5
Mercredi 17 mai, 14h-17h
Télécom Paristech, site Barrault, salle C229

Présentations :
  • Marie Szafranski (Université d'Evry Val d'Essonne): Computation of Genome-Metagenome Interaction Effects (with C. Ambroise, J. Chiquet et F. Guinot).
  • Zoltan Szabo (École Polytechnique): Data-Efficient Independence Testing with Analytic Kernel Embeddings.

Réunion 6
Mardi 4 juillet, 14h-16h
Centrale Supélec, département Signal et Statistique, salle A305

Présentation :
  • Hervé Abdi (The University of Texas at Dallas): Constrained Singular Value Decomposition (with beer, bird, and face image examples).

Réunion 7
Vendredi 6 octobre, 10h-12h
Centrale Supélec, département Signal et Statistique, salle A305

Présentation :
  • Katrijn Van Deun (Tilburg University, the Netherlands): Big Data in the Social Sciences: Statistical methods for multi-source high-dimensional data.

Réunion 8
Jeudi 7 décembre, 10h-12h
LRI, Bâtiment 660 Claude Shannon, Amphithéâtre Digitéo

Présentations :
  • Rémy Boyer (L2S): Model Reduction and Factor Estimation With Tensor Graph.
  • Jérôme-Alexis Chevalier (Inria, Parietal): Statistical control of sparse models in high dimension.