Jump to Navigation

Séminaires passés

2017

  • 12 juin 2016 11h, salle de réunion, bâtiment 210
    Christophe Biernacki
    (Université de Lille 1, Modal, INRIA Lille Nord-Europe)
    About two disinherited sides of statistics: data units and computational saving
    Statistics often focuses on designing models, theoretical estimates, related algorithms and model selection. However, some sides of this whole process are somewhat not really tackled by statisticians, leaving the practitioner with some empirically choices, thus poor theoretical warranties. In this context, we identify two situations of interest which are firstly the data unit definition, in case where the practitioner hesitates between few, and secondly the way of saving computational time, for instance by early stopping rules of some estimating algorithms.
    In the first case (data units), we highlight that it is possible to embed data unit selection into a classical model selection principle. We introduce the problem in a regression context before to focus on the model-based clustering and co-clustering context, for data of different kinds (continuous, categorical). It is a joint work with Alexandre Lourme (University of Bordeaux).
    In the second case (computational saving), we recall that an increasingly recurrent statistical question is to design a trade-off between estimate accuracy and computation time. Most estimates practically arise from algorithmic processes aiming at optimizing some standard, but usually only asymptotically relevant, criteria. Thus, the quality of the resulting estimate is a function of both the iteration number and also the involved sample size. We focus on estimating an early stopping time of a gradient descent estimation process aiming at maximizing the likelihood in the simplified context of linear regression (with some discussion in other contexts). It is a joint work with Alain Célisse and Maxime Brunin (University of Lille and Inria, both).
     
  • 29 mai 2017 11h, salle de réunion, bâtiment 210
    Jean-Christophe Palauqui
    (Institut Jean-Pierre Bourgin, UMR1318 INRA-AgroParisTech)
    Etude descriptive et modélisation du développement embryonnaire chez Arabidopsis thaliana
    L’acquisition des grands plans d’organisation d’une plante s’opère au cours de l’embryogenèse précoce. Ce processus, très stéréotypé chez Arabidopsis, conduit à la mise en place d’un organisme pluricellulaire, permettant d’assurer les fonctions essentielles après germination de la graine. Au travers d’une étude descriptive 3D de l’organisation des plans de divisions, qui retrace l’historique des événements de divisions cellulaires, nous développons une approche de modélisation de la division cellulaire basée sur la géométrie de la cellule.
     
  • 15 mai 2017 11h, salle de réunion, bâtiment 210
    Melina Gallopin
    (UPSay, I2BC)
    Nonlinear network-based quantitative trait prediction from transcriptomic data

    Quantitatively predicting phenotype variables by the expression changes in a set of candidate genes is of great interest in molecular biology but it is also a challenging task for several reasons. First, the collected biological observations might be heterogeneous and correspond to different biological mechanisms. Secondly, the gene expression variables used to predict the phenotype are potentially highly correlated since genes interact through unknown regulatory networks. In this talk, we present a novel approach designed to predict quantitative traits from transcriptomic data, taking into account the heterogeneity in biological observations and the hidden gene regulatory networks. The proposed model performs well on prediction but it is also fully model-based, which facilitates the downstream biological interpretation. The model provides clusters of individuals based on the relation between gene expression data and the phenotype, and also leads to infer a gene regulatory network specific for each cluster of individuals.
    We perform numerical simulations to demonstrate that our model is competitive with other prediction models, and we demonstrate the predictive performance and the interpretability of our model to predict olfactory behavior from transcriptomic data on real data from Drosophila Melanogaster Genetic Reference Panel (DGRP).

  • 24 avril 2017 11h, salle de réunion, bâtiment 210
    Vincent Briane
    (INRIA, IRISA Rennes)
    An adaptive statistical test to detect non Brownian diffusion from particle trajectories

    (This is a joint work with the supervisors of my PhD Myriam Vimond and Charles Kervrann.)

    Assessing the dynamics of particles inside live cell is of paramount interest to understand cell mechanisms. In this presentation, we assume that the motions of particles follow a certain class of random process: the diffusion processes. Our contribution is to propose a statistical method able to classify the motion of the observed trajectories into three groups: subdiffusion (the particle is trapped in a confined domain or moves in a crowded area), superdiffusion (the particle moves in a specific direction thanks to a molecular motor) and free diffusion (namely Brownian motion). This method is an alternative to Mean Square Displacement (MSD) analysis. We assess our procedure on both simulations and real cases.

  • 20 mars 2017 11h, salle de réunion, bâtiment 210
    Simon Cauchemez
    (Institut Pasteur, Unité Modélisation mathématique des maladies infectieuses)
    Statistical analysis and modelling of epidemics

    Looking at a number of examples from recent outbreaks such as Zika in the Americas, Ebola in West Africa or MERS-CoV in the Middle, I will discuss the challenges associated with the analysis of epidemic data as well as the role modelling can play in the management of these epidemics.

  • 6 mars 2017 11h, salle de réunion, bâtiment 210
    Séminaire annulé
    .
  • 20 févrrier 2017 11h, salle de réunion, bâtiment 210
    Coralie Fritsch
    (Institut Elie Cartan Lorraine, Inria, équipe Tosca)
    Dynamique adaptative de populations bactériennes dans un bioréacteur

    Je présenterai une approche numérique pour déterminer la possibilité d'invasion de populations bactériennes mutantes dans un bioréacteur. Pour cela, j'introduirai tout d'abord un modèle stochastique individu-centré et un modèle déterministe EDP de croissance-fragmentation. Je présenterai le lien entre les fitness d'invasion de ces deux modèles, définies respectivement par la probabilité de survie de la population et la valeur propre principale d'un certain opérateur. Je donnerai ensuite des résultats sur les variations de ces fitness d'invasion en fonction d'un paramètre environnemental du modèle (agissant sur la croissance et la division des bactéries). Enfin, j'appliquerai ces résultats à un modèle de bioréacteur afin de décrire une méthode numérique pour l'étude de la dynamique adaptative de la population bactérienne.

  • Lundi 13 février 2017 11h, salle de réunion, bâtiment 210
    Vyacheslav Kungurtsev
    (Czech Technical University in Prague, Department of Computer Science)
    Nonlinear Optimization, Algorithms for Problems Satisfying Weak Geometric Assumptions, and Problems Arising in Big Data

    In this talk I will present an introduction to the foundations of mathematical programming and optimization theory and review my work on algorithms provably convergent under weak problem assumptions and parallel algorithms suitable for large scale big data machine learning applications. Nonlinear continuous optimization is a mature and active field shown to be effective in solving problems arising from a myriad of applications, including engineering and data science. How wide a class of problems a particular algorithm is capable of solving depends on the algorithm formulation being able to take advantage of problem structure and geometric properties. Algorithms that converge reliably and quickly for a broad range of constrained medium-scale problems have been developed recently, advancing the state of the art. The age of big data necessitates the use of parallel architectures in the computation of an algorithm''s procedural steps. I will present a framework for using problem structure to quickly and reliably solve a large scale nonconvex optimization problem as would arise in machine learning.

  • 30 janvier 2017 11h, salle de réunion, bâtiment 210
    Kevin Cohen
    (University of Colorado, School of Medicine, Biomedical Text Mining Group, Computational Bioscience Program, USA)
    Synthetic lethal screen reranking with natural language processing

    High-throughput assays are an experimental paradigm that has revolutionized biology in recent decades.  They are very powerful, but produce large numbers of false positives that impede the efficient analysis of experimental data.  This talk will discuss the use of natural language processing to deal with the false positive problem, focusing on a type of high-throughput assay called a synthetic lethal screen.

  • 16 Janvier 2017 11h, salle de réunion, bâtiment 210
    Etienne Birmelé
    (Paris Descartes, MAP5)
    Étude des perturbations des régulations géniques dans le cancer de la vessie

    Certains types de cancer de la vessie se comportent de façon très similaires à des cellules saines en train de proliférer ou de se différencier, laissant à penser que la tumeur utilise principalement le réseau de régulation préexistant. Le projet LIONS, en collaboration avec les universités d'Evry, Montpellier et York, ainsi qu'avec l'institut Curie, cherche à déterminer quels sont les facteurs de transcription (TF) clés de la tumorigénèse, c'est-à-dire dont une altération dans le mécanisme de régulation rend le comportement cellulaire pathologique.

    D'un point de vue statistique, cette notion, différente de celle d'expression différentielle, nécessite de 1) disposer d'un réseau de référence correspondant aux cellules saines 2) établir un score de dérégulation indiquant quels gènes ont un comportement anormal dans la tumeur 3) déterminer les jeux minimaux de TF expliquant ces comportement anormaux. L'exposé développera les pistes étudiées actuellement pour chacun de ces points.

2016

  • 5 décembre 2016 11h, salle de réunion, bâtiment 210
    Michael Blum
    (Univ. J. Fourier & CNRS, Laboratoire TIMC-IMAG, Grenoble)
    Détection d'outliers en grande dimension: application à la génomique des populations

    Notre objectif est de détecter quelles sont les variables outliers dans des jeux de données de grande dimension. Les méthodes de détection d'outliers sont utilisées en génomique pour détecter quels sont les gènes qui permettent aux individus de s’adapter à leur environnement. Nous proposons une approche rapide basée sur l’analyse en composantes principales. Le principe est de considérer comme gènes candidats ceux qui sont excessivement corrélés avec les composantes principales. Pour ce faire, nous calculons pour chaque marqueur génétique un vecteur qui mesure l’association entre un marqueur génétique et les composantes principales. Nous utilisons ensuite la distance de Mahalanobis pour trouver quels sont les vecteurs atypiques. En utilisant un jeu de données humains comprenant un peu plus d’un millier d’individus et des centaines de milliers de marqueurs génétiques, nous montrons que cette approche permet de détecter des exemples d’adaptation biologique chez l’homme.

  • 21 novembre 11h, salle de réunion, bâtiment 210
    Olivier Martin
    (AgroParisTech-INRA, UMR 791 MOSAR)
    Modéliser la dynamique des phénotypes à l'échelle de la vie de l'animal : du système biologique au système d'élevage

    Le couplage de modèles dynamiques est illustré à travers un exemple appliqué aux performances productives et reproductives des vaches.Ce travail s'inscrit dans le cadre du projet européen PROLIFIC et aborde la problématique générale de la fertilité des troupeaux bovins laitiers.

    Un modèle des performances à l'échelle de la vie de la vache est d'abord brièvement présenté (GARUNS : Martin and Sauvant, 2010ab). Ce modèle est lui-même le produit d'un couplage d'un modèle théorique de la dynamique des priorités entre fonctions vitales et d'un modèle de partition de l'énergie. Dans le modèle GARUNS, il n'y a pas de régulation de la reproduction et les dates d'insemination associées à chaque cycle de reproduction sont contrôlées par des paramètres fixes. Ce modèle du système animal n'intègre donc pas de variabilité des performances de reproduction qui découle en particulier des anomalies de cyclicité et des échecs d'insémination.

    Un modèle du système reproducteur est ensuite présenté (RPM : Martin et al., 2012). Ce modèle repose sur un cadre conceptuel générique de représentation du fonctionnement du système reproducteur. Dans ce modèle, des unités biologiques, comme l'ovaire, l'uterus ou l'embryon, intéragissent par des signaux hormonaux qui régulent leur dynamique de fonctionnement. Selon leur état de compétence, ces unités sont susceptibles de produire un signal ou de réagir à un signal en changeant d'état de compétence. Chaque unité biologique est ainsi décrite à travers des cycles d'états de compétence dont la dynamique est régulée par la signalisation hormonale. La dynamique d'ensemble du système reproducteur émerge de la dynamique des intéractions entre les unités biologiques. Dans le cadre du projet PROLIFIC, deux modèles ont été développés sur la base de ce cadre conceptuel: une version dite "heavy", conçue pour intégrer les connaissances sur les mécanismes physiologiques sous-jacents et une version dite "lite", conçue pour le couplage avec le modèle GARUNS, permettant de simuler la variabilité des cycles de reproduction et opérationnelle pour des simulations rapides.

    Un modèle du système d'élevage est brièvement décrit (BSM : Friggens et al., unpub.). A l'échelle du troupeau, ce modèle contrôle les individus vaches représentées explicitement par des versions du couple GARUNS-RPMlite. Ce modèle simule les pratiques d'élevage en matière d'alimentation, de détection d'oestrus, d'insémination, de réforme et de sélection génétique. En pratique, pour le couplage entre GARUNS et RPMlite à l'échelle d'un individu, BSM fournit le temps d'insémination au modèle GARUNS, décidé sur la base de la dynamique d'estrus produite par RPMlite et de la stratégie de reproduction fixée.

    Le couplage des trois modèles est ensuite abordé. Cette exemple correspond au couplage de modèles basés sur des concepts similaires (priorié vs états de compétence), avec des pas de temps différents (d vs h) et dans un contexte du couplage d'un modèle avec un modèle pré-existant. Le modèle GARUNS produit une dynamique de performances productives, en particulier le bilan énergétique et le niveau de turnover du métabolisme énergétique, qui régule RPMlite. RPMlite produit une signalisation hormonale (potentiellement lue et interprétée par BSM) et fournit les temps de conception au modèle GARUNS. Le modèle GARUNS enclenche alors un cycle de reproduction enchaînant une gestation et une lactation (ou éventuellement un avortement qui interromp le cycle), ce qui modifie la dynamique du métabolisme énergétique. Le couplage repose ainsi sur une boucle entre les modèles GARUNS et RPMlite.

    Des résultats de simulations sont enfin présentés pour illustrer la variabilité des performances de reproduction produites par le couplage GARUNS+RPMlite.

  • 7 novembre 2016 11h, salle de réunion, bâtiment 210
    Kevin Cohen
    (University of Colorado, School of Medicine, Biomedical Text Mining Group)
    Annulé

    Annulé

  • 17 octobre 2016 11h, salle de réunion, bâtiment 210
    Florence Débarre
    (Collège de France, CIRB CNRS UMR 7241)
    Evolution in spatially heterogeneous environments

    Understanding the links between the diversity of habitats and biodiversity is a core topic in Ecology, Evolution and Conservation Biology; mathematical and computational models can help provide qualitative answers to this question. During my talk, I will present some ecological (short-term) and evolutionary (long-term) consequences of spatial structuring and environmental heterogeneities. I will start with the example of resistance to treatments, and will show how spatial heterogeneities can help limit the spread of resistance. Then I will move on to a more ecological model and will present results on the evolution of specialist and generalist strategies in a spatially heterogeneous environment. 

  • 26 septembre 11h, salle de réunion, bâtiment 210
    Tabea Rebafka
    (UPMC, LPMA)
    Estimation et clustering dans un modèle de processus de Poisson semiparamétrique à blocs stochastiques pour des réseaux d’interaction longitudinaux

    In this work, we introduce a Poisson process stochastic block model for recurrent interaction events, where each individual belongs to a latent group and interactions between two individuals follow a conditional inhomogeneous Poisson process whose intensity is driven by the individuals’ latent groups. The model is semiparametric as the intensities per group pair are modeled in a nonparametric way. First an identifiability result on the weights of the latent groups and the nonparametric intensities is established. Then we propose an estimation procedure, relying on a semi parametric version of a variational expectation-maximization algorithm. Two different versions of the method are proposed, using either histogram-type (with an adaptive choice of the partition size) or kernel intensity estimators. We also propose an integrated classification likelihood criterion to select the number of latent groups. Asymptotic consistency results are then explored, both for the estimators of the cumulative intensities per group pair and for the kernel procedures that estimate the intensities per group pair. Finally, we carry out synthetic experiments and analyse several real datasets to illustrate the strengths and weaknesses of our approach.
    This is joint work with Catherine Matias et Fanny Villers.

  • 12 septembre 2016 10h, salle de réunion, bâtiment 210
    Catherine Larédo
    (INRA, MaIAGE)
    Estimation paramétrique pour des équations différentielles stochastiques à effets mixtes à partir de données longitudinales discrétisées.

    Les équations différentielles stochastiques fournissent un cadre naturel pour modéliser la variabilité intrinsèque inhérente à de nombreux processus physiques à temps continu.Quand ces processus sont observés sur plusieurs individus ou unités expérimentales, les équations différentielles stochastiques à effets mixtes (SDEME) permettent de quantifier simultanément la variabilité intrinsèque (variabilité intra) et la variabilité entre individus (variabilité inter). Ces dynamiques modélisées par des processus à temps continu sont généralement observées avec un certain pas de temps (données discrétisées). Du fait de la difficulté à étudier la vraisemblance, faire l’inférence à partir d’observations discrétisées de SDEME est un problème ouvert d’un point de vue théorique pour des modèles généraux de SDEME. Nous étudions ici des cas pour lesquels on dispose d’approximations explicites de la vraisemblance.

    Travail en collaboration avec Maud Delattre (AgroParisTech, France) et Valentine Genon-Catalot
    (UMR CNRS 8145, Laboratoire MAP5, Université Paris Descartes, Sorbonne Paris Cité, France).

  • 12 Septembre 2016 11h, salle de réunion, bâtiment 210
    Ludovic Cottret
    (INRA-CNRS, LIPM)
    Analyse de la robustesse phénotypique d'une bactérie phytopathogène par intégration du réseau métabolique et du réseau de régulation

    Dans l'analyse du réseau métabolique, la robustesse d'un phénotype est communément définie comme la capacité du métabolisme à maintenir ce phénotype malgré des perturbations génétiques ou environnementales. Plusieurs éléments peuvent être à l'origine de la robustesse phénotypique : la versatilité, i.e. la capacité du système à fonctionner à partir de différents nutriments; la redondance fonctionnelle comprenant la redondance génétique et les voies métaboliques alternatives; et enfin le contrôle du système qui intervient pour capter et compenser efficacement les perturbations.

    Nous nous sommes intéressés à l'analyse de la robustesse phénotypique chez une bactérie phytopathogène, Ralstonia solanacearum. Plus particulièrement, nous avons tenté de prédire l'influence du réseau de régulation de la virulence sur la robustesse phénotypique. Pour cela, nous avons d'abord effectué une reconstruction de haute qualité du réseau métabolique et du réseau de régulation de la virulence grâce à une suite d'outils automatiques et semi automatiques. Ensuite, nous avons développé une librairie Java, appelée FlexFlux, destinée à l'analyse de balance des flux (FBA). L'originalité de FlexFlux est d'intégrer de façon native le réseau de régulation et le réseau de métabolique dans chacune de ces fonctions. Nous verrons enfin comment nous avons utilisé FlexFlux pour mesurer la robustesse de plusieurs phénotypes (liés ou non à la virulence) et l'influence du réseau de régulation de la virulence sur celle-ci.

  • 20 juin 2016 11h, salle de réunion, bâtiment 210
    Julien Chiquet
    (AgroParisTech-INRA, UMR 518 MIA)
    Fast tree inference with weighted fusion penalties

    Given a data set with many features observed in a large number of conditions, it is desirable to fuse and aggregate conditions which are similar to ease the interpretation and extract the main characteristics of the data. This paper presents a multidimensional fusion penalty framework to address this question when the number of conditions is large. If the fusion penalty is encoded by an ℓq-norm, we prove for uniform weights that the path of solutions is a tree which is suitable for interpretability. For the ℓ1 and ℓ-norms, the path is piecewise linear and we derive a homotopy algorithm to recover exactly the whole tree structure. For weighted ℓ1-fusion penalties, we demonstrate that distance-decreasing weights lead to balanced tree structures. For a subclass of these weights that we call “exponentially adaptive”, we derive an O(n log(n)) homotopy algorithm and we prove an asymptotic oracle property. This guarantees that we recover the underlying structure of the data efficiently both from a statistical and a computational point of view. We provide a fast implementation of the homotopy algorithm for the single feature case, as well as an efficient embedded cross-validation procedure that takes advantage of the tree structure of the path of solutions. Our proposal outperforms its competing procedures on simulations both in terms of timings and prediction accuracy. As an example we consider phenotypic data: given one or several traits, we reconstruct a balanced tree structure and assess its agreement with the known taxonomy.

  • 23 mai 2016 11h, salle de réunion, bâtiment 210
    Annulé
    TBA
  • 18 avril 2016 11h, salle de réunion, bâtiment 210
    Reporté
    TBA
  • 4 avril 2016 11h, salle de réunion, bâtiment 210
    Argyris Kalogeratos
    (ENS Cachan, CMLA)
    Algorithmes efficaces pour contenir des processus épidémiques sur réseaux à l'aide de ressources d'efficacité limitée / Suppressing epidemics on arbitrary networks using treatment resources of limited efficiency

    Résumé : Dans de nombreuses situations réelles, il est essentiel de supprimer un processus de diffusion indésirable (virus, information, comportements, etc.) en temps réel. Cette exposé proposera des méthodes pour l'allocation dynamique de ressources pour des épidémies de type SIS (en temps continu) à l'aide d'un budget de ressources limité à disposition des autorités.
    Dans cet exposé, nous montrerons que la structure macroscopique et microscopique du réseau joue un rôle clé dans l'explication de ces phénomènes de propagation et deux stratégies seront présentées : a) une approche simple et focalisée sur l'évolution court-terme du processus, et b) une approche plus sophistiquée qui utilise un ordre de priorité (précalculée avant l'épidémie) spécifiant le déroulement de la stratégie de guérison.

    Abstract: In many real-life situations, it is critical to dynamically suppress or remove an undesired diffusion process (viruses, information, behaviors, etc.). The talk will present a framework for Dynamic Resource Allocation (DRA) assuming a continuous-time SIS epidemic model, and that a budget of treatment resources of limited efficiency are at the disposal of authorities.
    Special emphasis will be given on the macroscopic and microscopic (or local) properties of the network structure for the problem and two strategies will be presented that fall in this framework: a) a simple yet effective greedy approach, and b) a more sophisticated one that uses a precomputed priority plan of how the healing strategy should proceed on a specific network.

  • 21 mars 2016 11h, salle de réunion, bâtiment 210
    Avner Bar-Hen
    (Université Paris Descartes - CNRS, Laboratoire MAP5, UMR 8145)
    Détection de cluster spatiale en utilisant la distance au plus proche voisin

    Afin de caractériser l'impact des processus écologiques sur la distribution spatiale des espèces d'arbres, nous présentons une méthode pour détecter des clusters de points. Notre méthode est basée sur une transformation itérative de la distance entre les points. Notre approche a l'avantage d'être indépendante d'une forme arbitraire de cluster et permet un ajustement pour les covariables. La comparaison de la distance observée entre points avec un processus de référence conduit à une classification hiérarchique des clusters. Le choix du nombre optimal de clusters est effectuée en utilisant la statistique de Gap. Notre procédure est illustrée sur une répartition spatiale des espèces de la Dicorynia en Guyane française.

  • 7 mars 2016 11h, salle de réunion, bâtiment 210
    Marie Suez
    (UPMC, IBPS / INRA, MaIAGE)
    Diversité génétique des populations de cerfs élaphe (Cervus elaphus) en Île-de-France, en liaison avec l'anthropisation.

    Au cours des 60 dernières années le développement des infrastructures de transports (Autoroutes, Lignes Grandes Vitesse, Nationales doubles voies) a fragmenté l’habitat des cerfs élaphe (Cervus elaphus). D’après les observations naturalistes, cette anthropisation a causé la fragmentation de deux populations géographiques existantes en sept dans la partie Sud et d’une en trois dans la partie Nord.

    Afin d’évaluer l’impact de ces infrastructures sur la structuration génétique de ces populations de cerfs, nous avons échantillonné chacune de ces populations grâce à la coopération de trois fédérations de chasse. Le cours laps de temps écoulé depuis la construction de ces infrastructures nous a conduits à choisir comme marqueurs moléculaires les microsatellites, efficaces dans l’inférence d’évènements récents. Les nouvelles techniques de séquençages (NGS) permettent d’obtenir d’importants jeux de données rapidement, nous avons choisi d’utiliser ces méthodes de séquençage pour obtenir nos données. Aucun logiciel ne permettant de traiter les données de séquençage haut débit des microsatellites pour des espèces dont le génome n’est pas complètement séquencé, nous avons alors réalisé un programme, MicNeSs qui permet de génotyper rapidement et objectivement (sans intervention humaine) un grand nombre d’individus et de locus. Nous avons utilisé MicNeSs pour génotyper 345 individus pour 17 locus microsatellites. A partir de ce jeu de données, nous avons montré l’existence d’une structuration génétique des populations de cerfs élaphe en Île-de-France en liaison avec les infrastructures routières et ferroviaires. Nous avons mis en évidence un effet fort des jumelages autoroutes/LGV et une efficacité différentielle des passages grande faune de 2ème et 3ème génération sur les populations de cerfs élaphe en Île-de-France.

  • 22 février 2016 11h, salle de réunion, bâtiment 210
    Youssef Diouane
    (ISAE - SupAéro)
    Globally convergent evolution strategies with application to an Earth imaging problem in geophysics.

    In recent years, there has been significant and growing interest in Derivative-Free Optimization (DFO). This field can be divided into two categories: deterministic and stochastic. Despite addressing the same problem domain, only few interactions between the two DFO categories were established in the existing literature. In this thesis, we attempt to bridge this gap by showing how ideas from deterministic DFO can improve the efficiency and the rigorousness of one of the most successful class of stochastic algorithms, known as Evolution Strategies (ES’s). We propose to equip a class of ES’s with known techniques from deterministic DFO. The modified ES’s achieve rigorously a form of global convergence under reasonable assumptions. By global convergence, we mean convergence to first-order stationary points independently of the starting point. The modified ES’s are extended to handle general constrained optimization problems. Furthermore, we show how to significantly improve the numerical performance of ES’s by incorporating a search step at the beginning of each iteration. In this step, we build a quadratic model using the points where the objective function has been previously evaluated. Motivated by the recent growth of high performance computing resources and the parallel nature of ES’s, an application of our modified ES’s to Earth imaging geophysics problem is proposed. The obtained results provide a great improvement to known solutions of this problem.

  • 18 février 2016 (attention, jour et heure exceptionnels) 11h30, salle de réunion, bâtiment 210
    Stefanie Widder
    (Division of Computational Systems Biology, Univ. of Vienna)
    (Self)-Organization of the human microbiota in health and disease

    Central to understanding the behavior of microbial communities (MC) are microbial interactions and their organization. In my talk I will give two examples where community-wide interactions lead to complex behavior of the MC. Pathogenic microbiota cause chronic infections in the airways of cystic fibrosis patients. We show that organization into two competing communities and shifts in their interactions, as well as in their metabolic core processes are associated to a shift in the severity of the disease. Using network analysis and the keystone concept, we propose functional and taxonomic keystones as targets for novel drug development. The human gut microbiome is characterized by seemingly opposing trends: stability of a (functional) core community and pronounced variability throughout lifetime and between subjects. We explore self-organization as potential mechanism underlying these evidences. We use a modeling approach to analyze the time behavior of gut microbiota and find that the community stratifies into three sub-groups linked to lifetime and abundance. In time the gut community exhibits pink noise and scale-invariance, hallmarks for self-organization.

  • 8 février 2016 11h, salle de réunion, bâtiment 210
    Nicolas BOUSQUET
    (EDF, R&D)
    Estimer des indicateurs de risque par simulation de modèles complexes "boîte noire" en tirant parti de contraintes de forme (monotonie, convexité...), avec applications en aide à la décision

    Les modèles boîte noire sont de plus nombreux dans les études d'impact et de gestion des ressources (industrielles, environnementales, etc.). Souvent déterministes, ils sont utilisés pour mener des simulations à partir d'entrées rendues stochastiques, car considérées incertaines par essence ou mal connues. Des indicateurs classiques d'aide à la décision en sortie des modèles sont des probabilités de dépassement, ou des quantiles. Ne pouvant entrer dans le modèle par des méthodes intrusives, de nombreuses techniques d'estimation par réduction de variance (par rapport à des approches de Monte Carlo classiques) de ces indicateurs sont maintenant disponibles. Cependant, elles nécessitent souvent des hypothèses de régularité qui ne peuvent être vérifiées (et sont fausses lorsque le phénomène modélisé subit des effets falaises de perte de continuité), et ont un coût de simulation potentiellement très élevé, qui interdit de les utiliser dans de nombreux cas concrets. C'est pourquoi des méthodes ont été très récemment développées pour pallier ces difficultés en tirant parti des contraintes (ou propriétés) de forme s'exerçant sur les sorties de tels modèles. Un cas important est celui de la monotonie. La convexité est aussi évoquée. L'exposé présentera la construction de telles méthodes, détaillera les outils théoriques nécessaires pour étudier le bien-fondé de l'estimation, et montrera des résultats théoriques et appliqués sur des cas industriels.

     

  • 25 janvier 2016 11h, salle de réunion, bâtiment 210
    Sophie DONNET
    (AgroParisTech-INRA, UMR 518 MIA)
    Bayesian estimation for multidimensional Hawkes processes

    Multidimensional Hawkes processes are used to modelise multivariate neuron spike data. The estimation of intensity functions allows to understand the neuronal interaction structure. In a non-parametric frequentist framework, LASSO estimators have been proposed in the literature. In this work, we propose a Bayesian non-parametric estimation. We sample the posterior distribution through a Sequential Monte Carlo algorithm, well adapted to point processes.

  • 11 janvier 2016 11h, salle de réunion, bâtiment 210
    Jean-Benoist LEGER
    (INRA, MaIAGE)
    Modèle de graphes à espace latent continu de type SBM

    De nombreuses données entre des éléments peuvent être présentés sous
    forme de réseaux. Ces données peuvent être binaires, comme une
    présence/absence de relation, quantifiées, continues, où être valuées
    sur d'autres espaces. Pour construire un modèle probabiliste adapté à
    ces données des hypothèses sont nécessaires. Des hypothèses
    d'appartenance des nœuds à des classes latentes et une indépendance de
    la loi sur les lien conditionnellement à la loi sur les nœuds conduit à
    des modèles de type SBM (Stochastic Block Models). Il est possible de
    relacher la contrainte sur l'espace latent à valeurs discrètes pour se
    placer dans un espace latent à valeurs continues, ce qui conduit à des
    modèles de type MMSBM. (Mixed Membership SBM).

    Il est également possible de disposer d'information extérieures pouvant
    être introduites sous forme de covariables.

    Cette présentation introduira les modèles de graphes à classes latentes
    de type SBM, avec ou sans covariables pour diverses lois de
    probabilités sur les liens. Elle présentera l'extension à la classe
    latente continue, et introduira une méthode d'estimation basée sur le
    Variational-EM.

2015

  • 15 décembre 2015 11h, salle de réunion, bâtiment 210
    Edward IONIDES
    (University of Michigan, Department of Statistics )
    Inference for dynamic and latent variable models via iterated, perturbed Bayes maps

    Iterated filtering algorithms are stochastic optimization procedures for latent variable models that recursively combine parameter perturbations with latent variable reconstruction. Previously, theoretical support for these algorithms has been based on the use of conditional moments of perturbed parameters to approximate derivatives of the log likelihood function. We introduce a new theoretical approach based on the convergence of an iterated Bayes map. A new algorithm supported by this theory displays substantial numerical improvement on the computational challenge of inferring parameters of a partially observed Markov process.

  • 30 novembre 11h, salle de réunion, bâtiment 210
    Pierre Larmande
    (IRD, South Green, Montpellier)
    Enabling knowledge management in the Agronomic Domain

    The drastic growth in data in the recent years, within the Agronomic sciences has brought the concept of knowledge management to the forefront. Some of the factors that contribute to this change include a) conducting high-throughput experiments have become affordable, the time spent in generating data through these experiments are minuscule when compared to its integration and analysis; b) publishing data over the web is fairly trivial and c) multiple databases exist for each type of data (i.e. ‘omics’ data) with a possible overlap or slight variation in its coverage [1, 2]. In most cases these sources remain autonomous and disconnected. Hence, efficiently managed data and the underlying knowledge in principle will make data analysis straightforward aiding in more efficient decision making. We are involved in developing methods to aid data integration and knowledge management within the domain of Agronomic sciences to improve information accessibility and interoperability. To this end, we address the challenge by pursuing several complementary research directions towards: distributed, heterogeneous data integration.

    References:
    Goble, C. and Stevens, R. (2008) State of the nation in data integration for bioinformatics. Journal of Biomedical Informatics, 41(5), 687-693.
    Antezana, E., et al. (2009) Biological knowledge management: the emerging role of the Semantic Web technologies.Brief. in Bioinformatics,10(4), 392-407.

  • 16 novembre 11h, salle de réunion, bâtiment 210
    Fabrice Rossi
    (équipe SAMM, Université Paris 1 Panthéon-Sorbonne)
    Analyse exploratoire de graphes dynamiques

    Nous étudions dans ce travail des données d'interaction, constituées de triplets source, destination, instant. Ce type de données est assez fréquent dans les relations intermediées informatiquement, comme par exemple les emails (expéditeur, récepteur, horodatage de la connexion au serveur STMP), les appels téléphoniques, les SMS, etc. On peut les voir comme un graphe dynamique : les sources et destinations forment les sommets du graphe, alors que les arcs sont les ntraces des interactions. Une fonction de présence indique si un arc est actif à un instant donné.

    Nous proposons une méthode d'analyse exploratoire de ce type de données par tri-classification : nous construisons des classes de sources, des classes de destinations et des intervalles de temps qui garantissent une forme de stationnarité locale des interactions à l'intersection de trois classes. La méthode proposée ne demande aucun paramètre utilisateur et donne des résultats très satisfaisants sur des données réelles volumineuses.

  • 2 novembre 2015 11h, salle de réunion, bâtiment 210
    Isabelle Bloch
    (UMR 5141 LTCI, Telecom ParisTech - CNRS)
    Modèles symboliques pour la reconnaissance de structures dans les images et l'interprétation de scènes

    Nous présenterons l'intérêt de la modélisation de connaissances pour guider l'inteprétation d'images, en insistant sur les connaissances structurelles telles que des relations spatiales.
    Ces connaissances peuvent être modélisées sous forme d'ontologies, de graphes, ou encore de réseaux de contraintes, associés à des représentations floues de relations spatiales.
    Nous illustrerons quelques méthodes de reconnaissance d'objets et de scènes, guidées par ces modèles, en particulier en imagerie cérébrale.

  • 5 octobre 11h, salle de réunion, bâtiment 210
    Christopher Quince
    (Warwick Medical School, University of Warwick)
    Probabilistic Modelling of Microbial Community Structure

    I will give an overview of methods that use generative probabilistic models to describe microbial community structure as determined through next generation sequencing. I will discuss the concept that the human gut microbiota is derived from a finite number of discrete types or enterotypes. I will show that Dirichlet-multinomial mixtures allow a more nuanced description of enterotypes as diffuse peaks in community configurations. I will then extend the idea of Dirichlet priors for community configurations to hierarchical Dirichlet processes which allow ‘unseen’ species to be modelled. I will use these both as a means for fitting the ecological model, Hubbell’s Unified Neutral Theory of Biodiversity, and for avoiding rarefaction in microbial community diversity estimation.

  • 2 octobre (attention jour et heure exceptionnels) 10h45, salle de réunion, bâtiment 210
    Philipp W. Messer
    (Department of Biological Statistics and Computational Biology, Cornell University)
    Understanding the rapid evolution of pesticide and drug resistance

    We typically think of evolution as a slow and gradual process, driven by the accumulation of small changes over millions of years. While it is well known that evolution can be much faster when humans impose artificial selection, for instance during animal breeding, such rapid evolutionary responses are generally thought to rely on the availability of standing genetic variation. However, recent studies of the evolution of pesticide and drug resistance revealed that adaptation can be rapid despite requiring complex alleles that are not initially present in a population. Furthermore, it appears that rapid adaptation does not always follow the classic selective sweep model, but often produces so-called soft selective sweeps, where multiple adaptive alleles of independent mutational origin sweep through the population at the same time. In my talk, I will show how the emerging field of population genomics can help us uncover the mechanisms that underlie these rapid evolutionary responses and explain the frequent occurrence of soft selective sweeps. I will also discuss the challenges this poses for computational approaches aimed at identifying adaptive loci, as well as for our theoretical understanding of adaptive dynamics, and present new strategies for tackling these problems.

  • 21 septembre 11h, salle de réunion, bâtiment 210
    Jean-Michel Marin
    (UMR CNRS 5149, Institut de Mathématiques et Modélisation, Université de Montpellier)
    Méthodes d’inférence de l’histoire démographique de populations structurées à partir de données de polymorphisme génétique

    Un des principaux développements de la modélisation en génétique des populations est l’utilisation des méthodes dites coalescentes ou généalogiques. Le but est de reconstruire des éléments de l'histoire de populations. Pour examiner la structure des données génétiques, ces méthodes utilisent l'arbre généalogique des gènes. La formulation d’un modèle est contrainte par un scénario évolutif qui imite la réalité historique et démographique de l'espèce. Un tel scénario résume l’histoire évolutive des populations par une suite d'événements démographiques depuis une population ancestrale. Ces événements sont constitués de divergences, des migrations et des variations de tailles entre les populations. Les jeux de données que l’on considère sont constitués d'informations génétiques issues de plusieurs locus. Les modèles que nous étudions sont sous l'hypothèse de neutralité qui implique l'absence d'effet de sélection. Avec ces modèles, nous pouvons inférer de quelle sources ancestrale provient une population récente, décrire des voies d’invasion de populations... Il faut alors utiliser une procédure de choix de modèle, chaque hypothèse correspond à un scénario démographique. La plupart du temps, on ne sait pas calculer la vraisemblance de données de polymorphisme. Dans cet exposé, nous présenterons les défis statistiques véhiculés par ces modèles sans vraisemblance explicite. Puis, nous montrerons comment certaines méthodes bayésiennes approchées permettent d’y répondre.

  • 7 septembre 2015 11h, salle de réunion, bâtiment 210
    Wolfram Liebermeister
    (Institut für Biochemie, Charité - Universitätsmedizin Berlin)
    Enzyme economy in metabolic networks

    It often assumed - sometimes tacitly - that cells use their enzyme resources economically. This hypothesis can be studied by analysing enzyme requirements in kinetic models. I discuss models in which enzyme levels must realize a given flux distribution. The search for cost-optimal enzyme and metabolite levels can be formulated as a convex optimization problem. The enzyme profiles are shaped by opposing tendencies: a need for sufficient saturation with substrate, and an avoidance of small thermodynamic forces. The resulting prediction of metabolite and enzyme levels can complement constraint-based approaches for flux prediction, such as Resource Balance Analysis.

  • 29 juin 2015 11h, salle de réunion, bâtiment 210
    Bertrand Cloez
    (INRA-SupAgro, UMR 729 MISTEA, Montpellier)
    Comportement en temps long de processus avec extinction

    Dans cet exposé, nous nous intéresserons à un processus de Markov possédant un état absorbant comme par exemple le nombre d'individus ou la proportion de gènes dans une population. L'équilibre d'un tel processus est l'état absorbant (0 pour le nombre d'individu, 0 ou 100% pour la proportion de gènes). Il arrive, sous certaines conditions, que ce processus atteigne une sorte d'équilibre avant l'extinction. On parle d'équilibre quasi-stationnaire. Nous décrirons quelques propriétés de celle-ci et donnerons deux algorithmes pour la déterminer. Le premier est une méthode particulaire proche des algorithmes génétiques utilisés en filtrage non-linéaire. Le second est une marche aléatoire renforcée dont l'étude est basée sur les algorithmes stochastiques et la méthode de l'EDO.

  • 15 juin 2015 11h, salle de réunion, bâtiment 210
    Evelyne Lutton
    (INRA - GMPA)
    Modéliser, visualiser, optimiser.
    Pour mieux comprendre et maîtriser les procédés agro-alimentaires, les modèles numériques deviennent un support de plus en plus utile. Cependant, la construction de ces modèle reste encore une étape ardue pour de nombreuses raisons, principalement à cause de la diversité des mécanismes en jeu (physiques, chimiques, biologiques), des relations non linéaires entre variables, du couplages inter-échelles des phénomènes, de la diversité des connaissances expertes ou empiriques, de l'incertitude des mesures et des connaissances, ainsi que du coût et de la rareté des données expérimentales. Dans un contexte aussi complexe, il devient nécessaire d'avoir recours à des méthodes algorithmiques robustes, et en particulier à des heuristiques d'optimisation stochastique, car les méthodes classiques trouvent leurs limites. 
    Cet exposé est focalisé sur une approche développée dans l'équipe Malices de l'UMR GMPA en collaboration avec l'équipe AVIZ de l'INRIA, pour comprendre, organiser et structurer des données multi-dimensionnelles. L'exploration visuelle interactive, en formalisant l'exploration comme une tâche d'optimisation interactive prise en charge par un algorithme évolutionnaire, permet de proposer à des experts différents points de vues sur leurs jeux de données. Cette approche est utile à la fois au sein des premières étapes de modélisation pour structurer les données brutes, mais aussi pour l'analyse du comportement de modèles. 
     
  • 1er juin 2015 11h, salle de réunion, bâtiment 210
    Marion Leclerc
    (INRA Micalis, Equipe PhylHom)
    Annulé

     

     

  • 18 mai 2015 11h, salle de réunion, bâtiment 210
    Khashayar Pakdaman
    (U. Paris Diderot - CNRS, UMR 7592 Institut Jacques Monod, Biologie computationnelle et biomathématiques)
    Noise variability and synchronization
    Motivated by experiemental studies on the influence of noise on neuronal behavior, this presentation will review our work on the impact of stochastic variability on neuronal dynamics and synchronization of neuronal assemblies.
    
    

     

  • 13 avril 2015 11h, salle de réunion, bâtiment 210
    Claire Rogel-Gaillard
    (INRA-AgroParisTech, UMR 1313 Génétique Animale et Biologie Intégrative)
    Sciences Animales Paris Saclay : pour qui, pourquoi, pour quoi faire?

     

     

  • 30 mars 2015 11h, salle de réunion, bâtiment 210
    Guillaume Achaz
    (UPMC-CNRS UMR7138, IBPS ABI et Collège de France SMILE)
    The strange case of the Standard Neutral Model of molecular evolution: when, what and why
    We will investigate the model that is commonly assumed throughout population genetics and more generally molecular evolution, the so-called Standard Neutral Model. I will start by describing some of its motivations, its underlying assumptions, its forward and backward perspectives, its usage and more importantly its limit. I will then illustrate the different points by biological examples and will argue that the use of a unique reference model may obscure our ability to apprehend correctly the evolution of life.
    

     

  • 16 mars 2015 11h, salle de réunion, bâtiment 210
    Pierre Rivière (1) et Olivier David (2)
    (Réseau Semences Paysannes (1) et INRA UR1404 MaIAGE (2))
    Dispositifs expérimentaux pour la sélection décentralisée et participative sur le blé tendre

    Dans notre programme de sélection participative sur lé blé tendre, la sélection est décentralisée dans les environnements cibles and repose sur une collaboration étroite entre paysans, associations et équipes de recherche. Dans notre projet, chaque paysan conduit ses propres essais dans sa ferme et choisit les variétés qu'il souhaite semer. Cela génère des dispositifs expérimentaux très déséquilibrés avec peu de degrés de liberté à la résiduelle dans chaque ferme et environ 95% de combinaisons variété x environnement manquante dans le réseau d'essais. Afin d'analyser ces données, nous avons développé deux modèles hiérarchiques bayésiens afin de (1) réaliser des comparaisons de moyennes dans chaque ferme et (2) étudier les interactions variétés x environnements dans le réseau d'essais. Les deux modèles apportent des résultats satisfaisants tant que le nombre de fermes est important dans le réseau et que chaque ferme a au moins une variété témoin répétée.

  • 2 mars 2015 11h, salle de réunion, bâtiment 210
    Viet Chi Tran
    (CNRS - Université Lille 1, UMR 8524 Laboratoire Paul Painlevé)
    Un modèle de propagation d'épidémie sur un graphe de configuration

    On considère un modèle SIR, pour une maladie se propageant dans une population caractérisée par une stucture sociale décrite par un graphe de configuration (Bollobas et Molloy-Reed). L'évolution de l'épidémie peut-être résumée par 3 équations à valeurs mesures, d'où l'on retrouve la description en 5 EDO proposée par Volz (2008). Nous expliquerons ensuite comment estimer les paramètres par ABC et comment faire une analyse de sensibilité.

  • 16 février 2015 11h, salle de réunion, bâtiment 210
    Sarah Lemler
    (UEVE - CNRS, UMR 8071 LAMME)
    Estimation pour les processus de comptage avec beaucoup de covariables

    Nous cherchons à estimer l’intensité de sauts d’un processus de comptage en présence d’un grand nombre de covariables. Nous proposons deux approches. D’abord, nous considérons une intensité
    non-paramétrique et nous l’estimons par le meilleur modèle de Cox étant donné deux dictionnaires de fonctions. Le premier dictionnaire est utilisé pour construire une approximation du logarithme
    du risque de base et le second pour approximer le risque relatif. Nous considérons une procédure Lasso, spécifique à la grande dimension, pour estimer simultanément les deux paramètres incon-
    nus du meilleur modèle de Cox approximant l’intensité. Nous prouvons des inégalités oracles non- asymptotiques pour l’estimateur Lasso obtenu.
    Dans une seconde partie, nous supposons que l’intensité satisfait un modèle de Cox. Nous proposons deux procédures en deux étapes pour estimer les paramètres inconnus du modèle de Cox. La première étape est commune aux deux procédures, il s’agit d’estimer le paramètre de régression en grande dimension via une procédure Lasso. Le risque de base est ensuite estimé soit par sélection de modèles, soit par un estimateur à noyau avec une fenêtre choisie par la méthode de Goldenshluger et Lepski. Nous établissons des inégalités oracles non-asymptotiques pour les deux estimateurs du risque de base ainsi obtenus. Nous menons une étude comparative de ces estimateurs sur des données simulées, et enfin, nous appliquons les procédures implémentées à une base de données sur le cancer du sein.

  • 2 février 2015 11h, salle de réunion, bâtiment 210
    Charlotte Baey
    (Ecole Centrale Paris, laboratoire MAS)
    Modélisation de la variabilité inter-individuelle dans les modèles de croissance de plantes

    Il existe une forte variabilité génétique entre plantes, même au sein de la même variété, ce qui, combinée à la variation locale des conditions climatiques dans le champ, peut conduire deux plantes voisines à se développer de façon très différente. C’est l’une des raisons pour lesquelles les approches populationnelles dans les modèles de croissance de plantes suscitent un grand intérêt. Nous proposons dans cette étude une extension du modèle individu-centré Greenlab à l’échelle de la population dans le cas du colza, à l’aide d’un modèle non linéaire mixte. Deux variants stochastiques de l’algorithme EM (Espérance-Maximisation), le Monte-Carlo EM automatique (MCEM) et le SAEM seront comparés, en utilisant le fait que le modèle complet appartient à la famille exponentielle.

  • 19 janvier 2015 11h, salle de réunion, bâtiment 210
    Bogdan Mirauta
    (Biologie Computationnelle et Quantitative, UMR 7238 CNRS-UPMC; MaIAGE INRA)
    Transcriptome Analysis from High-Throughput Sequencing Count Data

    The most common RNA-Seq strategy consists of random shearing, amplification, and high-throughput sequencing, of the RNA fraction. Methods to analyze transcription level variations along the genome from the read count profiles generated by the is global RNA-Seq protocol are needed. We developed statistical approaches to estimate the local transcription levels and to identify transcript borders. The transcriptional landscape reconstruction relies on a state-space model to describe transcription level variations in terms of abrupt shifts and more progressive drifts. A new emission model is introduced to capture not only the read count variance inside a transcript but also its short-range autocorrelation and the fraction of positions with zero-counts. The estimation relies on a Sequential Monte Carlo algorithm, the Particle Gibbs.

  • 6 janvier 2015 (attention, mardi) 11h, salle de réunion, bâtiment 210
    Rosemary Bailey
    (Queen Mary University of London, School of Mathematical Sciences)
    Designs for variety trials with very low replication

    In the early stages of testing new varieties, it is common that there are only small quantities of seed of many new varieties.
    In the UK (and some other countries with centuries of agriculture on the same land) variation within a field can be well represented by a division into blocks.
    Even when that is not the case, subsequent phases (such as testing for milling quality, or evaluation in a laboratory) have natural blocks, such as days or runs of a machine.
    I will discuss how to arrange the varieties in a block design when the average replication is less than two.

     

2014

  • Lundi 24 novembre 2014 11h, salle de réunion, bâtiment 210
    Maud Delattre
    (AgroParisTech-INRA, UMR 518 MIA)
    ►Titre et résumé à venir
  • Lundi 13 octobre 2014 11h, salle de réunion, bâtiment 210
    Simon Labarthe
    (INRA, MiaJ)
    ► Equations de réaction diffusion en modélisation cardiaque et en dynamique de population.

    Après une brève présentation de modèles de dynamique de populations soumises au réchauffement climatique, j'aborderai de manière plus approfondie des questions de modélisation en cardiologie. J'illustrerai les méthodes et les interactions avec biologistes et cliniciens que j'ai pu mettre en œuvre précédemment pour la modélisation des oreillettes et des veines pulmonaires. Les tissus auriculaires sont très fins : les modèles auriculaires surfaciques usuels tirent avantage de cette caractéristique.
    Cependant, des études cliniques ont montré que des événements électriques ont lieu dans l'épaisseur du tissu lors d'activité pathologique, ce que ne peuvent prendre en compte les modèles surfaciques. Je présenterai un modèle bisurfacique, de sa dérivation théorique par analyse asymptotique à son implémentation et à son utilisation pratique pour aborder des problématiques cliniques. Ces aspects applicatifs serviront à illustrer des aspects méthodologiques, plus susceptibles d'entrer en résonance avec les problématiques de recherche de l'unité.

  • Lundi 29 septembre 2014 11h, salle de réunion, bâtiment 210
    Véronique Cariou
    (ONIRIS, Nantes)
    ► Traitement de données métabolomiques dans un contexte 3-voies. Présentation de différentes approches en exploratoire versus en discrimination

    Dans le contexte de la chimiométrie, l’analyse des données métabolomiques constitue un champ d’application en plein essor. La métabolomique génère en effet de grands volumes de données pour lesquelles les techniques statistiques doivent être adaptées (volumétrie, multi-colinéarité, nombre d’individus très inférieur au nombre de variables, …). Dans cet exposé, nous nous intéresserons à une structure particulière de données métabolomiques : celle des données trois voies. Ce type de données peut être directement issu des technologies employées (par exemple en chromatographie couplée à la spectrométrie de masse). La prise en compte d’une dimension temporelle (des prélèvements successifs pour un même individu) engendre également des données trois-voies, appelées aussi ternaires, tensorielles ou encore à trois entrées. Nous présenterons tout d’abord ce type de données ainsi que les structures associées.
    En combinant une synthèse de travaux méthodologiques et des applications sur des jeux de données métabolomiques, nous développerons ensuite différentes méthodes de traitement des données trois-voies. Nous nous placerons d’abord dans un contexte non supervisé en montrant comment ces techniques généralisent l’analyse en composantes principales au cas des données trois-voies. Nous présenterons principalement deux modèles : Parafac et Tucker en détaillant à la fois les critères et les algorithmes. Dans un second temps, nous nous intéresserons au cadre de la discrimination. Cette problématique est relativement récente dans le cas de données trois voies. Parmi les travaux, nous détaillerons la NPLS proposée par R. Bro. Certaines limites de la NPLS dans le contexte des données métabolomiques seront dégagées. Nous proposerons finalement une alternative relativement simple à la NPLS, cette alternative reposant sur une approche exploratoire.

  • Vendredi 19 septembre 2014 amphithéâtre Jacques Poly, bâtiment 440
    Plusieurs intervenants
    ► "Bucoliques, les Mathématiques ?"

    Séminaire autour de l'apport des mathématiques en Agriculture, Alimentation et Environnement, à l'occasion du départ en retraite de Jean-Baptiste Denis.
    Pour plus de détail voir la page dédiée



Main menu 2

by Dr. Radut