Les mathématiques comparent des phénomènes
les plus diversifiés et découvrent les analogies
secrètes qui les unissent.
    J.B.J. Fourier

Accueil du site > Recherche > Séminaires de Statistique >

Séminaire de Statistique

Les exposés ont lieu au CNAM à partir de 11h


Année universitaire 2018/2019

  • Vendredi 26 Octobre 2018 Variable selection for model-based clustering par Matthieu Marbac-Lourdelle (Ensai)

pdf de la présentation

Résumé : We present two approaches for selecting variables in latent class analysis. The first approach consists in optimizing the BIC with a modified version of the EM algorithm. This approach simultaneously performs both model selection and parameter inference. The second approach consists in maximizing the MICL, which considers the clustering task, with an algorithm of alternate optimization. This approach performs model selection without requiring the maximum likelihood estimates for model comparison, then parameter inference is done for the unique selected model. Thus, both approaches avoid the computation of the maximum likelihood estimates for each model comparison. Moreover, they also avoid the use of the standard algorithms for variable selection which are often suboptimal (e.g. stepwise method) and computationally expensive. The case of data with missing values is also discussed. The interest of both proposed criteria is shown on an application in human population genomics problem. Data set describes 1300 patients by 160000 variables.

  • Vendredi 7 Décembre 2018 spatial functional linear model par Tingting Huang (Beihang University)

Résumé : The well known functional linear regression model (FLM) has been developed under the assumption that the observations are independent. However, the independence assumption may be often violated in practice, especially when we collect data with network structure coming from various fields such as marketing, sociology or spatial economics. We present a new spatial functional linear model (SFLM), incorporating a spatial autoregressive parameter and a spatial weight matrix in FLM to accommodate spatial dependence among individuals. The proposed model is flexible as it takes advantages of FLM in dealing with high dimensional covariates, and of spatial autoregres- sive model (SAR model) in capturing network dependence. An estimation method based on functional principal components analysis (FPCA) and maximum likelihood estimation is also developed. The simulation studies show that our method performs as well as FPCA-based method for FLM when there is no network structure and outperforms the latter when there exists a network structure. A real dataset of weather data is also employed to demonstrate the utility of SFLM. 

  • Vendredi 11 Janvier 2019 Pierre-Yves Louis (Université de Poitiers)

Résumé à venir

  • Vendredi 1 Février 2019 Théorie des valeurs extrêmes et estimation de mesures de risque par Jonathan El Methni (Université de Paris V)

Résumé : In this presentation, we build simple extreme analogues of Wang distortion risk measures and we show how this makes it possible to consider many standard measures of extreme risk, including the usual extreme Value-at-Risk or Tail-Value-at-Risk, as well as the recently introduced extreme Conditional Tail Moment, in a unified framework. We then introduce adapted estimators when the random variable of interest has a heavy-tailed distribution and we prove their asymptotic normality. The finite sample performance of our estimators is assessed in a simulation study and we showcase our techniques on a real dataset.

  • Vendredi 1 Mars 2019 Emmanuel Curis (Université Paris-Diderot)

Résumé à venir

  • Vendredi 5 Avril 2018 Allou Same (IFSSTAR)

Résumé à venir

  • Vendredi 3 Mai 2018 Anne-Françoise Yao (Université Clermont Auvergne)

Résumé à venir

Année universitaire 2017/2018

  • Vendredi 29 septembre 2017 Vincent Audigier (Cnam, équipe MSDMA)

Contributions à la gestion des données manquantes par imputation multiple

pdf de la présentation

Résumé : Les données manquantes sont fréquentes dans la pratique statistique. Elles sont problématiques car la plupart des méthodes ne peuvent pas être appliquées sur un jeu de données incomplet. Une solution classique pour gérer les données manquantes consiste à recourir à l’imputation multiple. On distingue généralement deux grandes familles de méthodes d’imputation multiple : les méthodes par modèle joint, reposant sur l’hypothèse d’une distribution multivariée, commune à l’ensemble des variables, et les méthodes par imputation séquentielle, qui consistent à spécifier une distribution conditionnelle pour chaque variable du jeu de données.

Dans un premier temps, nous expliquerons comment les méthodes d’analyse factorielle peuvent être utilisées pour proposer des méthodes d’imputation innovantes par modèle joint. En particulier, nous présenterons une méthode d’imputation multiple dédiée aux données qualitatives, basée sur l’analyse des correspondances multiples (ACM). La variabilité de prédiction des données manquantes y est reflétée via un bootstrap non-paramétrique. L’imputation multiple par ACM offre une réponse au problème de l’explosion combinatoire limitant les méthodes concurrentes dès lors que le nombre de variables ou de modalités est élevé.

Dans un second temps, nous nous intéresserons à l’imputation des données manquantes pour des données provenant de différentes études. Ce type de données est très spécifique dans la mesure où d’une part les données sont structurées sur deux niveaux (l’individu au premier, l’étude au second) ce qui nécessite des modèles d’imputation adaptés ; d’autre part, d’une étude à l’autre les variables collectées ne sont pas nécessairement les mêmes, ce qui conduit à des données manquantes très particulières appelées ``données systématiquement manquantes’’. Nous présenterons notamment de nouvelles méthodes d’imputation multiple séquentielles dédiées à ce type de données et comparerons leurs propriétés d’un point de vue théorique et via une étude par simulation.

  • Vendredi 27 octobre 2017 Robin Genuer (Univ. Bordeaux)

Random Forests for Big Data

pdf de la présentation

Big Data is one of the major challenges of statistical science and has numerous consequences from algorithmic and theoretical viewpoints. Big Data always involve massive data, but they also often include online data and data heterogeneity. Recently some statistical methods have been adapted to process Big Data, like linear regression models, clustering methods and bootstrapping schemes. Based on decision trees combined with aggregation and bootstrap ideas, random forests were introduced in 2001. They are a powerful nonparametric statistical method allowing to consider in a single and versatile framework regression problems, as well as two-class and multi-class classification problems. Focusing on classification problems, available proposals that deal with scaling random forests to Big Data problems are selectively reviewed. These proposals rely on parallel environments or on online adaptations of random forests. We also describe how the out-of-bag error is addressed in these methods. Then, we formulate various remarks for random forests in the Big Data context. Finally, we experiment five variants on two massive datasets, a simulated one as well as a real-world dataset. These numerical experiments lead to highlight the relative performance of the different variants, as well as some of their limitations.

  • Vendredi 24 Novembre 2017 François-Xavier Jollois (Paris Descartes)

Co-clustering de données fonctionnelles

pdf de la présentation

Suite au développement récent des compteurs intelligents, les opérateurs d’électricité sont aujourd’hui en mesure de collecter des données sur la consommation électrique de manière large et fréquente. C’est notamment le cas en France où EDF pourra bientôt enregistrer à distance la consommation de ses 27 millions de clients toutes les 30 minutes. Nous proposons dans ce travail une nouvelle méthodologie de co-clustering, basée sur le modèle de bloc latent fonctionnel (funLBM), qui permet de construire des "résumés" de ces données de grande consommation par co-clustering. Le modèle funLBM étend le modèle de bloc latent habituel au cas fonctionnel en supposant que les courbes d’un bloc vivent dans un sous-espace fonctionnel de faible dimension. Ainsi, funLBM est capable de modéliser et de regrouper un grand ensemble de données avec des courbes à haute fréquence. Un algorithme SEM-Gibbs est proposé pour l’inférence de modèle. Un critère ICL est également dérivé pour résoudre le problème du choix du nombre de groupes de lignes et de colonnes. Des expériences numériques sur des données Linky simulées et originales montrent l’utilité de la méthodologie proposée.

  • Vendredi 22 Décembre 2017 Kaniav Kamary (Cnam, équipe MSDMA)

Bayesian model selection for computer code validation via mixture estimation model

pdf de la présentation

When numerical codes are used for modeling the complex physical systems, the unknown computer model parameters are tuned by calibration techniques. A discrepancy function is added to the computer code in order to capture model discrepancy that is eventually caused due to other inaccuracies of the computer model than the calibration parameters. While both model parameter and discrepancy are sources of model uncertainty, distinguishing the effects of the two sources can be challenging. By using a Bayesian testing procedure based on intrinsic Bayes factor, (Damblin et al., 2016) highlighted a confounding effect between the code discrepancy and a linear computer code.We illustrate this identifiability problem with several examples by applying another Bayesian model selection technique via mixture estimation model, developed by Kamary et al. (2014).

  • Vendredi 19 Janvier 2018 Marie Milliet de Faverges (CNAM, équipe OC, SNCF)

Modélisation des retards de trains pour la robustesse des opérations en gare

pdf de la présentation

Les gares sont des points critiques du réseau : une importante partie du retard y est créée, ce qui perturbe fortement la faisabilité des planifications. Le routage des trains en gare est en particulier une tâche complexe en raison du nombre de trains en circulation et des différentes contraintes de sécurité et de ressources. Des retards, même minimes, peuvent compromettre le routage, ce qui peut nécessiter de rerouter ou de retarder des trains pour retourner en situation nominale. Produire des planifications robustes, c’est-à-dire permettant d’absorber les petites perturbations, est un enjeu important. Nous proposons ici une modélisation des retards des trains arrivant en gare afin de fournir des solutions robustes anticipant les retards prévisibles. Les retards de trains sont classiquement modélisés par des lois de la famille exponentielle, en particulier la loi de Weibull, ce qui est conforme à nos observations. Nous utilisons ici des modèles linéaires généralisés, qui nous permettent d’estimer pour chaque train les paramètres de la loi Weibull et donc de connaître sa probabilité de retard. Nous présenterons les résultats actuels, discuterons des avantages et inconvénients de ce modèle et étudierons les différentes pistes pour l’intégration à des modèles de recherche opérationnelle ferroviaire.

  • Vendredi 16 Février 2018 Stanley Lemeshow (Ohio State University)

Assessing Calibration of Logistic Regression Models : Beyond the Hosmer-Lemeshow Goodness-of-Fit Test

pdf de la présentation

The Hosmer-Lemeshow Goodness of Fit Test has become the standard method for assessing calibration for binary logistic regression models. However, this method breaks down when models are developed from extremely large data sets. In this talk I will discuss options for assessing model performance in these situations including modifying the number of groups used and a new method called “Calibration Belts”.

  • Vendredi 16 Mars 2018 Arthur Tenenhaus (CentraleSupelec)

Regularized Generalized Canonical Correlation Analysis as general framework for Structured data analysis

pdf de la présentation

The challenges related to the use of massive amounts of data include identifying the relevant variables, reducing dimensionality, summarizing information in a comprehensible way and displaying it for interpretation purposes. Often, these data are intrinsically structured in blocks of variables, in groups of individuals or in tensor. Classical statistical tools cannot be applied without altering their structure leading to the risk of information loss. The need to analyze the data by taking into account their natural structure appears to be essential but requires the development of new statistical techniques. In that context a general framework for structured data analysis based on Regularized Generalized Canonical Correlation Analysis (RGCCA) will be presented.

  • Vendredi 30 Mars 2018 Taerim Lee (Korea National Open University)

Mobile e-Book for BITEC Learner & K-12 Data Analysis In the Big Data era

pdf de la présentation

This project promotes the implementation of mobile e-Book initiative in Bioinformatics Training & Education Center (BITEC) supported from Korean Ministry of Health and Welfare and for training K-12 data analysis in the big data era. Each were 5 years projects co-work together Seoul National University Medical College and this is the last year of this project and we build up KNOU OER LMS system for nationwide medical doctors and data scientist too. The leaders of this mobile e-Book initiative for Life Long Learning are KNOU, only one National Open University in Korea, SNU Medical College renowned university in Korea & KSS. Despite that mobile delivery of courses in higher education graduate level is yet rare, KNOU with the 45 years of long distance education experience and know-hows has expanded the scope of mobile learning for training medical doctors with e-Book and multimedia lecture available using their cellular phones. Using ICT the world becoming closely connected and mobile e-Stat data analysis system will be an easy accessible educational media for training data analysis for K-12 in the era of big data, with an estimated 95% of the global population living in an area covered by at least a basic mobile cellular network. Global learner have access to the internet and it is expected to continue to rise as more and more open and distance learners, LLL learners come online. E-Stat free version translated in Japanese, Chinese and English too. The rapid growth in broadband access and usage, driven by mobile broadband technologies, has fostered the development of a mobile e-book for training open & distance connected learner. The high penetration rates of mobile phone subscriptions and the rapid growing of handheld users transform higher education and K-12 education through digitally supported learning & teaching for learner. The BITEC m-Learning initiative focuses on introducing Bioinformatics and Data Analysis using handheld devices to be made easily accessible for medical doctors on the field and open up ubiquitous learning environment. Lesson learned from this initiative is that the mobile e-Book could be the most affordable, accessible and flexible educational media. Consequently, more accessible tertiary education will meet the demands of population that did not have the time and place for such learning.

  • Vendredi 20 Avril 2018 Pierre-Alexandre Mattei (University of Copenhagen)

Deep latent variable models

pdf de la présentation

Deep latent variable models combine the approximation abilities of deep neural networks and the statistical foundations of generative models. The induced data distribution is an infinite mixture model whose density is extremely delicate to compute. Variational methods are consequently used for inference, following the seminal work of Rezende, Mohamed, and Wierstra (ICML 2014) and Kingma & Welling (ICLR 2014). We will provide a general review of these models and techniques, viewed from a statistical perspective. In particular, we will study the well-posedness of the exact problem (maximum likelihood) these variational approaches approximatively solve. We show that most unconstrained models used for continuous data have an unbounded likelihood. This ill-posedness and the problems it causes are illustrated on real data. We also show how to insure the existence of maximum likelihood estimates, and draw useful connections with nonparametric mixture models. Furthermore, we describe an algorithm that allows to perform missing data imputation using the exact conditional likelihood of a deep latent variable model. On several real data sets, our algorithm consistently and significantly outperforms the usual imputation scheme used within deep latent variable models.

  • Vendredi 18 Mai 2018 Paola Brito (Université du Portugal)

Analyse multivariée de données histogrammes

pdf de la présentation

En Statistique classique et en Analyse des Données Multivariées, les données sont habituellement représentées dans un tableau, où chaque ligne représente une unité statistique ou “individu”, pour lequel une valeur unique est enregistrée pour chaque variable quantitative ou qualitative (en colonnes). Mais cette représentation est trop restrictive quand les données à analyser comprennent de la variabilité. C’est le cas quand les unités sous analyse ne sont pas des éléments individuels, mais des groupes formés sur la base de propriétés communes. Alors, pour chaque variable descriptive, la variabilité observée dans chaque groupe doit être prise en compte, à fin d’éviter une trop importante perte d’information pertinente. Dans ce but, de nouveaux types de variables ont été introduits, dont les réalisations ne sont pas des valeurs ou des catégories uniques, mais des ensembles, des intervalles, ou, plus généralement, des distributions sur un domaine donné. L’Analyse de Données Symboliques propose un cadre pour la représentation et analyse de telles données, prenant en compte sa variabilité intrinsèque. Dans cette présentation, on s’intéresse aux données numériques décrites par des distributions empiriques, connues sous le nom de données histogramme. On introduit des représentations alternatives d’observations histogramme, et on considère des statistiques descriptives et des distances. Des méthodes pour l’analyse multivariée de ce type de données seront présentées, qui permettent de prendre en compte la variabilité exprimée dans sa représentation.

  • Vendredi 22 juin 2018 Christophe Ambroise (Université d’Évry)

Une approche hiérarchique de la recherche d’interactions entre données omiques

pdf de la présentation

Les études d’association visent à mettre en évidence une association statistique entre des marqueurs biologiques et un phénotype donné. Dans ce travail, deux types de marqueurs biologiques sont considérés : les marqueurs génétiques et les marqueurs métagénomiques. Afin de mettre en évidence des relations entre environnement et génome dans l’expression d’un phénotype, nous nous concentrons sur la détection d’interactions statistiques entre des groupes de marqueurs métagénomiques et génétiques. Le but étant d’identifier des termes d’interactions significatifs dans un modèle de régression linéaire à 2 variables avec interactions. La méthode proposée consiste en premier lieu à réduire la dimension de l’espace de recherche en sélectionnant un sous-ensemble de groupes de variables dans les deux ensembles de données pour ensuite les agrégée afin de former un nouvel ensemble de variables compressées. Cette étape de réduction de dimension combine une classification hiérarchique, permettant de définir les groupes de variables, et une procédure Lasso sélectionnant les variables compressées pertinentes. Les effets d’interactions entre les deux nouveaux ensembles sont ensuite estimés avec une procédure de tests multiples classiques.

Année universitaire 2016/2017

  • Vendredi 18 novembre 2016

Matthieu Saumard, ATER au CNAM, nous a présenté un exposé intitulé Two applications of functional data

  • Vendredi 13 janvier 2017 Blaise Hanczar, Professeur à Evry

Controlling the cost of prediction in using a cascade of reject classifiers for personalized medicine

The supervised learning in bioinformatics is a major tool to diagnose a disease, to identify the best therapeutic strategy or to establish a prognostic. The main objective in classifier construction is to maximize the accuracy in order to obtain a reliable prediction system. However, a second objective is to minimize the cost of the use of the classifier on new patients. Despite the control of the classification cost is high important in the medical domain, it has been very little studied. We point out that some patients are easy to predict, only a small subset of medical variables are needed to obtain a reliable prediction. The prediction of these patients can be cheaper than the others patient. Based on this idea, we propose a cascade approach that decreases the classification cost of the basic classifiers without dropping their accuracy. Our cascade system is a sequence of classifiers with rejects option of increasing cost. At each stage, a classifier receives all patients rejected by the last classifier, makes a prediction of the patient and rejects to the next classifier the patients with low confidence prediction. The performances of our methods are evaluated on four real medical problems.

  • Vendredi 24 Février 2017 Rafael José González De Gouveia , CIMAT (Mexico)

Topological tools for Data Analysis

This talk will be an introduction to Topological Data Analysis (TDA) and some tools will be presented to study topological features of a point cloud. TDA provides a framework to analyze data in a way that is insensitive to a particular metric. The intuition is to study the shape of the data. It is an approach to analyze data using techniques from topology, namely Persistent Homology. Persistent Homology allows us to compute topological features from the data set in different spatial resolutions using simplicial complexes. TDA combine algebraic topology to study the Betti numbers of a data set, a point cloud. Betti numbers count topological structure of data, such as connected components, loops, and voids. The Persistent diagrams and Bar Codes will be presented to asses the shape of the data.

  • Vendredi 17 mars 2017 Yuan Wei (Beihang University, Beijing)

Interval-valued Data Regression using Partial Linear Model

Semi-parametric modeling of interval-valued data is of great practical importance, as exampled by applications in economic and financial data analysis. We propose a flexible semi-parametric modeling of interval-valued data by integrating the partial linear regression model based on the Center & Range method, and investigate its estimation procedure. Furthermore, we introduce a test statistic that allows one to decide between a parametric linear model and a semi-parametric model, and approximate its null asymptotic distribution based on wild Bootstrap method to obtain the critical values. Extensive simulation studies are carried out to evaluate the performance of the proposed methodology and the new test. Moreover, several empirical datasets are analyzed to document its practical applications.

  • Vendredi 21 avril 2017 Antoine CORNUEJOLS (AgroParisTech)

L’apprentissage par transfert : une nouvelle approche basée sur un type original de boosting

L’exposé présentera d’abord le problème de l’apprentissage par transfert avec un bref état de l’art et les embryons existants de théorie. Nous introduirons ensuite une nouvelle approche fondée sur du boosting de projections entre l’espace cible et l’espace source. L’algorithme sera expliqué et illustré sur une application de classification de séries temporelles. Nous terminerons par une analyse théorique de cette nouvelle méthode : quelles garanties de performance sur l’apprentissage peut-on obtenir ? Comment choisir l’espace des projections, et comment contrôler le risque de « sur-transfert » ? Quels liens peut-on établir avec d’autres approches théoriques comme par exemple : (i) le scénario d’apprentissage avec informations privilégiées proposé récemment par Vapnik, (ii) le calcul de la capacité d’un canal de transmission entre source et cible, et (iii) la recherche en avant dans les algorithmes de jeux. Rq : Il est important de souligner qu’il s’agit d’un travail en cours (work in progress), et que l’interaction avec les auditeurs est vivement souhaitée.

Année universitaire 2015/2016

  • Jeudi 3 décembre 2015

RAUL ANDRES TORRES DIAZ, Doctorant du "Statistics Department", Universidad Carlos III de Madrid, en séjour de recherche de trois mois au sein de l’Equipe Méthodes Statistiques de Data Mining et Apprentissage, Laboratoire CEDRIC, CNAM, nous a présenté un exposé intitulé : Multivariate extreme value analysis under a directional approach

Année universitaire 2014/2015

  • Jeudi 11 Juin 2015

Charantonis Anastase Alexandre, Post-doc au CEDRIC nous a présenté un exposé intitulé : Modélisation statistique de l’environnement : Réduction par classifications

  • Jeudi 21 Mai 2015

Véronique Maume-Deschamps, Professeure à L’IFSA Lyon1 nous a présenté un exposé intitulé : Global sensitivity analysis and quantification of uncertainty

  • Jeudi 5 Mars 2015

Giuseppe Giordano, Professeur à l’Université de Salerne ; Italie nous a présenté un exposé intitulé : Multidimensional Techniques for Social Network Data- Partie1 Partie2

  • Jeudi 19 février 2015

Didier Rullière, ISFA, Université Lyon1 nous a présenté un exposé intitulé : Non parametric estimation of Archimedean copulas and tail dependence

  • Jeudi 22 janvier 2015

Jean-Pierre Gauchi, chargé de recherche INRA nous a présenté un exposé intitulé : Plans d’expériences pour modèles non linéaires : des problématiques et des challenges en biologie

  • Jeudi 11 décembre 2014

Rémi Servien, chargé de recherche INRA nous a présenté un exposé intitulé : "Identification et quantification de métabolites dans un spectre RMN"

  • Jeudi 13 novembre 2014

Avner Bar-Hen, Professeur à l’université de Paris Descartes nous a présenté un exposé intitulé : "Analyse statistique des profils et de l’activité des participants d’un MOOC "

Année universitaire 2013/2014

  • Mardi 1er avril 2014

Francisco de A.T. de Carvalho, Professeur à l’université de Recife - Brésil nous présentera en salle 17.1.16 un exposé intitulé : « Batch SOM Algorithms for Interval-Valued Data with Automatic Weighting of the Variables »

  • Mercredi 5 mars 2014

Jules de TIBEIRO, Professeur à l’Université de Moncton, New-Brunswick, Canada. nous a présenté un exposé intitulé : « Graph Partitioning by Correspondence Analysis and Taxicab Correspondence Analysis »

  • Mercredi 22 janvier 2014

Mory Ouattara, doctorant département IMATH-CNAM nous a présenté un exposé intitulé : Une méthode de soft subspace clustering basée sur les cartes topologiques pour données multiblocs et une méthode de recherche de consensus de partitions

  • Mercredi 11 décembre

Le Professeur Francesco Palumbo - Université de Naples - https://www.docenti.unina.it/france... nous a présenté un exposé intitulé Prototyping through Archetypal Analysis : looking at data from a different perspective

  • Lundi 25 novembre

Le Professeur Eric D ; Kolaczyk - Université de Boston - http://math.bu.edu/people/kolaczyk/ nous a présenté un exposé intitulé Estimating Network Degree Distributions from Sampled Networks : An Inverse Problem

  • Mercredi 13 novembre

Françoise Soulié Fogelman, consultante nous a présenté un exposé intitulé Utilisation des réseaux sociaux pour le data mining présenté par

  • Mercredi 9 octobre

Le Professeur Alfred Hero - University of Michigan Ann Arbor - http://web.eecs.umich.edu/ hero/ nous a présenté un exposé intitulé Kronecker PCA

  • Jeudi 19 septembre

Un séminaire commun CNAM-ESCP Europe - Statistique et modélisation - s’est tenu à l’ESCP sur le thème Données de panels : Approches méthodologiques et applications au management

  • Mardi 10 septembre

En collaboration avec la société SIGMA PLUS s’est tenu un séminaire au sujet de l’analyse de données textuelles présenté par Normand Péladeau, Président de Provalis Research

Année universitaire 2012/2013

  • Mercredi 12 juin

Anne Bernard, Doctorante département IMATH CNAM nous a présenté un exosé intitulé « Analyse en Composantes Principales Sparse pour données multiblocs et extension à l’Analyse des Correspondances Multiples Sparse »

  • Mercredi 22 mai

Hervé Abdi Professor in the School of Behavioral and Brain Sciences at The University of Texas at Dallas nous a présenté un exposé intitulé : Approches Multi-Tableaux pour l’Analyse des Données de Connectivité Cérébrale

  • Mercredi 17 avril

Le Professeur Heungsun Hwang, Department of Psychology, McGill University nous a présenté une conférence intitulée : “Generalized structured component analysis : A component-based approach to structural equation modeling”

  • Mercredi 3 avril

Pierre Goovaerts, Chief Scientist at BioMedware Inc, Courtesy Associate Professor University of Florida, nous a présenté une conférence intitulée "The role of Geostatistics in Environmental Epidemiology"

  • Mercredi 20 février

Elena di Bernardino, Maître de conférences au département Imath du CNAM, nous a présenté une conférence intitulée : Distortions of multivariate risk measures : a level-sets based approach

Résumé

  • Mercredi 16 janvier

Julie Josse, Maître de conférences au laboratoire de mathématiques appliquées d’Agrocampus Ouest, centre de Rennes, nous a présenté une conférence intitulée : Visualisation de données par ACP régularisée

Résumé Exposé

  • Mercredi 12 décembre

Marc CHRISTINE, INSEE, direction de la Méthodologie et de la coordination statistique et internationale, nous a présenté une conférence intitulée

Méthodes d’agrégation d’unités statistiques sous contrainte de contiguïté

  • Mercredi 21 novembre

Fabrice ROSSI, Professeur à l’université Paris 1, exerce sa recherche au sein du SAMM. Il y est responsable de l’axe de recherche Apprentissage Statistique et Réseaux.

Il nous a présenté une conférence intitulée : Un modèle par blocs pour la classification de graphes temporels

Année universitaire 2011/2012

  • Mercredi 20 juin 2012

Georges Hébrail, Chercheur senior EDF R&D, a présenté une conférence intitulée Gestion et fouille de données dans les Smart Grid

  • Lundi 16 avril 2012

Jason Fine, Professeur aux département de biostatistique et au département de Statistique de l’université de Caroline du Nord à Chapel Hill a présenté une conférence intitulée Screening for osteoporosis for postmenopausal women : a case study in interval censored competing risks

  • Mercredi 21 mars 2012

Julie Séguéla, Doctorante CNAM département IMATH, a présenté une conférence intitulée Text mining et système de recommandation pour les offres d’emploi diffusées sur le web

  • Mercredi 1er février 2012

Laura Trinchera Maître de conférences AgroParisTech a donné une conférence intitulée : « Latent Class detection in Path Modeling : the REBUS-PLS algorithm »

  • Mercredi 18 janvier 2012

Matthieu Montes, Maître de conférences en Bioinformatique au CNAM a présenté l’exposé : « Virtual screening methods in drug discovery : designing Protein Protein Interactions inhibitors »

  • Mercredi 14 décembre 2011

Hervé Abdi, Professeur à l’université du Texas à Dallas a donné une conférence intitulée : Les problèmes statistiques de la mise en relation du génome et du comportement

  • Mercredi 16 novembre 2011

Ismaïl Ahmed, Chercheur à l’INSERM a donné une conférence intitulée : Détection automatique de signaux en pharmacovigilance : Approche statistique fondée sur les comparaisons multiples. Résumé

  • Mercredi 19 octobre 2011

Aurélien Latouche, Professeur de Biostatistique au CNAM, a donné une conférence intitulée : Estimation de l’aire sous la courbe Roc en présence de censure

Année universitaire 2010/2011

  • Mercredi 15 juin 2011

Furio Camillo Professeur à l’université de Bologne, invité au département Ingénierie mathématique du CNAM a donné une conférence intitulée « A multivariate new promising approach for assessing balance of categorical covariates and measuring local effects in observational studies using the “potential outcome” frame »

  • Mercredi 4 mai 2011

Giorgio Russolillo Chercheur au CEDRIC (CNAM) au sein de l’équipe MSDMA (Méthodes statistiques de data-mining et apprentissage) a donné une conférence intitulée « Algorithmes PLS pour l’analyse en composantes principales (ACP) ; régression sur composantes PLS et modèles structurels prédictifs : connexion et extension non-métrique. »

  • Mercredi 6 avril 2011

Guénaël Cabanes Chercheur au Laboratoire d’Informatique de Paris-Nord (LIPN) Institut Galilée - Université Paris-Nord a donné une conférence intitulée « Classification non supervisée à deux niveaux guidée par le voisinage et la densité »

La conférence aura lieu salle 17.2.07 au CNAM le 6 avril de 14h à 15h.

  • Résumé :

"Notre travail de recherche concerne le développement d’approches à base de Cartes Auto-Organisatrices (SOM) pour la découverte et le suivi de structures de classes dans les données par apprentissage non supervisé (clustering). Nous avons proposé une méthode de clustering à deux niveaux simultanés (DS2L-SOM). Cette méthode se base sur l’estimation, à partir des données, de valeurs de connectivité et de densité des prototypes de la SOM. Ces valeurs sont utilisées pour effectuer une classification des données. Le nombre de clusters est détecté automatiquement. De plus, la complexité est linéaire selon le nombre de données. Nous montrons qu’il est relativement simple et efficace d’adapter DS2L-SOM aux variantes de l’algorithme SOM, de façon à obtenir une méthode très polyvalente capable par exemple d’analyser différents types de données. Par ailleurs, nous avons proposé une nouvelle méthode de description condensée de la distribution des données, ainsi qu’une mesure heuristique de similarité entre ces modèles. Ces algorithmes se basent sur une estimation de la densité sous-jacente des données pendant l’apprentissage d’une SOM modifiée. La qualité de la description obtenue et de la mesure de comparaison est validée sur un ensemble de jeux de données artificiels et réels. Les propriétés de ces algorithmes rendent possible l’analyse de grandes bases de données, y compris de grands flux de données, qui nécessitent à la fois vitesse et économie de ressources. Il est en effet possible de combiner l’algorithme de clustering à la mesure de similarité entre distributions pour l’analyse de données évolutives."

  • Mercredi 23 mars 2011

Mr Mohamed Hanafi chercheur de l’Unité de Recherche en Sensométrie et Chimiométrie, ONIRIS, Ecole Nationale Vétérinaire, Agroalimentaire et de l’alimentation, Nantes-Atlantique, donnera une conférence intitulée « Analyse des données structurées en blocs : généricité des données, polymorphisme des méthodes et questions émergentes »

La conférence aura lieu Amphi A Fabry-Perrot au CNAM le 23 mars de 10h45 à 12h.

  • Résumé : Comme le souligne le titre, la présente communication s’inscrit dans le cadre de l’analyse des données structurées en blocs. Ces données multidimensionnelles sont appelées également « tableaux multiples ou multiblocs ». Les situations pratiques qui conduisent à l’acquisition des données structurées en blocs sont abondantes dans des domaines aussi variés que l’agroalimentaire, la chimie analytique, l’écologie, la biologie intégartive...On cite ici à titre d’exemple, les données qui se présentent sous la forme d’un tableau individus*variables où les variables sont organisées en plusieurs blocs. Aujourd’hui, on peut affirmer que l’accès aux données structurées en blocs ne pose réellement pas de problème. Les enjeux actuels se situent davantage au niveau de la conception d’une méthodologie adaptée pour une meilleure exploitation de ces données. Partant d’une synthèse des travaux les plus significatifs et des contributions les plus récentes en méthodologie d’analyse des données structurées en blocs, la présente communication vise à :
    - introduire une définition générique des données structurées en blocs. Cette généricité sera déclinée par une présentation détaillée du panorama des données structurées en blocs à partir d’exemples dans différents domaines d’application.
    - montrer que la méthodologie s’articule sur deux concepts anciens : rang et variable latente. En particulier, le rang d’un tableau partitionnée sera introduit et la notion de polymorphisme de méthodes sera discutée.
    - analyser la généricité des algorithmes pour la détermination des paramètres des méthodes. En particulier, un algorithme général sera introduit et ses propriétés numériques seront discutées.
    - En plus des situations pratiques et des résultats théoriques qui seront évoqués tout au long de la présentation, des questions émergentes pour la modélisation des systèmes complexes (approches multi échelles, approches intégratives) viendront conclure cette communication.

Mme le professeur Taerim LEE de la Korea National Open University de Séoul donnera deux exposés :

Année universitaire 2009/2010

  • 6 mai 2010 de 9h00 à 17h15 : CNAM, Amphi Abbé Grégoire, 292 rue saint Martin, 75003 Paris

Troisième Journée sur les Analyses de Tableaux Multiples

organisée par Gilbert Saporta (CNAM) , Mohamed Hanafi (ONIRIS), Thierry Fahmy (XL-Stats)

Entrée libre sur inscription auprès de : mohamed.hanafi@oniris-nantes.fr

Au début du siècle dernier, les techniques d’analyse des tableaux multiples ont été introduites pour des applications en psychologie. Depuis cette date, leurs applications n’ont cessé de s’élargir, et couvrent maintenant des domaines aussi variés que la sensométrie, la chimiométrie, l’écologie et l’analyse d’image. Cet engouement de la part des praticiens pour les techniques d’analyse des tableaux multiples s’explique par un besoin méthodologique qui s’est trouvé accentué grâce à la multiplication des outils technologiques d’acquisition des données. Parallèlement à cette demande, de nombreux développements consacrés aux fondements de ces techniques ont conduit à des avancées significatives aussi bien en statistique exploratoire (méthodes factorielles, techniques multidimensionnelles) qu’en mathématique (algèbre linéaire, algèbre tensorielle, optimisation). L’objectif de cette journée est de dresser un bilan des avancées récentes tant sur le plan algorithmiques de ces techniques que sur leurs applications. Cette journée s’adresse à un large public de spécialistes et non spécialistes, elle a pour ambition de promouvoir cette méthodologie et de favoriser les échanges entre spécialistes et praticiens.

Programme :

09h00 - 09h15 Ouverture de la journée.

09h15 - 10h00 Issues in designing user-friendly software for three-mode analysis. Pieter Kroonenberg (Université de Leiden, Pays Bas)

10h00 - 10h45 Quelques nouveaux résultats concernant les modèles Candecomp/Parafac et Indscal. Mohamed Benani-Dosse (Université de Rennes II,France)

10h45-11h15 Pause café

11h15-12h00 Regularized Generalized Canonical Correlation Analysis. Arthur Tenenhaus (Supelec, France)

12h00-13h30 Pause déjeuner

13h30-14h10 Utilisation avancée de l’approche PLS pour l’analyse des tableaux multiples avec XLSTAT. Emmanuel Jakobowicz (XLSTAT, France).

14h10-14h50 Propriétés des algorithmes pour la détermination des variables latentes dans le cadre de l’approche PLS et des méthodes multiblocs. Mohamed Hanafi (ONIRIS, Nantes France)

14h50-15h10 Pause café

15H10-15h50 Structure des données et problèmes de modélisation en métabolomique. Alain Paris (Met@risk, France)

15h50-16h30 A generic model for data fusion. Iven Van Mechelen (Katholieke Universiteit Leuven, Belgique )

16h30-17h10 Table ronde animée par : Ph. Ricoux (Total,France) P. Kroonenberg (Université de Leiden, Pays Bas) et G. Saporta(CNAM, France)

17h10-17h15 Clôture de la journée.

Séminaires novembre et décembre 2009 ; janvier à mars 2010

  • Mercredi 10 mars 2010 Jean-François Marcotorchino Directeur Scientifique et Technique THALES Communications
    email : jeanfrancois.MARCOTORCHINO@fr.thalesgroup.com

    Unification Relationnelle Générale des Critères de Partitionnement, Classification et Classement.

    Résumé : Lors de cet exposé, nous donnerons un éclairage peu connu sur bon nombre de Critères de Classement ou de Partitionnement structurants et usuels en montrant leur filiation étroite avec une grande famille unifiée de critères, tels les critères suivants : Critère de Condorcet, Critère de Condorcet Pondéré, Critère de la « Différence de Profils », Critère Inertiels, Critères dérivés des k-means etc.., dans le paradigme unificateur de l’Approche Relationnelle des données, en montrant que tout critère de classification ou de classement, utilisé aujourd’hui, peut être considéré formellement comme un dérivé de cette famille de critères relationnels. De fait, le propos est plus spécifiquement de montrer qu’un formalisme théorique unique peut permettre d’expliciter en profondeur les structures sous-jacentes propres à des critères de recherche d’ordres, d’ordonnances ou de partitionnements optimaux qui ont été introduits à des périodes de temps différentes, pour des motifs et des buts différents, dans des problématiques n’ayant souvent pas grand chose à voir entre elles. En résumé nous voulons montrer que le formalisme relationnel permet de transcrire dans un langage simple avec des notations assez systématisées l’essentiel des fondamentaux des structures de critères (ou de fonctions économiques à Maximiser ou Minimiser),.une fois faite l’assimilation des notations associées.
  • Mercredi 20 JANVIER 2010 Emmanuel Viennet Professeur Laboratoire de Traitement et Transport de l’Information Université Paris 13
    email : emmanuel.viennet@univ-paris13.fr

    Apprentissage et Réseaux Sociaux

    Résumé : L’étude des réseaux sociaux a connu un essor remarquable ces dernières années, avec le développement de nouvelles méthodes d’analyse et de fouille de données. De nombreuses applications industrielles demandent l’analyse de données structurées en réseaux : sites Web2.0, opérateurs de télécommunications. Les demandes sont variées et vont de la catégorisation de documents (messageries) à la détection de communautés d’utilisateurs, en passant par les systèmes de recommandation. L’analyse des réseaux sociaux pose des problèmes difficiles, comme la modélisation des interactions "sociales", la fouille de données structurées (graphes, textes, données hétérogènes) et la prise en compte de l’évolution temporelle des réseaux. De plus, les applications génèrent souvent des volumes de données très importants, avec des graphes comptant plusieurs dizaines des millions de nœuds, ce qui pose de sérieuses restrictions sur algorithmes utilisables. Dans ce séminaire, nous présenterons ce domaine de recherche et décrirons quelques problématiques et exemples pouvant intéresser les statisticiens.
  • Mercredi 13 janvier 2010 Christiane Guinot, PhD, DSc Biometrics and Epidemiology Unit CE.R.I.E.S., email : christiane.guinot@ceries-lab.com

    Identification de différents phénotypes d’une maladie de la peau : le psoriasis

    Résumé : Suite à nos travaux de recherche sur une classification de la peau humaine saine, nous avons été sollicité par le Pr L. Dubertret du Département de Dermatologie de l’hôpital Saint-Louis à Paris, pour rechercher une typologie du psoriasis, c’est-à-dire chercher des groupes de malades homogènes sur le plan clinique et sur le plan évolutif. En effet, il existe des formes cliniques extrêmement variées de psoriasis, auxquelles correspondent des groupes de patients actuellement non caractérisés et dont la réponse aux différents traitements est différente. Cette recherche de typologie a été effectuée en associant les méthodes d’analyse des correspondances multiples, de classification ascendante hiérarchique et d’analyse discriminante.
  • Mercredi 16 décembre 2009 de 11h-12h Lieu : Cnam, salle 31 2 89, 2 rue Conté, Paris IIIe
    Jérôme Pagès, Professeur à Agrocampus Rennes, email : jerome.pages@agrocampus-ouest.fr

    Traitement de données mixtes (variables quantitatives et variables qualitatives) en analyse de données.
  • Mercredi 18 novembre 2009 Professeur Francisco Carvalho de l’Université Fédérale du Pernambouc à Recife (Brésil)

    Nouveaux Modèles de Régression Linéaire pour les Variables de Type Intervalle

    Résumé : Nous présentons une nouvelle approche pour la régression linéaire sur des variables de type intervalle. Dans cette approche, chaque individu est décrit par un vecteur d’intervalle. La prévision du centre et de la longueur de l’intervalle de la variable à expliquer est faite à partir de différents modèles de régression linéaire qui tiennent compte des informations données par le centre et la longueur des variables explicatives et aussi de leurs interactions. Dans un deuxième temps, nous introduisons la contrainte que la limite inférieure doit être plus grande que la limite supérieur lors de la prévision de l’intervalle de la variable à expliquer. Nous montrons quelques exemples avec des données simulées ou réelles.

Année universitaire 2008/2009

Année universitaire 2008/2009

  • 17 juin 2009 Francesco Palumbo, université de Macerata (Italie) 11h à 12h, salle 33.1.11 : Statistical Analysis of Interval-valued data.
  • 18 mars 2009 El Mostafa Qannari ENITIAA/INRA Nantes -Approches en continuum autour de la régression PLS : En matière de traitement de données, le chimiométricien est souvent confronté à la situation consistant à prédire une ou plusieurs variables à partir de mesures instrumentales rapides telles que les mesures spectrales. Le plus souvent, l’objectif n’est pas tant un problème de prédiction à proprement parler qu’un problème d’investigation de relations entre tableaux de données au sens où l’on cherche à comprendre les phénomènes sous jacents en les reliant, quand cela est possible, à la structure moléculaire des produits étudiés. De ce fait, la régression PLS a une place de choix dans la boîte à outils du chimiométricien. En effet, il est bien connu que cette méthode est orientée vers l’explication d’une ou plusieurs variables et pour cela, elle s’appuie sur une information structurelle dans l’espace des variables explicatives. D’aucuns résument ceci par le raccourci consistant à affirmer que PLS réalise un compromis entre une analyse en composantes principales (ACP) des variables à expliquer, une ACP des variables explicatives et une méthode de régression des variables à expliquer sur les variables explicatives. Cependant, force est de constater que, dans la pratique, ce compromis est souvent biaisé en faveur des variables explicatives alors que l’on aurait souhaité que ce soit l’inverse ! L’exposé vise à montrer que des approches en continuum non seulement permettent de mieux rétablir l’équilibre mais procurent également à l’utilisateur toute une panoplie de modèles incluant des modèles plus classique tels que la régression PLS, la régression sur composantes principales, l’analyse en composantes principales sur variables instrumentales ou la Ridge régression. Le lien entre ces différentes méthodes est, par conséquent, mieux clarifié.
  • 25 février 2009 11h-12h, Salle 39-3-47 : Vincenzo Esposito Vinzi ESSEC Business School of Paris - A Comprehensive PLS environment for problematic cases in component-based SEM : Partial Least Squares Path Modelling is generally meant as a component-based approach to structural equation models and multi-block data analysis that privileges a prediction oriented discovery process to the statistical testing of causal hypotheses.
    In case of formative relationships in the measurement model between the manifest variables and their corresponding latent ones, the classical algorithm may often yield unstable results while being not even feasible in cases often encountered in real practice. This talk will discuss a comprehensive PLS environment where PLS regression is implemented in differen steps of the PLS-PM algorithm : the external estimation step for formative indicators ; the internal estimation step as a generalization of the path weighting scheme ; the estimation of path coefficients in structural models affected by strongly correlated latent variables or missing scores.
  • 14 janvier 2009 11h-12h, Salle 11A2.32 : Michel Tenenhaus (Groupe HEC, Jouy-en-Josas, France) tenenhaus@hec.fr - Approche PLS : Les méthodes PLS (Partial Least Squares) forment un ensemble de méthodes d’analyse de données exploratoires permettant de prendre en compte la causalité. Elles ont été initiées par Herman et Svante Wold à partir de 1966. Des outils de validation des modèles par Jack-Knife ou Bootstrap ont été plus récemment développés. Ces méthodes peuvent fonctionner sur des petits échantillons dont les individus sont décrits par un très grand nombre de variables. Il peut aussi y avoir des données manquantes. Nous présenterons dans cette conférence l’approche PLS pour l’étude des modèles à équations structurelles sur variables latentes. Nous illustrerons ces méthodes par des exemples concrets d’applications à l’aide des logiciels PLS-Graph et XLSTAT.
  • 3 décembre 2008 : Michel Bera - Le data mining en 2008 : l’apport aux problèmes de marketing des nouvelles structures de données liées aux comportements : TimeStamps, Réseaux Sociaux, Texte.

Année universitaire 2007/2008

Année universitaire 2007/2008

Année universitaire 2006/2007

Année universitaire 2006/2007

Année universitaire 2005/2006

Année universitaire 2005/2006



Mis à jour le jeudi 29 novembre 2018, par : Audigier


Contact   |   Plan d'accès   |   Annuaire   |   Plan du site   |   IntraMaths   |   IntraCnam