Accueil > Recherche > Séminaires de Statistique >

Séminaire de Statistique

Les exposés ont lieu au CNAM à partir de 11h et peuvent également être suivis à distance (contacter les organisateurs pour être ajouté à l’équipe Teams du séminaire)


Année universitaire 2024/2025

  • Vendredi 25 Octobre 2024 Une méthode de classification basée sur une stratégie de raffinement des données d’échantillonnage avec une extension aux données fonctionnelles par Rosanna Verde (Université de la Campania "Luigi Vanvitelli") slides

Résumé : L’augmentation des données caractérisées par des séquences d’observations qui varient dans le temps et l’espace, telles que les courbes et les surfaces, est de plus en plus fréquente. Cela souligne l’importance de l’analyse fonctionnelle des données (ADF). Contrairement aux méthodes traditionnelles, qui traitent les données comme des points discrets ou des vecteurs, l’ADF prend les courbes ou les fonctions entières comme entités d’analyse. Dans ce contexte, une stratégie innovante de classification des données fonctionnelles est proposée afin de :

 Améliorer la précision de la classification en intégrant des techniques d’apprentissage supervisé et non supervisé.
 Utiliser une nouvelle fonction objective pour le regroupement afin de découvrir des modèles cachés.
 Introduire un critère de prévision basé sur le FKNN, qui prend en compte la variabilité des distributions locales des échantillons dans différentes classes.

  • Vendredi 29 Novembre 2024 Modèles Sparses Robustes et Détection d’Observations Atypiques pour les Données Distributionnelles Multivariées par Paula Brito (Université de Porto). résumé - slides
  • Vendredi 17 Janvier 2025 Journée thématique sur les méthodes statistiques pour l’analyse de données multibloc programme - inscription
  • Vendredi 28 Février 2025 Utilisation des signatures pour les modèles de régression spatiale avec covariables fonctionnelles par Camille Frévent (Université de Lille) slides

Résumé : Nous proposons une nouvelle approche du modèle fonctionnel spatial autorégressif, basée sur la notion de signature. Celle-ci représente une fonction comme une série infinie de ses intégrales itérées et présente l’avantage d’être applicable à une large gamme de processus. Après avoir fourni des garanties théoriques du modèle proposé, nous avons montré, au travers d’une étude par simulation ainsi que sur un jeu de données réelles, que cette nouvelle approche présente des performances compétitives par rapport au modèle usuel.

  • Jeudi 27 Mars 2025 Saveurs d’ACP parcimonieuse : de l’optimisation au taux de fausse alarme par Arnaud Breloy (CNAM)

Résumé : L’ACP parcimonieuse vise a factoriser les données par une projection linéaire utilisant une fraction réduite des variables originelles. On présentera d’abord un panorama des méthodes en question, en se focalisant sur la problématique du design d’une fonction objectif, et les différentes techniques d’optimisation pour les minimiser. Dans ce formalisme générique, le choix du paramètre de régularisation pilotera alors toujours un compromis entre le taux de parcimonie (nombre de variables originelles sélectionnées) et l’adéquation au données (en général, la variance expliquée). Dans une tentative de dépassement de ce compromis, on présentera enfin une méthodes d’ACP parcimonieuse qui cherche a maximiser le nombre de variables sélectionnées pour un taux de fausse alarme contrôlé.

Année universitaire 2023/2024

  • Vendredi 27 Octobre 2023 Tensor Generalized Canonical Correlation Analysis par Fabien Girka (CentraleSupélec) slides

Résumé : Studying a given phenomenon under multiple views can reveal a more significant part of the mechanisms at stake rather than considering each view separately. In order to design a study under such a paradigm, measurements are usually acquired through different modalities resulting in multimodal/multiblock/multi-source data. One statistical framework suited explicitly for the joint analysis of such multi-source data is Regularized Generalized Canonical Correlation Analysis (RGCCA). RGCCA extracts canonical vectors and components that summarize the different views and their interactions. This framework subsumes many well-known multivariate analysis methods as special cases.

However, RGCCA only deals with vector-valued blocks, disregarding their possible higher-order structures. This is the case for example with excitation-emission spectroscopy (mixtures x emission wavelengths x excitation wavelengths), or electroencephalography (participants x channels x times x frequencies) data. In this talk, we present Tensor GCCA (TGCCA), a new method for analyzing higher-order tensors with canonical vectors admitting an orthogonal rank-R CP decomposition. Moreover, two algorithms for TGCCA, based on whether a separable covariance structure is imposed or not, are presented along with convergence guarantees. The efficiency and usefulness of TGCCA are evaluated on simulated and real data and compared favorably to state-of-the-art approaches.

  • Vendredi 24 Novembre 2023 Analyse exploratoire des liens entre variables structurées en blocs et de natures différentes par Optimal Scaling. Application à la valence génétique du cancer du poumon par Martin Pariès (ANSES) et Véronique Boumtje (Université Laval)

Résumé : Les travaux présentés sont issus d’une collaboration franco-québécoise. Celle-ci a été financée par le programme Samuel de Champelain (2021–2023) qui a pour vocation d’établir des liens entre (jeunes) chercheurs français et québécois. Les structures encadrantes impliquées sont : l’Agence nationale de sécurité sanitaire de l’alimentation, de l’environnement et du travail (Fr), Oniris-Nantes (Fr), le Cnam-Paris (Fr), l’Université Laval (Qu), l’Institut universitaire de cardiologie et de pneumologie de Québec - Université Laval (Qu) et l’Université McGill (Qu).

Les méthodes d’analyse exploratoire des liens entre de nombreuses variables structurées en blocs et de natures différentes (i.e., numériques, nominales et ordinales) sont requises dans de nombreux domaines, en biologie notamment. Cependant, les méthodes multiblocs sont généralement développées pour les variables numériques (e.g., MB-PCA, STATIS, AFM, GCCA), et plus rarement pour des données de natures différentes (AFM mixte, OVERALS). Dans le cadre de la quantification optimale (Optimal Scaling), l’intégration d’un algorithme ALSOS à l’ACP multibloc (MB-PCA) a permis son extension à l’analyse de variables de natures différentes (MB-PCAOS). Des outils d’aide à l’interprétation ainsi qu’un package R sont proposés pour en faciliter l’utilisation.

La méthode MB-PCAOS a été appliquée à des données structurées en blocs et de natures différentes, relatives au cancer du poumon (projet LORD, Lung Oncology Research Discovery). Ce projet vise à développer et mesurer l’utilité clinique du score de risque polygénique (PRS) pour cette maladie. Sur une cohorte de 24 012 individus (4 002 cas et 20 010 témoins), sont recueillies des variables relatives aux participants (âge, sexe, IMC), à leur potentiel risque génétique (PRS), à leur statut tabagique (e.g., nombre de cigarettes/jours, durée de tabagisme, âge lors du tabagisme) ainsi qu’à la maladie (stade pathologique, type histologique). L’application de la méthode MB-PCAOS a permis : (i) une analyse exploratoire des liens entre ces potentiels facteurs de risque du cancer du poumon, (ii) et l’établissement des limites supérieures du PRS, afin de détecter les personnes à haut risque génétique de cancer du poumon qui pourraient servir lors des campagnes de dépistage.

  • Jeudi 7 Décembre 2023 ANNULE Modélisation hiérarchique bayésienne des extrêmes spatiaux par Christian Genest (Université McGill, Montréal)

Résumé : Les changements climatiques ont accru la nécessité d’évaluer les risques environnementaux sur de vastes domaines et de développer des modèles fiables pour les phénomènes naturels extrêmes. Ceux-ci étant (heureusement) relativement rares, les méthodes bayésiennes sont bien adaptées à l’analyse spatiale de leur fréquence et de leur ampleur. Dans cet exposé, on présentera une stratégie de modélisation d’extrêmes dont la dépendance dans l’espace est représentée par un champ aléatoire gaussien latent dont le comportement est piloté par des covariables synthétiques issues de modèles de reconstruction climatique. Deux vignettes montreront que l’intégration d’un mécanisme de partage d’information entre les sites d’acquisition de données permet non seulement d’affiner l’inférence en ces lieux mais aussi d’interpoler sur de vastes domaines où l’information est clairsemée. La première application concernera l’ampleur des crues extrêmes sur le littoral atlantique du Canada. La seconde montrera en quoi cette approche permet d’améliorer la construction des courbes IDF employées pour le dimensionnement d’ouvrages hydrologiques et hydrauliques.

  • Vendredi 23 Février 2024 Representation Learning based on Givens transformation and its applications par Yanwen Zhang (Beihang University) slides

Abstract : Orthonormality is the foundation of a number of matrix decomposition methods. For example, Singular Value Decomposition (SVD) implements the compression by factoring a matrix with orthonormal parts and is pervasively utilized in various fields. Orthonormality, however, inherently includes constraints that would induce redundant information, and make the manipulation of orthonormal matrix difficult. An enhanced version of SVD, namely E-SVD, is accordingly established to losslessly and quickly release constraints and recover the orthonormal parts in SVD. E-SVD has a wide range of application field. For data compression, E-SVD will reduce 25% storage units as SVD reaches its limitation and fails to compress data. For blind watermarking, E-SVD theoretically guarantees the full retrievability of the watermark in the absence of an attack. For object detection, E-SVD give a new perspective of figuring out spatial variation in a matrix, leading to a wider usage of matrix factorization methods in the domain of unsupervised object detection.

  • Vendredi 29 Mars 2024 FEMCA : un algorithme de clustering flexible pour les données bruitées par Frédéric Pascal (CentraleSupélec) slides

Résumé : Dans cet exposé, nous présentons une version robuste de l’algorithme EM pour la classification d’observations [1]. Nous avons introduit un modèle d’échantillonnage basé sur des distributions symétriques elliptiques qui nous permet de couvrir une variété plus large de distributions. Par ailleurs, des paramètres supplémentaires, considérés comme des paramètres de nuisance, sont introduits pour accroître la flexibilité de notre modèle. Ces paramètres conduisent à une généralisation des estimateurs robustes classiques pour les vecteurs moyens et les covariances de chaque classe. Afin de démontrer la robustesse de l’algorithme proposé, nous fournissons des analyses théoriques et pratiques qui aident à comprendre la nature générale de la méthode. Enfin, nous nous intéressons à des applications aux images radar et considérons le problème de la segmentation d’images.

[1] Roizman, Violeta, Matthieu Jonckheere, and Frédéric Pascal. "A flexible EM-like clustering algorithm for noisy data." IEEE Transactions on Pattern Analysis and Machine Intelligence (2023).

  • Vendredi 24 Mai 2024 : demi-journée eXplainable artifical intelligence : Eufrasio de Andrade Lima Neto (Montfort University), Stéphane Clémençon (Telecom Paris) et Gilbert Saporta (CNAM)

Resumés - slides G. Saporta - slides E. Lima Neto - slides S. Clemençon

Année universitaire 2022/2023

  • Vendredi 28 Octobre 2022 Modèles de régression pour données de survie par Feriel Bouhadjera (CNAM)

slides

Résumé : Dans cette présentation, nous discutons certaines approches d’estimation de régression. La première partie de cet exposé sera consacrée à des problèmes de régression non-paramétrique, plus précisément sur les questions relatives aux méthodes de type noyaux et locales linéaires pour des données de survie. Nous nous intéressons à trois types de données incomplètes, fréquemment rencontrés en pratique : la censure aléatoire à droite, la censure mixte et la troncature à gauche. Nous ferons le zoom sur une seule méthode d’estimation de la fonction de régression où, sous des hypothèses appropriées, un résultat de convergence uniforme presque sûre est établi. Nous montrons par une étude numérique les performances de la méthode étudiée. La seconde partie de cet exposé porte, quant à elle, sur des développements méthodologiques en régression paramétrique dans le cas de co-variables fonctionnelles. Une application sur un jeu de données dans le domaine viticole sera proposée.

  • Vendredi 9 Dcembre 2022 Méthodes Factorielles Parcimonieuses par Vincent Guillemot (Hub de Bioinformatique et de Biostatistique, Institut Pasteur)

Résumé : Les méthodes factorielles sont cruciales pour obtenir un aperçu rapide de la structure des données, que celles-ci soient quantitatives, qualitatives, ou entre les deux. Cependant, le grand nombre de variable, ou le grand nombre d’observations, rend(ent) parfois ardue l’interprétation des résultats. De nouvelles méthodes sont apparues, dites parcimonieuses, avec pour but de sélectionner des variables ou des observations, et permettant de mettre en valeur des structures simples dans ces données complexes. Ces nouvelles méthodes complètent les méthodes classiques à base de rotation ou de bootstrap. Sur des exemples de données publiques, nous montrerons l’intérêt de ces méthodes et leurs futures pistes de développement.

  • Vendredi 27 Janvier 2023 Réseaux de neurones à convolutions complexes pour le traitement de données bimodales issues de ptychographie de Fourier par Houda Hassini (Telecom SudParis, TRIBVN/T-life)

Résumé : En imagerie classique, seule l’intensité peut être mesurée ce qui conduit à une perte d’information qui peut-être préjudiciable à une interprétation fiable des objets considérés. Dans nos études nous pensons en particulier aux globules sanguins observés au microscope dont l’analyse peut permettre de révéler certaines maladies. L’imagerie de phase quantitative (Quantitative Phase Imaging QPI) a été proposée comme une avancée intéressante par rapport aux systèmes classiques. . Son point central est de récupérer en plus d’une image d’intensité, une information de phase. Cette information bimodale, naturellement complexe, offre diverses capacités intéressantes telles que l’imagerie quantitative, non invasive et sans marqueur.

Plus récemment, les approches d’apprentissage profond, ou plus précisément les réseaux neuronaux convolutifs (CNN) ont été introduites dans les applications QPI dans l’objectif de fournir, entre autres, un diagnostic médical plus précis. Néanmoins, ces approches explorent principalement les CNN classiques avec des convolutions à valeurs réelles pour l’extraction de caractéristiques sur un seul canal, le plus souvent le canal de phase. De plus, ces filtres réels ne sont pas nativement adaptés à traiter les valeurs complexes résultant des approches QPI. Leur utilisation sur des données complexes peut conduire à ignorer le lien intrinsèque entre l’intensité et l’information de phase.

Dans ce travail, nous proposons d’introduire des convolutions à valeurs complexes dans les réseaux CNN pour explorer l’information bimodale naturellement complexe de l’IQP.

Nous montrons l’apport de cette approche pour réaliser un diagnostique automatique de détection de malaria à partir de frottis sanguins, dans une tâche de detection/classification de globules rouges infectés par des parasites. L’ information bi-modale d’intensité et de phase a été recueillies à l’aide d’une microscopie ptychographique de Fourier (FPM) comme technique QPI.

  • Vendredi 31 Mars 2023 Model-based clustering of a collection of networks par Tabea Rebafka (LPSM)

slides : partie1 partie2 partie3

Résumé : Graph clustering is the task of partitioning a collection of observed networks into groups of similar networks. Clustering requires the comparison of graphs and the definition of a notion of graph similarity, which is challenging as networks are complex objects and possibly of different sizes. Our goal is to obtain a clustering where networks in the same cluster have similar global topology.

We propose a model-based clustering approach based on a novel finite mixture model of random graph models, such that the clustering task is recast as an inference problem. To model individual networks the popular stochastic block model is used since it accommodates heterogeneous graphs and its parameters are readily interpretable. Moreover, we develop a hierarchical agglomerative clustering algorithm that aims at maximizing the so-called integrated classification likelihood criterion. In our algorithm, the label-switching problem in the stochastic block model raises an issue, as we have to match block labels of two stochastic block models. To address this problem we propose a tool based on the graphon function. Numerical experiments and an application to ecological networks illustrate the performance and the utility of our approach.

  • Vendredi 30 Juin 2023 Attributed Graph embedding and clustering par Lazhar Labiod (Université Paris Cité)

Résumé : Representation learning is a central problem of Attributed Networks data analysis in a variety of fields. Given an attributed graph, the objectives are to obtain a representation of nodes and a partition of the set of nodes. Usually these two objectives are pursued separately via two tasks that are performed sequentially, and any benefit that may be obtained by performing them simultaneously is lost. In this talk we present some simultaneous approaches combining both tasks, embedding and clustering. To jointly encode data affinity between node links and attributes, we use a new powered proximity matrix. We formulate new matrix decomposition models to obtain node representation and node clustering simultaneously. Theoretical analysis indicates the strong links between the newly constructed proximity matrix and both the random walk theory on a graph and a simple Graph Convolutional Network (GCN). Experimental results demonstrate that the proposed algorithms perform better, in terms of clustering and embedding, than state-of-the-art algorithms including deep learning methods designed for similar tasks in relation to attributed network datasets with different characteristics.

Année universitaire 2021/2022

  • Vendredi 29 Octobre 2021 Clustering with missing values : how and why can we use multiple imputation ? par Mouhamadou Lamine NDAO et Fadela SADOU ZOULEYA

Resumé - slides

  • Vendredi 26 Novembre 2021 Exploitation des données massives pour le pilotage multi-objectifs par performance pour l’industrie 4.0. par Amel SOUIFI (CNAM)

Resumé - slides

  • Vendredi 17 Décembre 2021 Sparse Subspace K-mean par Mory OUATARRA (Université NANGUI-ABROGOUA)

Resumé - slides

  • Vendredi 28 Janvier 2022 Détection d’anomalies dans des séries temporelles régulières : une approche non-paramétrique par Christian DERQUENNE (EDF)

Résumé - slides

  • Jeudi 31 Mars 2022 Agrégation en ligne de récursions de Kalman par Eric Adjakossa (AgroParisTech)

Résumé

Dans ce travail, nous améliorons la qualité de la prédiction par agrégation d’experts en utilisant les propriétés sous-jacentes des modèles qui fournissent ces experts. Nous nous limitons au cas où les prédictions d’experts sont issues de récursions de Kalman par ajustement de modèles espace-état. En utilisant des poids exponentiels, nous avons construit différents algorithmes d’agrégation de récursions de Kalman en ligne (KAO) qui compétissent avec le meilleur expert ou la meilleure combinaison convexe des experts de façon adaptative ou non. Nous améliorons les résultats existants de la littérature sur l’agrégation d’experts lorsque les experts sont des récursions de Kalman en utilisant leurs propriétés de second ordre. Nous appliquons notre approche aux récursions de Kalman et l’étendons au contexte général d’experts en ajustant un modèle espace-état aux erreurs d’experts fournis.

  • Vendredi 24 juin 2022 Functional Isolation Forest par Pavlo Mozharovskyi (Télécom Paris)

Résumé - slides

Année universitaire 2019/2020

  • Vendredi 20 Septembre 2019 Evaluation de la capacité d’un biomarqueur à prédire la réponse au traitement avec des données de survies par Bassirou MBOUP (CNAM)

Resumé - pdf de la présentation

  • Vendredi 4 Octobre 2019 Analyse de données fonctionnelles qualitatives par Cristian Preda (Ecole Polytechnique Universitaire de Lille)

Resumé

  • ANNULE Vendredi 28 Février 2020 Deep Learning Prognosis Model for Hepato Cellular Calcinoma par Terim Lee (Korea National Open University)

Resumé

  • Vendredi 20 Mars 2020 Convex Clustering Method for Compositional Data par Zhichao Wang (Xiangtan University)

Résumé : Compositional data comprise of some positive parts subject to a constant-sum constraint. Traditional clustering methods are not applicable to compositional data since the parts are correlated, and particularly, the subcompositional dominance property should be satisfied. In this paper, we develop a convex clustering method for grouping compositional data, which provides a global optimal solution given the convex relaxations of k-means and hierarchical clustering, and it can be efficiently solved in parallel with the ADMM (alternating direction method of multipliers) method. We apply the isometric logratio (ilr) transformation to represent the parts with orthonormal coordinates with respect to the Aitchison geometry. It is then shown that the convex clustering algorithm on the ilr-transformed data performs much more accurately than clustering directly on the untransformed compositional data. The algorithm is further tested on a real-world dataset to illustrate the interpretability of the results from convex clustering method on compositional data.

Année universitaire 2018/2019

  • Vendredi 26 Octobre 2018 Variable selection for model-based clustering par Matthieu Marbac-Lourdelle (Ensai)

pdf de la présentation

Résumé : We present two approaches for selecting variables in latent class
analysis. The first approach consists in optimizing the BIC with a
modified version of the EM algorithm. This approach simultaneously
performs both model selection and parameter inference. The second approach
consists in maximizing the MICL, which considers the clustering task, with
an algorithm of alternate optimization. This approach performs model
selection without requiring the maximum likelihood estimates for model
comparison, then parameter inference is done for the unique selected
model. Thus, both approaches avoid the computation of the maximum
likelihood estimates for each model comparison. Moreover, they also avoid
the use of the standard algorithms for variable selection which are often
suboptimal (e.g. stepwise method) and computationally expensive. The case
of data with missing values is also discussed. The interest of both
proposed criteria is shown on an application in human population genomics
problem. Data set describes 1300 patients by 160000 variables.

  • Vendredi 7 Décembre 2018 spatial functional linear model par Tingting Huang (Beihang University)

pdf de la présentation

Résumé : The well known functional linear regression model (FLM) has been developed under the assumption that the observations are independent. However, the
independence assumption may be often violated in practice, especially when we collect data with network structure coming from various fields such as marketing, sociology or spatial economics. We present a new spatial functional linear model (SFLM), incorporating a spatial autoregressive parameter and a spatial weight matrix in FLM to accommodate spatial dependence among individuals. The proposed model is flexible as it takes advantages of FLM in dealing with high dimensional covariates, and of spatial autoregres-
sive model (SAR model) in capturing network dependence. An estimation method based on functional principal components analysis (FPCA) and maximum likelihood estimation is also developed. The simulation studies show that our method performs as well as FPCA-based method for FLM when there is no network structure and outperforms the latter when there exists a network structure. A real dataset of weather data is also employed to demonstrate the utility of SFLM. 

  • Vendredi 11 Janvier 2019 Modèles d’urnes, algorithmes de descente de gradient : systèmes en interaction par Pierre-Yves Louis (Université de Poitiers)

Résumé : les modèles d’urnes (Polya, Friedman) sont bien connus pour être au fondement de nombreuses applications, comme par exemple le design d’essais cliniques. Les algorithmes de descente de gradient sont essentiels à de nombreuses méthodes en analyse de données et apprentissage statistique. Ces deux types de dynamiques aléatoires possèdent une importante caractéristique de renforcement dont nous étudierons l’effet dans le cadre de différents systèmes en interaction. Nous présenterons différents théorèmes limites en temps long et leurs conséquences statistiques et pratiques. L’intérêt de ces modèles pour l’étude de dynamiques d’opinion sur des graphes aléatoires sera également expliqué.

  • Vendredi 1 Février 2019 Théorie des valeurs extrêmes et estimation de mesures de risque par Jonathan El Methni (Université de Paris V)

pdf de la présentation

Résumé : In this presentation, we build simple extreme analogues of Wang distortion risk measures and we show how this makes it possible to consider many standard measures of extreme risk, including the usual extreme Value-at-Risk or Tail-Value-at-Risk, as well as the recently introduced extreme Conditional Tail Moment, in a unified framework. We then introduce adapted estimators when the random variable of interest has a heavy-tailed distribution and we prove their asymptotic normality. The finite sample performance of our estimators is assessed in a simulation study and we showcase our techniques on a real dataset.

  • Vendredi 1 Mars 2019 Analyse de données compositionnelles par scission du graphe des composants. Applications en biologie, en particulier à la qRT-PCR par Emmanuel Curis (Université Paris-Descartes)

pdf de la présentation

Résumé : Les données compositionnelles sont fréquentes en biologie, parfois de façon implicite : décomposition d’une image en tissus,
sous-populations cellulaires, données de quantification d’ARN ou de
protéines… Souvent, ce caractère compositionnel est ignoré. Pourtant,
il induit des corrélations entre les divers constituants mesurés et
rend délicate l’interprétation des évolutions des quantités de ces
constituants entre deux, ou plusieurs, conditions expérimentales.
Bien qu’il existe des méthodes dédiées à ce type de données, par
exemple fondées sur des transformations (centered log ratio, isometric
log ratio), la majorité de ces méthodes répondent à la question d’une
évolution globale de la composition, sans permettre de remonter aux
évolutions de chaque constituant. Pourtant, c’est cette dernière
information qui intéresse, le plus souvent, les biologistes.

Nous proposons une méthode qui, tout en tenant compte du caractère
compositionnel des données, permet de reconstruire des groupes de
constituants qui se comportent de façon homogène. Cette méthode est
fondée sur la construction d’un graphe dont les nœuds sont les
composants quantifiés et les composantes les groupes cherchés. Elle
sera présentée au travers d’applications à divers exemples
biologiques, avec un regard particulier aux expériences de
quantification d’ARN (qRT-PCR et, dans une moindre mesure, RNA-Seq).

  • Vendredi 5 Avril 2019 Handling heterogeneity in Quantile Regression par Cristina Davino (Université de Naples Federico II)

pdf de la présentation

Résumé : Quantile regression (QR), introduced by Koenker and Basset in 1978, can be considered the extension of ordinary least squares (OLS) to the estimation of a set of conditional quantile functions. QR offers a complete view of a response variable providing a method for modelling the rates of changes at multiple points (conditional quantiles) of its conditional distribution (Koenker, 2005 ; Davino et al., 2013) without requiring assumptions on the errors. Although different functional forms can be used, the seminar deals only with linear regression models. The parameter estimates in QR linear models have the same interpretation as those of any other linear model. As a consequence, the estimated values of the response variable conditioned to given values of the regressors, reconstruct the conditioned quantile of the dependent variable. QR represents a considerable alternative to OLS in case of heteroscedastic relationships, presence of outliers and a skewed dependent variable.

The seminar will be structured into two parts. The first part will deal with a description of the main features of QR : estimation, inference, properties and assessment. In the second part, a recent contribute of Cristina Davino will be presented : Quantile Regression potentialities will be exploited to analyze group effects in a dependence model, namely to handle heterogeneity among units both in the presence of a known group structure and when the heterogeneity is unobserved. In many real data applications, statistical units belong to different groups and statistical models should be tailored to incorporate and exploit this heterogeneity among units. It is a matter of fact that if two units have similar features/behaviours or belong to the same group of a stratification variable, the dependence structure of a regression model is more alike.

  • Vendredi 3 Mai 2019 Kernel regression estimation with functional predictor with values in a finite dimensional Riemannian submanifold par Anne-Françoise Yao (Université Clermont Auvergne)

Résumé : Let Z i =( X i , Y i ) , i=1,...,n be a sequence of random variables, independent identically distributed (i.i.d.) as a variable Z=( X,Y ) where Y and X are respectively real random and with values in a space of functions E . This talk deals with the problem of kernel estimation of the regression function of Y given X . Namely, I will give some asymptotic results about the classical Nadaraya-Watson in the context where X is with values in a finite dimensional Riemannian submanifold of a Hilbert space. I will illustrate my purpose through some simulations and real data applications which compare the behavior of this estimator in both cases : the classical case where E = L 2 ( [ a,b ] ) and the one where E is Riemannian submanifold this L 2 ( [ a,b ] ) .

  • Vendredi 24 Mai 2019 Mélange d’analyses factorielles dynamiques pour la classification de données de panel par Allou Same (IFSTTAR)

pdf de la présentation

Résumé : Dans certains domaines applicatifs, les données disponibles décrivent le comportement de plusieurs entités au cours du temps. Ces données, souvent dites de panel, sont caractérisées, à chaque instant de mesure, par un échantillon d’observations potentiellement multivariées voire fonctionnelles. Cet exposé sera focalisé sur la classification et la réduction de dimension de ce type de données, dans le sens où les classes évoluent au cours du temps via des facteurs latents de faible dimension. Le mélange de modèles en facteurs dynamiques, que nous avons proposé dans cette optique, sera décrit dans l’exposé. Ce modèle a l’avantage de pouvoir être exploité aussi bien pour décrire de manière synthétique les données que pour prévoir le comportement futur des classes. La stratégie variationnelle qui a été retenue pour réaliser l’inférence de ce modèle sera également présentée. La spécificité de celle-ci réside dans l’exploitation, à chaque itération, d’une version pondérée du filtre de Kalman et de projections locales des données. Afin de pouvoir traiter plus rapidement de grandes quantités de données, une variante séquentielle de cet algorithme variationnel sera également examinée. L’exposé s’achèvera par l’application de la méthode proposée sur différents jeux de données, y compris des données de panel issues de smart grids.

  • MARDI 18 Juin 2019 Confirmatory Composite Analysis par Florian Schuberth (University of Twente)

pdf de la présentation

Résumé : We introduce confirmatory composite analysis (CCA) as a sub-type of structural equation modeling
that aims at testing composite models. CCA entails the same steps as confirmatory factor
analysis : model specification, model identification, model estimation, and model testing. Composite
models are specified such that they consist of a set of interrelated theoretical constructs,
all of which emerge as linear combinations of observed variables. Researchers must ensure
theoretical identification of their specified model. For the estimation of the model, several estimators
are available ; in particular Kettenring’s extensions of canonical correlation analysis and
partial least squares path modeling provide consistent estimates. Model testing relies on the
Bollen-Stine bootstrap to assess the discrepancy between the empirical and the model-implied
correlation matrix. A Monte Carlo simulation examines the efficacy of CCA, and demonstrates
that CCA is able to detect various forms of model misspecification.

Année universitaire 2017/2018

  • Vendredi 29 septembre 2017 Vincent Audigier (Cnam, équipe MSDMA)

Contributions à la gestion des données manquantes par imputation multiple

pdf de la présentation

Résumé : Les données manquantes sont fréquentes dans la pratique statistique.
Elles sont problématiques car la plupart des méthodes ne peuvent pas être appliquées
sur un jeu de données incomplet. Une solution classique pour gérer les données manquantes
consiste à recourir à l’imputation multiple. On distingue généralement deux grandes familles
de méthodes d’imputation multiple : les méthodes par modèle joint,
reposant sur l’hypothèse d’une distribution multivariée, commune à l’ensemble des variables,
et les méthodes par imputation séquentielle, qui consistent à spécifier une distribution
conditionnelle pour chaque variable du jeu de données.

Dans un premier temps, nous expliquerons comment les méthodes d’analyse factorielle
peuvent être utilisées pour proposer des méthodes d’imputation innovantes par modèle joint.
En particulier, nous présenterons une méthode d’imputation multiple dédiée aux données qualitatives,
basée sur l’analyse des correspondances multiples (ACM). La variabilité de prédiction des données manquantes
y est reflétée via un bootstrap non-paramétrique. L’imputation multiple par ACM offre une réponse
au problème de l’explosion combinatoire limitant les méthodes concurrentes
dès lors que le nombre de variables ou de modalités est élevé.

Dans un second temps, nous nous intéresserons à l’imputation des données manquantes
pour des données provenant de différentes études. Ce type de données est très spécifique
dans la mesure où d’une part les données sont structurées sur deux niveaux
(l’individu au premier, l’étude au second) ce qui nécessite des modèles d’imputation adaptés ;
d’autre part, d’une étude à l’autre les variables collectées ne sont pas nécessairement les mêmes,
ce qui conduit à des données manquantes très particulières appelées ``données systématiquement manquantes’’.
Nous présenterons notamment de nouvelles méthodes d’imputation multiple séquentielles dédiées
à ce type de données et comparerons leurs propriétés d’un point de vue théorique et via une étude par simulation.

  • Vendredi 27 octobre 2017 Robin Genuer (Univ. Bordeaux)

Random Forests for Big Data

pdf de la présentation

Big Data is one of the major challenges of statistical science and has numerous consequences from algorithmic and theoretical viewpoints. Big Data always involve massive data, but they also often include online data and data heterogeneity. Recently some statistical methods have been adapted to process Big Data, like linear regression models, clustering methods and bootstrapping schemes. Based on decision trees combined with aggregation and bootstrap ideas, random forests were introduced in 2001. They are a powerful nonparametric statistical method allowing to consider in a single and versatile framework regression problems, as well as two-class and multi-class classification problems. Focusing on classification problems, available proposals that deal with scaling random forests to Big Data problems are selectively reviewed. These proposals rely on parallel environments or on online adaptations of random forests. We also describe how the out-of-bag error is addressed in these methods. Then, we formulate various remarks for random forests in the Big Data context. Finally, we experiment five variants on two massive datasets, a simulated one as well as a real-world dataset. These numerical experiments lead to highlight the relative performance of the different variants, as well as some of their limitations.

  • Vendredi 24 Novembre 2017 François-Xavier Jollois (Paris Descartes)

Co-clustering de données fonctionnelles

pdf de la présentation

Suite au développement récent des compteurs intelligents, les opérateurs d’électricité sont aujourd’hui en mesure de collecter des
données sur la consommation électrique de manière large et fréquente. C’est notamment le cas en France où EDF pourra bientôt enregistrer à
distance la consommation de ses 27 millions de clients toutes les 30 minutes. Nous proposons dans ce travail une nouvelle méthodologie de
co-clustering, basée sur le modèle de bloc latent fonctionnel (funLBM), qui permet de construire des "résumés" de ces données de
grande consommation par co-clustering. Le modèle funLBM étend le modèle de bloc latent habituel au cas fonctionnel en supposant que les
courbes d’un bloc vivent dans un sous-espace fonctionnel de faible dimension. Ainsi, funLBM est capable de modéliser et de regrouper un
grand ensemble de données avec des courbes à haute fréquence. Un algorithme SEM-Gibbs est proposé pour l’inférence de modèle. Un
critère ICL est également dérivé pour résoudre le problème du choix du nombre de groupes de lignes et de colonnes. Des expériences numériques
sur des données Linky simulées et originales montrent l’utilité de la méthodologie proposée.

  • Vendredi 22 Décembre 2017 Kaniav Kamary (Cnam, équipe MSDMA)

Bayesian model selection for computer code validation via mixture estimation model

pdf de la présentation

When numerical codes are used for modeling the complex
physical systems, the unknown computer model parameters are tuned
by calibration techniques. A discrepancy function is added to the computer code in order to capture model discrepancy that is eventually
caused due to other inaccuracies of the computer model than the calibration parameters. While both model parameter and discrepancy
are sources of model uncertainty, distinguishing the effects of the two
sources can be challenging. By using a Bayesian testing procedure based on intrinsic Bayes factor, (Damblin et al., 2016) highlighted a confounding effect between the code discrepancy and a linear computer code.We illustrate this identifiability problem with several examples by applying another Bayesian model selection technique via mixture estimation model, developed by Kamary et al. (2014).

  • Vendredi 19 Janvier 2018 Marie Milliet de Faverges (CNAM, équipe OC, SNCF)

Modélisation des retards de trains pour la robustesse des opérations en gare

pdf de la présentation

Les gares sont des points critiques du réseau : une importante partie du retard y est créée, ce qui perturbe fortement la faisabilité des planifications. Le routage des trains en gare est en particulier une tâche complexe en raison du nombre de trains en circulation et des différentes contraintes de sécurité et de ressources. Des retards, même minimes, peuvent compromettre le routage, ce qui peut nécessiter de rerouter ou de retarder des trains pour retourner en situation nominale. Produire des planifications robustes, c’est-à-dire permettant d’absorber les petites perturbations, est un enjeu important. Nous proposons ici une modélisation des retards des trains arrivant en gare afin de fournir des solutions robustes anticipant les retards prévisibles.
Les retards de trains sont classiquement modélisés par des lois de la famille exponentielle, en particulier la loi de Weibull, ce qui est conforme à nos observations. Nous utilisons ici des modèles linéaires généralisés, qui nous permettent d’estimer pour chaque train les paramètres de la loi Weibull et donc de connaître sa probabilité de retard. Nous présenterons les résultats actuels, discuterons des avantages et inconvénients de ce modèle et étudierons les différentes pistes pour l’intégration à des modèles de recherche opérationnelle ferroviaire.

  • Vendredi 16 Février 2018 Stanley Lemeshow (Ohio State University)

Assessing Calibration of Logistic Regression Models : Beyond the Hosmer-Lemeshow Goodness-of-Fit Test

pdf de la présentation

The Hosmer-Lemeshow Goodness of Fit Test has become the standard method for assessing calibration for binary logistic regression models. However, this method breaks down when models are developed from extremely large data sets. In this talk I will discuss options for assessing model performance in these situations including modifying the number of groups used and a new method called “Calibration Belts”.

  • Vendredi 16 Mars 2018 Arthur Tenenhaus (CentraleSupelec)

Regularized Generalized Canonical Correlation Analysis as general framework for Structured data analysis

pdf de la présentation

The challenges related to the use of massive amounts of data include identifying the relevant variables, reducing dimensionality, summarizing information in a comprehensible way and displaying it for interpretation purposes. Often, these data are intrinsically structured in blocks of variables, in groups of individuals or in tensor. Classical statistical tools cannot be applied without altering their structure leading to the risk of information loss. The need to analyze the data by taking into account their natural structure appears to be essential but requires the development of new statistical techniques. In that context a general framework for structured data analysis based on Regularized Generalized Canonical Correlation Analysis (RGCCA) will be presented.

  • Vendredi 30 Mars 2018 Taerim Lee (Korea National Open University)

Mobile e-Book for BITEC Learner & K-12 Data Analysis In the Big Data era

pdf de la présentation

This project promotes the implementation of mobile e-Book initiative in Bioinformatics Training & Education Center (BITEC) supported from Korean Ministry of Health and Welfare and for training K-12 data analysis in the big data era. Each were 5 years projects co-work together Seoul National University Medical College and this is the last year of this project and we build up KNOU OER LMS system for nationwide medical doctors and data scientist too. The leaders of this mobile e-Book initiative for Life Long Learning are KNOU, only one National Open University in Korea, SNU Medical College renowned university in Korea & KSS. Despite that mobile delivery of courses in higher education graduate level is yet rare, KNOU with the 45 years of long distance education experience and know-hows has expanded the scope of mobile learning for training medical doctors with e-Book and multimedia lecture available using their cellular phones.
Using ICT the world becoming closely connected and mobile e-Stat data analysis system will be an easy accessible educational media for training data analysis for K-12 in the era of big data, with an estimated 95% of the global population living in an area covered by at least a basic mobile cellular network. Global learner have access to the internet and it is expected to continue to rise as more and more open and distance learners, LLL learners come online. E-Stat free version translated in Japanese, Chinese and English too. The rapid growth in broadband access and usage, driven by mobile broadband technologies, has fostered the development of a mobile e-book for training open & distance connected learner.
The high penetration rates of mobile phone subscriptions and the rapid growing of handheld users transform higher education and K-12 education through digitally supported learning & teaching for learner. The BITEC m-Learning initiative focuses on introducing Bioinformatics and Data Analysis using handheld devices to be made easily accessible for medical doctors on the field and open up ubiquitous learning environment. Lesson learned from this initiative is that the mobile e-Book could be the most affordable, accessible and flexible educational media. Consequently, more accessible tertiary education will meet the demands of population that did not have the time and place for such learning.

  • Vendredi 20 Avril 2018 Pierre-Alexandre Mattei (University of Copenhagen)

Deep latent variable models

pdf de la présentation

Deep latent variable models combine the approximation abilities of deep neural networks and the statistical foundations of generative models. The induced data distribution is an infinite mixture model whose density is extremely delicate to compute. Variational methods are consequently used for inference, following the seminal work of Rezende, Mohamed, and Wierstra (ICML 2014) and Kingma & Welling (ICLR 2014). We will provide a general review of these models and techniques, viewed from a statistical perspective. In particular, we will study the well-posedness of the exact problem (maximum likelihood) these variational approaches approximatively solve. We show that most unconstrained models used for continuous data have an unbounded likelihood. This ill-posedness and the problems it causes are illustrated on real data. We also show how to insure the existence of maximum likelihood estimates, and draw useful connections with nonparametric mixture models. Furthermore, we describe an algorithm that allows to perform missing data imputation using the exact conditional likelihood of a deep latent variable model. On several real data sets, our algorithm consistently and significantly outperforms the usual imputation scheme used within deep latent variable models.

  • Vendredi 18 Mai 2018 Paola Brito (Université du Portugal)

Analyse multivariée de données histogrammes

pdf de la présentation

En Statistique classique et en Analyse des Données Multivariées, les données sont habituellement représentées dans un tableau, où chaque ligne représente une unité statistique ou “individu”, pour lequel une valeur unique est enregistrée pour chaque variable quantitative ou qualitative (en colonnes). Mais cette représentation est trop restrictive quand les données à analyser comprennent de la variabilité. C’est le cas quand les unités sous analyse ne sont pas des éléments individuels, mais des groupes formés sur la base de propriétés communes. Alors, pour chaque variable descriptive, la variabilité observée dans chaque groupe doit être prise en compte, à fin d’éviter une trop importante perte d’information pertinente. Dans ce but, de nouveaux types de variables ont été introduits, dont les réalisations ne sont pas des valeurs ou des catégories uniques, mais des ensembles, des intervalles, ou, plus généralement, des distributions sur un domaine donné. L’Analyse de Données Symboliques propose un cadre pour la représentation et analyse de telles données, prenant en compte sa variabilité intrinsèque.
Dans cette présentation, on s’intéresse aux données numériques décrites par des distributions empiriques, connues sous le nom de données histogramme. On introduit des représentations alternatives d’observations histogramme, et on considère des statistiques descriptives et des distances. Des méthodes pour l’analyse multivariée de ce type de données seront présentées, qui permettent de prendre en compte la variabilité exprimée dans sa représentation.

  • Vendredi 22 juin 2018 Christophe Ambroise (Université d’Évry)

Une approche hiérarchique de la recherche d’interactions entre données omiques

pdf de la présentation

Les études d’association visent à mettre en évidence une association statistique entre des marqueurs biologiques
et un phénotype donné. Dans ce travail, deux types de marqueurs biologiques sont considérés : les marqueurs
génétiques et les marqueurs métagénomiques. Afin de mettre en évidence des relations entre environnement et génome dans l’expression d’un phénotype, nous nous concentrons sur la détection d’interactions statistiques entre des groupes de marqueurs métagénomiques et génétiques. Le but étant d’identifier des termes d’interactions significatifs dans un modèle de régression linéaire à 2 variables avec interactions. La méthode proposée consiste en premier lieu à réduire la dimension de l’espace de recherche en sélectionnant un sous-ensemble de groupes de variables dans les deux ensembles de données pour ensuite les agrégée afin de former un nouvel ensemble de variables compressées. Cette
étape de réduction de dimension combine une classification hiérarchique, permettant de définir les groupes de variables, et une procédure Lasso sélectionnant les variables compressées pertinentes. Les effets d’interactions entre les deux nouveaux ensembles sont ensuite estimés avec une procédure de tests multiples classiques.

Année universitaire 2016/2017

  • Vendredi 18 novembre 2016

Matthieu Saumard, ATER au CNAM, nous a présenté un exposé intitulé
Two applications of functional data

  • Vendredi 13 janvier 2017 Blaise Hanczar, Professeur à Evry

Controlling the cost of prediction in using a cascade of reject classifiers for personalized medicine

The supervised learning in bioinformatics is a major tool to diagnose a disease, to identify the best therapeutic strategy or to establish a prognostic. The main objective in classifier construction is to maximize the accuracy in order to obtain a reliable prediction system. However, a second objective is to minimize the cost of the use of the classifier on new patients. Despite the control of the classification cost is high important in the medical domain, it has been very little studied. We point out that some patients are easy to predict, only a small subset of medical variables are needed to obtain a reliable prediction. The prediction of these patients can be cheaper than the others patient. Based on this idea, we propose a cascade approach that decreases the classification cost of the basic classifiers without dropping their accuracy. Our cascade system is a sequence of classifiers with rejects option of increasing cost. At each stage, a classifier receives all patients rejected by the last classifier, makes a prediction of the patient and rejects to the next classifier the patients with low confidence prediction. The performances of our methods are evaluated on four real medical problems.

  • Vendredi 24 Février 2017 Rafael José González De Gouveia , CIMAT (Mexico)

Topological tools for Data Analysis

This talk will be an introduction to Topological Data Analysis (TDA) and some tools will be presented to study topological features of a point cloud. TDA provides a framework to analyze data in a way that is insensitive to a particular metric. The intuition is to study the shape of the data. It is an approach to analyze data using techniques from topology, namely Persistent Homology. Persistent Homology allows us to compute topological features from the data set in different spatial resolutions using simplicial complexes. TDA combine algebraic topology to study the Betti numbers of a data set, a point cloud. Betti numbers count topological structure of data, such as connected components, loops, and voids. The Persistent diagrams and Bar Codes will be presented to asses the shape of the data.

  • Vendredi 17 mars 2017 Yuan Wei (Beihang University, Beijing)

Interval-valued Data Regression using Partial Linear Model

Semi-parametric modeling of interval-valued data is of great practical importance, as exampled by applications in economic and financial data analysis. We propose a flexible semi-parametric modeling of interval-valued data by integrating the partial linear regression model based on the Center & Range method, and investigate its estimation procedure. Furthermore, we introduce a test statistic that allows one to decide between a parametric linear model and a semi-parametric model, and approximate its null asymptotic distribution based on wild Bootstrap method to obtain the critical values. Extensive simulation studies are carried out to evaluate the performance of the proposed methodology and the new test. Moreover, several empirical datasets are analyzed to document its practical applications.

  • Vendredi 21 avril 2017 Antoine CORNUEJOLS (AgroParisTech)

L’apprentissage par transfert : une nouvelle approche basée sur un type original de boosting

L’exposé présentera d’abord le problème de l’apprentissage par transfert avec un bref état de l’art et les embryons existants de théorie. Nous introduirons ensuite une nouvelle approche fondée sur du boosting de projections entre l’espace cible et l’espace source. L’algorithme sera expliqué et illustré sur une application de classification de séries temporelles.
Nous terminerons par une analyse théorique de cette nouvelle méthode : quelles garanties de performance sur l’apprentissage peut-on obtenir ? Comment choisir l’espace des projections, et comment contrôler le risque de « sur-transfert » ? Quels liens peut-on établir avec d’autres approches théoriques comme par exemple : (i) le scénario d’apprentissage avec informations privilégiées proposé récemment par Vapnik, (ii) le calcul de la capacité d’un canal de transmission entre source et cible, et (iii) la recherche en avant dans les algorithmes de jeux.
Rq : Il est important de souligner qu’il s’agit d’un travail en cours (work in progress), et que l’interaction avec les auditeurs est vivement souhaitée.

Année universitaire 2015/2016

  • Jeudi 3 décembre 2015

RAUL ANDRES TORRES DIAZ, Doctorant du "Statistics Department", Universidad Carlos III de Madrid, en séjour de recherche de trois mois au sein de l’Equipe Méthodes Statistiques de Data Mining et Apprentissage, Laboratoire CEDRIC, CNAM, nous a présenté un exposé intitulé :
Multivariate extreme value analysis under a directional approach

Année universitaire 2014/2015

  • Jeudi 11 Juin 2015

Charantonis Anastase Alexandre, Post-doc au CEDRIC nous a présenté un exposé intitulé : Modélisation statistique de l’environnement : Réduction par classifications

  • Jeudi 21 Mai 2015

Véronique Maume-Deschamps, Professeure à L’IFSA Lyon1 nous a présenté un exposé intitulé : Global sensitivity analysis and quantification of uncertainty

  • Jeudi 5 Mars 2015

Giuseppe Giordano, Professeur à l’Université de Salerne ; Italie nous a présenté un exposé intitulé : Multidimensional Techniques for Social Network Data- Partie1 Partie2

  • Jeudi 19 février 2015

Didier Rullière, ISFA, Université Lyon1 nous a présenté un exposé intitulé : Non parametric estimation of Archimedean copulas and tail dependence

  • Jeudi 22 janvier 2015

Jean-Pierre Gauchi, chargé de recherche INRA nous a présenté un exposé intitulé : Plans d’expériences pour modèles non linéaires :
des problématiques et des challenges en biologie

  • Jeudi 11 décembre 2014

Rémi Servien, chargé de recherche INRA nous a présenté un exposé intitulé : "Identification et quantification de métabolites dans un spectre RMN"

  • Jeudi 13 novembre 2014

Avner Bar-Hen, Professeur à l’université de Paris Descartes
nous a présenté un exposé intitulé : "Analyse statistique des profils et de l’activité des participants d’un MOOC "

Année universitaire 2013/2014

  • Mardi 1er avril 2014

Francisco de A.T. de Carvalho, Professeur à l’université de Recife
- Brésil
nous présentera en salle 17.1.16 un exposé intitulé :
« Batch SOM Algorithms for Interval-Valued Data with Automatic Weighting of the Variables »

  • Mercredi 5 mars 2014

Jules de TIBEIRO, Professeur à l’Université de Moncton, New-Brunswick, Canada. nous a présenté un exposé intitulé :
« Graph Partitioning by Correspondence Analysis and Taxicab Correspondence Analysis »

  • Mercredi 22 janvier 2014

Mory Ouattara, doctorant département IMATH-CNAM nous a présenté un exposé intitulé : Une méthode de soft subspace clustering basée sur les cartes topologiques pour données multiblocs et une méthode de recherche de consensus de partitions

  • Mercredi 11 décembre

Le Professeur Francesco Palumbo - Université de Naples -
https://www.docenti.unina.it/francesco.palumbo
nous a présenté un exposé intitulé Prototyping through Archetypal Analysis : looking at data from a different perspective

  • Lundi 25 novembre

Le Professeur Eric D ; Kolaczyk - Université de Boston -
http://math.bu.edu/people/kolaczyk/
nous a présenté un exposé intitulé Estimating Network Degree Distributions from Sampled Networks : An Inverse Problem

  • Mercredi 13 novembre

Françoise Soulié Fogelman, consultante nous a présenté un exposé intitulé Utilisation des réseaux sociaux pour le data mining
présenté par

  • Mercredi 9 octobre

Le Professeur Alfred Hero - University of Michigan Ann Arbor -
http://web.eecs.umich.edu/~hero/
nous a présenté un exposé intitulé Kronecker PCA

  • Jeudi 19 septembre

Un séminaire commun CNAM-ESCP Europe - Statistique et modélisation - s’est tenu à l’ESCP sur le thème Données de panels : Approches méthodologiques et applications au management

  • Mardi 10 septembre

En collaboration avec la société SIGMA PLUS s’est tenu un séminaire au sujet de l’analyse de données textuelles présenté par
Normand Péladeau, Président de Provalis Research

Année universitaire 2012/2013

  • Mercredi 12 juin

Anne Bernard, Doctorante département IMATH CNAM nous a présenté un exosé intitulé « Analyse en Composantes Principales Sparse pour données multiblocs et extension à l’Analyse des Correspondances Multiples Sparse »

  • Mercredi 22 mai

Hervé Abdi Professor in the School of Behavioral and Brain Sciences at The University of Texas at Dallas nous a présenté un exposé intitulé : Approches Multi-Tableaux pour l’Analyse des Données de Connectivité Cérébrale

  • Mercredi 17 avril

Le Professeur Heungsun Hwang, Department of Psychology, McGill University nous a présenté une conférence intitulée :
“Generalized structured component analysis :
A component-based approach to structural equation modeling”

  • Mercredi 3 avril

Pierre Goovaerts, Chief Scientist at BioMedware Inc,
Courtesy Associate Professor University of Florida,

nous a présenté une conférence intitulée
"The role of Geostatistics in Environmental Epidemiology"

  • Mercredi 20 février

Elena di Bernardino, Maître de conférences au département Imath du CNAM, nous a présenté une conférence intitulée : Distortions of multivariate risk measures : a level-sets based approach

Résumé

  • Mercredi 16 janvier

Julie Josse, Maître de conférences au laboratoire de mathématiques appliquées d’Agrocampus Ouest, centre de Rennes, nous a présenté une conférence intitulée : Visualisation de données par ACP régularisée

Résumé
Exposé

  • Mercredi 12 décembre

Marc CHRISTINE, INSEE, direction de la Méthodologie et de la coordination statistique et internationale, nous a présenté une conférence intitulée

Méthodes d’agrégation d’unités statistiques sous contrainte de contiguïté

  • Mercredi 21 novembre

Fabrice ROSSI, Professeur à l’université Paris 1, exerce sa recherche au sein du SAMM. Il y est responsable de l’axe de recherche Apprentissage Statistique et Réseaux.

Il nous a présenté une conférence intitulée : Un modèle par blocs pour la classification de graphes temporels

Année universitaire 2011/2012

  • Mercredi 20 juin 2012

Georges Hébrail, Chercheur senior EDF R&D, a présenté une conférence intitulée Gestion et fouille de données dans les Smart Grid

  • Lundi 16 avril 2012

Jason Fine, Professeur aux département de biostatistique et au département de Statistique de l’université de Caroline du Nord à Chapel Hill a présenté une conférence intitulée Screening for osteoporosis for postmenopausal women : a case study in interval censored competing risks

  • Mercredi 21 mars 2012

Julie Séguéla, Doctorante CNAM département IMATH, a présenté une conférence intitulée Text mining et système de recommandation pour les offres d’emploi diffusées sur le web

  • Mercredi 1er février 2012

Laura Trinchera Maître de conférences AgroParisTech a donné une conférence intitulée :
« Latent Class detection in Path Modeling : the REBUS-PLS algorithm »

  • Mercredi 18 janvier 2012

Matthieu Montes, Maître de conférences en Bioinformatique au CNAM a présenté l’exposé :
« Virtual screening methods in drug discovery : designing Protein Protein Interactions inhibitors »

  • Mercredi 14 décembre 2011

Hervé Abdi, Professeur à l’université du Texas à Dallas a donné une conférence intitulée :
Les problèmes statistiques de la mise en relation du génome et du comportement

  • Mercredi 16 novembre 2011

Ismaïl Ahmed, Chercheur à l’INSERM a donné une conférence intitulée :
Détection automatique de signaux en pharmacovigilance : Approche statistique fondée sur les comparaisons multiples.
Résumé

  • Mercredi 19 octobre 2011

Aurélien Latouche, Professeur de Biostatistique au CNAM, a donné une conférence intitulée :
Estimation de l’aire sous la courbe Roc en présence de censure

Année universitaire 2010/2011

  • Mercredi 15 juin 2011

Furio Camillo Professeur à l’université de Bologne, invité au département Ingénierie mathématique du CNAM a donné une conférence intitulée « A multivariate new promising approach for assessing balance of categorical covariates and measuring local effects in observational studies using the “potential outcome” frame »

  • Mercredi 4 mai 2011

Giorgio Russolillo Chercheur au CEDRIC (CNAM) au sein de l’équipe MSDMA (Méthodes statistiques de data-mining et apprentissage) a donné une conférence intitulée
« Algorithmes PLS pour l’analyse en composantes principales (ACP) ; régression sur composantes PLS et modèles structurels prédictifs : connexion et extension non-métrique. »

  • Mercredi 6 avril 2011

Guénaël Cabanes Chercheur au Laboratoire d’Informatique de Paris-Nord (LIPN) Institut Galilée - Université Paris-Nord a donné une conférence intitulée « Classification non supervisée à deux niveaux guidée par le voisinage et
la densité
 »

La conférence aura lieu salle 17.2.07 au CNAM le 6 avril de 14h à 15h.

  • Résumé :

"Notre travail de recherche concerne le développement d’approches à base de Cartes Auto-Organisatrices (SOM) pour la découverte et le suivi de structures de classes dans les données par apprentissage non supervisé (clustering). Nous avons proposé une méthode de clustering à deux niveaux simultanés (DS2L-SOM). Cette méthode se base sur l’estimation, à partir des données, de valeurs de connectivité et de densité des prototypes de la SOM. Ces valeurs sont utilisées pour effectuer une classification des données. Le nombre de clusters est détecté automatiquement. De plus, la complexité est linéaire selon le nombre de données. Nous montrons qu’il est relativement simple et efficace d’adapter DS2L-SOM aux variantes de l’algorithme SOM, de façon à obtenir une méthode très polyvalente capable par exemple d’analyser différents types de données. Par ailleurs, nous avons proposé une nouvelle méthode de description condensée de la distribution des données, ainsi qu’une mesure heuristique de similarité entre ces modèles. Ces algorithmes se basent sur une estimation de la densité sous-jacente des données pendant l’apprentissage d’une SOM modifiée. La qualité de la description obtenue et de la mesure de comparaison est validée sur un ensemble de jeux de données artificiels et réels. Les propriétés de ces algorithmes rendent possible l’analyse de grandes bases de données, y compris de grands flux de données, qui nécessitent à la fois vitesse et économie de ressources. Il est en effet possible de combiner l’algorithme de clustering à la mesure de similarité entre distributions pour l’analyse de données évolutives."

  • Mercredi 23 mars 2011

Mr Mohamed Hanafi chercheur de l’Unité de Recherche en Sensométrie et Chimiométrie, ONIRIS, Ecole Nationale Vétérinaire, Agroalimentaire et de l’alimentation, Nantes-Atlantique,
donnera une conférence intitulée « Analyse des données structurées en blocs : généricité des données, polymorphisme des méthodes et questions émergentes »

La conférence aura lieu Amphi A Fabry-Perrot au CNAM le 23 mars de 10h45 à 12h.

  • Résumé :
    Comme le souligne le titre, la présente communication s’inscrit dans le cadre de
    l’analyse des données structurées en blocs. Ces données multidimensionnelles sont appelées également « tableaux multiples ou multiblocs ». Les situations pratiques qui conduisent à l’acquisition des données structurées en blocs sont abondantes dans des domaines aussi variés que l’agroalimentaire, la chimie analytique, l’écologie, la biologie intégartive...On cite ici à titre d’exemple, les données qui se présentent sous la forme d’un tableau individus*variables où les variables sont organisées en plusieurs blocs.
    Aujourd’hui, on peut affirmer que l’accès aux données structurées en blocs
    ne pose réellement pas de problème. Les enjeux actuels se situent davantage au niveau de la conception d’une méthodologie adaptée pour une meilleure exploitation de ces données.
    Partant d’une synthèse des travaux les plus significatifs et des
    contributions les plus récentes en méthodologie d’analyse des données structurées en blocs, la présente communication vise à :
     introduire une définition générique des données structurées en blocs.
    Cette généricité sera déclinée par une présentation détaillée du panorama des données structurées en blocs à partir d’exemples dans différents domaines d’application.
     montrer que la méthodologie s’articule sur deux concepts anciens : rang et variable latente. En particulier, le rang d’un tableau partitionnée sera introduit et la notion de polymorphisme de méthodes sera discutée.
     analyser la généricité des algorithmes pour la détermination des paramètres des méthodes. En particulier, un algorithme général sera introduit et ses propriétés numériques seront discutées.
     En plus des situations pratiques et des résultats théoriques qui seront évoqués tout au long de la présentation, des questions émergentes pour la
    modélisation des systèmes complexes (approches multi échelles, approches intégratives) viendront conclure cette communication.

Mme le professeur Taerim LEE de la Korea National Open University de Séoul donnera deux exposés :

Année universitaire 2009/2010

  • 6 mai 2010 de 9h00 à 17h15 : CNAM, Amphi Abbé Grégoire, 292 rue saint Martin, 75003 Paris

Troisième Journée sur les Analyses de Tableaux Multiples

organisée par Gilbert Saporta (CNAM) , Mohamed Hanafi (ONIRIS), Thierry Fahmy (XL-Stats)

Entrée libre sur inscription auprès de : mohamed.hanafi chez oniris-nantes.fr

Au début du siècle dernier, les techniques d’analyse des tableaux multiples ont été introduites pour des applications en psychologie. Depuis cette date, leurs applications n’ont cessé de s’élargir, et couvrent maintenant des domaines aussi variés que la sensométrie, la chimiométrie, l’écologie et l’analyse d’image.
Cet engouement de la part des praticiens pour les techniques d’analyse des tableaux multiples s’explique par un besoin méthodologique qui s’est trouvé accentué grâce à la multiplication des outils technologiques d’acquisition des données.
Parallèlement à cette demande, de nombreux développements consacrés aux fondements de ces techniques ont conduit à des avancées significatives aussi bien en statistique exploratoire (méthodes factorielles, techniques multidimensionnelles) qu’en mathématique (algèbre linéaire, algèbre tensorielle, optimisation).
L’objectif de cette journée est de dresser un bilan des avancées récentes tant sur le plan algorithmiques de ces techniques que sur leurs applications.
Cette journée s’adresse à un large public de spécialistes et non spécialistes, elle a pour ambition de promouvoir cette méthodologie et de favoriser les échanges entre spécialistes et praticiens.

Programme :

09h00 - 09h15 Ouverture de la journée.

09h15 - 10h00 Issues in designing user-friendly software for three-mode analysis. Pieter Kroonenberg (Université de Leiden, Pays Bas)

10h00 - 10h45 Quelques nouveaux résultats concernant les modèles Candecomp/Parafac et Indscal. Mohamed Benani-Dosse (Université de Rennes II,France)

10h45-11h15 Pause café

11h15-12h00 Regularized Generalized Canonical Correlation Analysis. Arthur Tenenhaus (Supelec, France)

12h00-13h30 Pause déjeuner

13h30-14h10 Utilisation avancée de l’approche PLS pour l’analyse des tableaux multiples avec XLSTAT. Emmanuel Jakobowicz (XLSTAT, France).

14h10-14h50 Propriétés des algorithmes pour la détermination des variables latentes dans le cadre de l’approche PLS et des méthodes multiblocs. Mohamed Hanafi (ONIRIS, Nantes France)

14h50-15h10 Pause café

15H10-15h50 Structure des données et problèmes de modélisation en métabolomique. Alain Paris (Met@risk, France)

15h50-16h30 A generic model for data fusion. Iven Van Mechelen (Katholieke Universiteit Leuven, Belgique )

16h30-17h10 Table ronde animée par : Ph. Ricoux (Total,France) P. Kroonenberg (Université de Leiden, Pays Bas) et G. Saporta(CNAM, France)

17h10-17h15 Clôture de la journée.

Séminaires novembre et décembre 2009 ; janvier à mars 2010

  • Mercredi 10 mars 2010
    Jean-François Marcotorchino
    Directeur Scientifique et Technique THALES Communications
    email : jeanfrancois.MARCOTORCHINO chez fr.thalesgroup.com

    Unification Relationnelle Générale des Critères de Partitionnement, Classification et Classement.

    Résumé : Lors de cet exposé, nous donnerons un éclairage peu connu sur bon nombre de Critères de Classement ou de Partitionnement structurants et usuels en montrant leur filiation étroite avec une grande famille unifiée de critères, tels les critères suivants : Critère de Condorcet, Critère de Condorcet Pondéré, Critère de la « Différence de Profils », Critère Inertiels, Critères dérivés des k-means etc.., dans le paradigme unificateur de l’Approche Relationnelle des données, en montrant que tout critère de classification ou de classement, utilisé aujourd’hui, peut être considéré formellement comme un dérivé de cette famille de critères relationnels.
    De fait, le propos est plus spécifiquement de montrer qu’un formalisme théorique unique peut permettre d’expliciter en profondeur les structures sous-jacentes propres à des critères de recherche d’ordres, d’ordonnances ou de partitionnements optimaux qui ont été introduits à des périodes de temps différentes, pour des motifs et des buts différents, dans des problématiques n’ayant souvent pas grand chose à voir entre elles.
    En résumé nous voulons montrer que le formalisme relationnel permet de transcrire dans un langage simple avec des notations assez systématisées l’essentiel des fondamentaux des structures de critères (ou de fonctions économiques à Maximiser ou Minimiser),.une fois faite l’assimilation des notations associées.
  • Mercredi 20 JANVIER 2010
    Emmanuel Viennet Professeur
    Laboratoire de Traitement et Transport de l’Information Université Paris 13
    email : emmanuel.viennet chez univ-paris13.fr

    Apprentissage et Réseaux Sociaux

    Résumé : L’étude des réseaux sociaux a connu un essor remarquable ces dernières années, avec le développement de nouvelles méthodes d’analyse et de fouille de données. De nombreuses applications industrielles demandent l’analyse de données structurées en réseaux : sites Web2.0, opérateurs de télécommunications. Les demandes sont variées et vont de la catégorisation de documents (messageries) à la détection de communautés d’utilisateurs, en passant par les systèmes de recommandation.
    L’analyse des réseaux sociaux pose des problèmes difficiles, comme la modélisation des interactions "sociales", la fouille de données structurées (graphes, textes, données hétérogènes) et la prise en compte de l’évolution temporelle des réseaux. De plus, les applications génèrent souvent des volumes de données très importants, avec des graphes comptant plusieurs dizaines des millions de nœuds, ce qui pose de sérieuses restrictions sur algorithmes utilisables.
    Dans ce séminaire, nous présenterons ce domaine de recherche et décrirons quelques problématiques et exemples pouvant intéresser les statisticiens.
  • Mercredi 13 janvier 2010
    Christiane Guinot, PhD, DSc
    Biometrics and Epidemiology Unit CE.R.I.E.S.,
    email : christiane.guinot chez ceries-lab.com

    Identification de différents phénotypes d’une maladie de la peau : le psoriasis

    Résumé : Suite à nos travaux de recherche sur une classification de la peau humaine saine, nous avons été sollicité par le Pr L. Dubertret du Département de Dermatologie de l’hôpital Saint-Louis à Paris, pour rechercher une typologie du psoriasis, c’est-à-dire chercher des groupes de malades homogènes sur le plan clinique et sur le plan évolutif. En effet, il existe des formes cliniques extrêmement variées de psoriasis, auxquelles correspondent des groupes de patients actuellement non caractérisés et dont la réponse aux différents traitements est différente. Cette recherche de typologie a été effectuée en associant les méthodes d’analyse des correspondances multiples, de classification ascendante hiérarchique et d’analyse discriminante.
  • Mercredi 16 décembre 2009 de 11h-12h Lieu : Cnam, salle 31 2 89, 2 rue Conté, Paris IIIe
    Jérôme Pagès, Professeur à Agrocampus Rennes,
    email : jerome.pages chez agrocampus-ouest.fr

    Traitement de données mixtes (variables quantitatives et variables qualitatives) en analyse de données.
  • Mercredi 18 novembre 2009 Professeur Francisco Carvalho de l’Université Fédérale du Pernambouc à Recife (Brésil)

    Nouveaux Modèles de Régression Linéaire pour les Variables de Type Intervalle

    Résumé :
    Nous présentons une nouvelle approche pour la régression linéaire sur des variables de type intervalle. Dans cette approche, chaque individu est décrit par un vecteur
    d’intervalle. La prévision du centre et de la longueur de l’intervalle de la variable à expliquer est
    faite à partir de différents modèles de régression linéaire qui tiennent compte des informations
    données par le centre et la longueur des variables explicatives et aussi de leurs interactions. Dans
    un deuxième temps, nous introduisons la contrainte que la limite inférieure doit être plus grande que
    la limite supérieur lors de la prévision de l’intervalle de la variable à expliquer. Nous montrons
    quelques exemples avec des données simulées ou réelles.

Année universitaire 2008/2009

Année universitaire 2008/2009

  • 17 juin 2009 Francesco Palumbo, université de Macerata (Italie) 11h à 12h, salle 33.1.11 : Statistical Analysis of Interval-valued data.
  • 18 mars 2009 El Mostafa Qannari ENITIAA/INRA Nantes -Approches en continuum autour de la régression PLS :
    En matière de traitement de données, le chimiométricien est souvent confronté à la situation consistant à prédire une ou plusieurs variables à partir de mesures instrumentales rapides telles que les mesures spectrales. Le plus souvent, l’objectif n’est pas tant un problème de prédiction à proprement parler qu’un problème d’investigation de relations entre tableaux de données au sens où l’on cherche à comprendre les phénomènes sous jacents en les reliant, quand cela est possible, à la structure moléculaire des produits étudiés. De ce fait, la régression PLS a une place de choix dans la boîte à outils du chimiométricien. En effet, il est bien connu que cette méthode est orientée vers l’explication d’une ou plusieurs variables et pour cela, elle s’appuie sur une information structurelle dans l’espace des variables explicatives. D’aucuns résument ceci par le raccourci consistant à affirmer que PLS réalise un compromis entre une analyse en composantes principales (ACP) des variables à expliquer, une ACP des variables explicatives et une méthode de régression des variables à expliquer sur les variables explicatives. Cependant, force est de constater que, dans la pratique, ce compromis est souvent biaisé en faveur des variables explicatives alors que l’on aurait souhaité que ce soit l’inverse ! L’exposé vise à montrer que des approches en continuum non seulement permettent de mieux rétablir l’équilibre mais procurent également à l’utilisateur toute une panoplie de modèles incluant des modèles plus classique tels que la régression PLS, la régression sur composantes principales, l’analyse en composantes principales sur variables instrumentales ou la Ridge régression. Le lien entre ces différentes méthodes est, par conséquent, mieux clarifié.
  • 25 février 2009 11h-12h, Salle 39-3-47 : Vincenzo Esposito Vinzi ESSEC Business School of Paris - A Comprehensive PLS environment for problematic cases in component-based SEM :
    Partial Least Squares Path Modelling is generally meant as a component-based approach to structural equation models and multi-block data analysis that privileges a prediction oriented
    discovery process to the statistical testing of causal hypotheses.
    In case of formative relationships in the measurement model between the manifest variables and their corresponding latent ones, the classical algorithm may often yield unstable results while being not even feasible in cases often encountered in real practice.
    This talk will discuss a comprehensive PLS environment where PLS regression is implemented
    in differen steps of the PLS-PM algorithm : the external estimation step for formative indicators ; the internal estimation step as a generalization of the path weighting scheme ; the estimation of
    path coefficients in structural models affected by strongly correlated latent variables or missing scores.
  • 14 janvier 2009 11h-12h, Salle 11A2.32 : Michel Tenenhaus (Groupe HEC, Jouy-en-Josas, France) tenenhaus chez hec.fr - Approche PLS : Les méthodes PLS (Partial Least Squares) forment un ensemble de méthodes d’analyse de données exploratoires permettant de prendre en compte la causalité. Elles ont été initiées par Herman et Svante Wold à partir de 1966. Des outils de validation des modèles par Jack-Knife ou Bootstrap ont été plus récemment développés. Ces méthodes peuvent fonctionner sur des petits échantillons dont les individus sont décrits par un très grand nombre de variables. Il peut aussi y avoir des données manquantes. Nous présenterons dans cette conférence l’approche PLS pour l’étude des modèles à équations structurelles sur variables latentes. Nous illustrerons ces méthodes par des exemples concrets d’applications à l’aide des logiciels PLS-Graph et XLSTAT.
  • 3 décembre 2008 : Michel Bera - Le data mining en 2008 : l’apport aux problèmes de marketing des nouvelles structures de données liées aux comportements : TimeStamps, Réseaux Sociaux, Texte.

Année universitaire 2007/2008

Année universitaire 2007/2008

Année universitaire 2006/2007

Année universitaire 2006/2007

Année universitaire 2005/2006

Année universitaire 2005/2006



Mis à jour le vendredi 28 février 2025, par : Audigier


Contact   |   Plan d'accès   |   Annuaire   |   Plan du site   |   IntraMaths   |   IntraCnam