|
Séminaire de StatistiqueLes exposés ont lieu au CNAM à partir de 11h et peuvent également être suivis à distance (contacter les organisateurs pour être ajouté à l’équipe Teams du séminaire) Année universitaire 2024/2025
Résumé : L’augmentation des données caractérisées par des séquences d’observations qui varient dans le temps et l’espace, telles que les courbes et les surfaces, est de plus en plus fréquente. Cela souligne l’importance de l’analyse fonctionnelle des données (ADF). Contrairement aux méthodes traditionnelles, qui traitent les données comme des points discrets ou des vecteurs, l’ADF prend les courbes ou les fonctions entières comme entités d’analyse. Dans ce contexte, une stratégie innovante de classification des données fonctionnelles est proposée afin de : – Améliorer la précision de la classification en intégrant des techniques d’apprentissage supervisé et non supervisé.
Résumé : Nous proposons une nouvelle approche du modèle fonctionnel spatial autorégressif, basée sur la notion de signature. Celle-ci représente une fonction comme une série infinie de ses intégrales itérées et présente l’avantage d’être applicable à une large gamme de processus. Après avoir fourni des garanties théoriques du modèle proposé, nous avons montré, au travers d’une étude par simulation ainsi que sur un jeu de données réelles, que cette nouvelle approche présente des performances compétitives par rapport au modèle usuel.
Résumé : L’ACP parcimonieuse vise a factoriser les données par une projection linéaire utilisant une fraction réduite des variables originelles. On présentera d’abord un panorama des méthodes en question, en se focalisant sur la problématique du design d’une fonction objectif, et les différentes techniques d’optimisation pour les minimiser. Dans ce formalisme générique, le choix du paramètre de régularisation pilotera alors toujours un compromis entre le taux de parcimonie (nombre de variables originelles sélectionnées) et l’adéquation au données (en général, la variance expliquée). Dans une tentative de dépassement de ce compromis, on présentera enfin une méthodes d’ACP parcimonieuse qui cherche a maximiser le nombre de variables sélectionnées pour un taux de fausse alarme contrôlé. Année universitaire 2023/2024
Résumé : Studying a given phenomenon under multiple views can reveal a more significant part of the mechanisms at stake rather than considering each view separately. In order to design a study under such a paradigm, measurements are usually acquired through different modalities resulting in multimodal/multiblock/multi-source data. One statistical framework suited explicitly for the joint analysis of such multi-source data is Regularized Generalized Canonical Correlation Analysis (RGCCA). RGCCA extracts canonical vectors and components that summarize the different views and their interactions. This framework subsumes many well-known multivariate analysis methods as special cases. However, RGCCA only deals with vector-valued blocks, disregarding their possible higher-order structures. This is the case for example with excitation-emission spectroscopy (mixtures x emission wavelengths x excitation wavelengths), or electroencephalography (participants x channels x times x frequencies) data. In this talk, we present Tensor GCCA (TGCCA), a new method for analyzing higher-order tensors with canonical vectors admitting an orthogonal rank-R CP decomposition. Moreover, two algorithms for TGCCA, based on whether a separable covariance structure is imposed or not, are presented along with convergence guarantees. The efficiency and usefulness of TGCCA are evaluated on simulated and real data and compared favorably to state-of-the-art approaches.
Résumé : Les travaux présentés sont issus d’une collaboration franco-québécoise. Celle-ci a été financée par le programme Samuel de Champelain (2021–2023) qui a pour vocation d’établir des liens entre (jeunes) chercheurs français et québécois. Les structures encadrantes impliquées sont : l’Agence nationale de sécurité sanitaire de l’alimentation, de l’environnement et du travail (Fr), Oniris-Nantes (Fr), le Cnam-Paris (Fr), l’Université Laval (Qu), l’Institut universitaire de cardiologie et de pneumologie de Québec - Université Laval (Qu) et l’Université McGill (Qu). Les méthodes d’analyse exploratoire des liens entre de nombreuses variables structurées en blocs et de natures différentes (i.e., numériques, nominales et ordinales) sont requises dans de nombreux domaines, en biologie notamment. Cependant, les méthodes multiblocs sont généralement développées pour les variables numériques (e.g., MB-PCA, STATIS, AFM, GCCA), et plus rarement pour des données de natures différentes (AFM mixte, OVERALS). Dans le cadre de la quantification optimale (Optimal Scaling), l’intégration d’un algorithme ALSOS à l’ACP multibloc (MB-PCA) a permis son extension à l’analyse de variables de natures différentes (MB-PCAOS). Des outils d’aide à l’interprétation ainsi qu’un package R sont proposés pour en faciliter l’utilisation. La méthode MB-PCAOS a été appliquée à des données structurées en blocs et de natures différentes, relatives au cancer du poumon (projet LORD, Lung Oncology Research Discovery). Ce projet vise à développer et mesurer l’utilité clinique du score de risque polygénique (PRS) pour cette maladie. Sur une cohorte de 24 012 individus (4 002 cas et 20 010 témoins), sont recueillies des variables relatives aux participants (âge, sexe, IMC), à leur potentiel risque génétique (PRS), à leur statut tabagique (e.g., nombre de cigarettes/jours, durée de tabagisme, âge lors du tabagisme) ainsi qu’à la maladie (stade pathologique, type histologique). L’application de la méthode MB-PCAOS a permis : (i) une analyse exploratoire des liens entre ces potentiels facteurs de risque du cancer du poumon, (ii) et l’établissement des limites supérieures du PRS, afin de détecter les personnes à haut risque génétique de cancer du poumon qui pourraient servir lors des campagnes de dépistage.
Résumé : Les changements climatiques ont accru la nécessité d’évaluer les risques environnementaux sur de vastes domaines et de développer des modèles fiables pour les phénomènes naturels extrêmes. Ceux-ci étant (heureusement) relativement rares, les méthodes bayésiennes sont bien adaptées à l’analyse spatiale de leur fréquence et de leur ampleur. Dans cet exposé, on présentera une stratégie de modélisation d’extrêmes dont la dépendance dans l’espace est représentée par un champ aléatoire gaussien latent dont le comportement est piloté par des covariables synthétiques issues de modèles de reconstruction climatique. Deux vignettes montreront que l’intégration d’un mécanisme de partage d’information entre les sites d’acquisition de données permet non seulement d’affiner l’inférence en ces lieux mais aussi d’interpoler sur de vastes domaines où l’information est clairsemée. La première application concernera l’ampleur des crues extrêmes sur le littoral atlantique du Canada. La seconde montrera en quoi cette approche permet d’améliorer la construction des courbes IDF employées pour le dimensionnement d’ouvrages hydrologiques et hydrauliques.
Abstract : Orthonormality is the foundation of a number of matrix decomposition methods. For example, Singular Value Decomposition (SVD) implements the compression by factoring a matrix with orthonormal parts and is pervasively utilized in various fields. Orthonormality, however, inherently includes constraints that would induce redundant information, and make the manipulation of orthonormal matrix difficult. An enhanced version of SVD, namely E-SVD, is accordingly established to losslessly and quickly release constraints and recover the orthonormal parts in SVD. E-SVD has a wide range of application field. For data compression, E-SVD will reduce 25% storage units as SVD reaches its limitation and fails to compress data. For blind watermarking, E-SVD theoretically guarantees the full retrievability of the watermark in the absence of an attack. For object detection, E-SVD give a new perspective of figuring out spatial variation in a matrix, leading to a wider usage of matrix factorization methods in the domain of unsupervised object detection.
Résumé : Dans cet exposé, nous présentons une version robuste de l’algorithme EM pour la classification d’observations [1]. Nous avons introduit un modèle d’échantillonnage basé sur des distributions symétriques elliptiques qui nous permet de couvrir une variété plus large de distributions. Par ailleurs, des paramètres supplémentaires, considérés comme des paramètres de nuisance, sont introduits pour accroître la flexibilité de notre modèle. Ces paramètres conduisent à une généralisation des estimateurs robustes classiques pour les vecteurs moyens et les covariances de chaque classe. Afin de démontrer la robustesse de l’algorithme proposé, nous fournissons des analyses théoriques et pratiques qui aident à comprendre la nature générale de la méthode. Enfin, nous nous intéressons à des applications aux images radar et considérons le problème de la segmentation d’images. [1] Roizman, Violeta, Matthieu Jonckheere, and Frédéric Pascal. "A flexible EM-like clustering algorithm for noisy data." IEEE Transactions on Pattern Analysis and Machine Intelligence (2023).
Resumés - slides G. Saporta - slides E. Lima Neto - slides S. Clemençon Année universitaire 2022/2023
Résumé : Dans cette présentation, nous discutons certaines approches d’estimation de régression. La première partie de cet exposé sera consacrée à des problèmes de régression non-paramétrique, plus précisément sur les questions relatives aux méthodes de type noyaux et locales linéaires pour des données de survie. Nous nous intéressons à trois types de données incomplètes, fréquemment rencontrés en pratique : la censure aléatoire à droite, la censure mixte et la troncature à gauche. Nous ferons le zoom sur une seule méthode d’estimation de la fonction de régression où, sous des hypothèses appropriées, un résultat de convergence uniforme presque sûre est établi. Nous montrons par une étude numérique les performances de la méthode étudiée. La seconde partie de cet exposé porte, quant à elle, sur des développements méthodologiques en régression paramétrique dans le cas de co-variables fonctionnelles. Une application sur un jeu de données dans le domaine viticole sera proposée.
Résumé : Les méthodes factorielles sont cruciales pour obtenir un aperçu rapide de la structure des données, que celles-ci soient quantitatives, qualitatives, ou entre les deux. Cependant, le grand nombre de variable, ou le grand nombre d’observations, rend(ent) parfois ardue l’interprétation des résultats. De nouvelles méthodes sont apparues, dites parcimonieuses, avec pour but de sélectionner des variables ou des observations, et permettant de mettre en valeur des structures simples dans ces données complexes. Ces nouvelles méthodes complètent les méthodes classiques à base de rotation ou de bootstrap. Sur des exemples de données publiques, nous montrerons l’intérêt de ces méthodes et leurs futures pistes de développement.
Résumé : En imagerie classique, seule l’intensité peut être mesurée ce qui conduit à une perte d’information qui peut-être préjudiciable à une interprétation fiable des objets considérés. Dans nos études nous pensons en particulier aux globules sanguins observés au microscope dont l’analyse peut permettre de révéler certaines maladies. L’imagerie de phase quantitative (Quantitative Phase Imaging QPI) a été proposée comme une avancée intéressante par rapport aux systèmes classiques. . Son point central est de récupérer en plus d’une image d’intensité, une information de phase. Cette information bimodale, naturellement complexe, offre diverses capacités intéressantes telles que l’imagerie quantitative, non invasive et sans marqueur. Plus récemment, les approches d’apprentissage profond, ou plus précisément les réseaux neuronaux convolutifs (CNN) ont été introduites dans les applications QPI dans l’objectif de fournir, entre autres, un diagnostic médical plus précis. Néanmoins, ces approches explorent principalement les CNN classiques avec des convolutions à valeurs réelles pour l’extraction de caractéristiques sur un seul canal, le plus souvent le canal de phase. De plus, ces filtres réels ne sont pas nativement adaptés à traiter les valeurs complexes résultant des approches QPI. Leur utilisation sur des données complexes peut conduire à ignorer le lien intrinsèque entre l’intensité et l’information de phase. Dans ce travail, nous proposons d’introduire des convolutions à valeurs complexes dans les réseaux CNN pour explorer l’information bimodale naturellement complexe de l’IQP. Nous montrons l’apport de cette approche pour réaliser un diagnostique automatique de détection de malaria à partir de frottis sanguins, dans une tâche de detection/classification de globules rouges infectés par des parasites. L’ information bi-modale d’intensité et de phase a été recueillies à l’aide d’une microscopie ptychographique de Fourier (FPM) comme technique QPI.
slides : partie1 partie2 partie3 Résumé : Graph clustering is the task of partitioning a collection of observed networks into groups of similar networks. Clustering requires the comparison of graphs and the definition of a notion of graph similarity, which is challenging as networks are complex objects and possibly of different sizes. Our goal is to obtain a clustering where networks in the same cluster have similar global topology. We propose a model-based clustering approach based on a novel finite mixture model of random graph models, such that the clustering task is recast as an inference problem. To model individual networks the popular stochastic block model is used since it accommodates heterogeneous graphs and its parameters are readily interpretable. Moreover, we develop a hierarchical agglomerative clustering algorithm that aims at maximizing the so-called integrated classification likelihood criterion. In our algorithm, the label-switching problem in the stochastic block model raises an issue, as we have to match block labels of two stochastic block models. To address this problem we propose a tool based on the graphon function. Numerical experiments and an application to ecological networks illustrate the performance and the utility of our approach.
Résumé : Representation learning is a central problem of Attributed Networks data analysis in a variety of fields. Given an attributed graph, the objectives are to obtain a representation of nodes and a partition of the set of nodes. Usually these two objectives are pursued separately via two tasks that are performed sequentially, and any benefit that may be obtained by performing them simultaneously is lost. In this talk we present some simultaneous approaches combining both tasks, embedding and clustering. To jointly encode data affinity between node links and attributes, we use a new powered proximity matrix. We formulate new matrix decomposition models to obtain node representation and node clustering simultaneously. Theoretical analysis indicates the strong links between the newly constructed proximity matrix and both the random walk theory on a graph and a simple Graph Convolutional Network (GCN). Experimental results demonstrate that the proposed algorithms perform better, in terms of clustering and embedding, than state-of-the-art algorithms including deep learning methods designed for similar tasks in relation to attributed network datasets with different characteristics. Année universitaire 2021/2022
RésuméDans ce travail, nous améliorons la qualité de la prédiction par agrégation d’experts en utilisant les propriétés sous-jacentes des modèles qui fournissent ces experts. Nous nous limitons au cas où les prédictions d’experts sont issues de récursions de Kalman par ajustement de modèles espace-état. En utilisant des poids exponentiels, nous avons construit différents algorithmes d’agrégation de récursions de Kalman en ligne (KAO) qui compétissent avec le meilleur expert ou la meilleure combinaison convexe des experts de façon adaptative ou non. Nous améliorons les résultats existants de la littérature sur l’agrégation d’experts lorsque les experts sont des récursions de Kalman en utilisant leurs propriétés de second ordre. Nous appliquons notre approche aux récursions de Kalman et l’étendons au contexte général d’experts en ajustant un modèle espace-état aux erreurs d’experts fournis.
Année universitaire 2019/2020
Resumé - pdf de la présentation
Résumé : Compositional data comprise of some positive parts subject to a constant-sum constraint. Traditional clustering methods are not applicable to compositional data since the parts are correlated, and particularly, the subcompositional dominance property should be satisfied. In this paper, we develop a convex clustering method for grouping compositional data, which provides a global optimal solution given the convex relaxations of k-means and hierarchical clustering, and it can be efficiently solved in parallel with the ADMM (alternating direction method of multipliers) method. We apply the isometric logratio (ilr) transformation to represent the parts with orthonormal coordinates with respect to the Aitchison geometry. It is then shown that the convex clustering algorithm on the ilr-transformed data performs much more accurately than clustering directly on the untransformed compositional data. The algorithm is further tested on a real-world dataset to illustrate the interpretability of the results from convex clustering method on compositional data. Année universitaire 2018/2019
Résumé : We present two approaches for selecting variables in latent class
Résumé : The well known functional linear regression model (FLM) has been developed under the assumption that the observations are independent. However, the
Résumé : les modèles d’urnes (Polya, Friedman) sont bien connus pour être au fondement de nombreuses applications, comme par exemple le design d’essais cliniques. Les algorithmes de descente de gradient sont essentiels à de nombreuses méthodes en analyse de données et apprentissage statistique. Ces deux types de dynamiques aléatoires possèdent une importante caractéristique de renforcement dont nous étudierons l’effet dans le cadre de différents systèmes en interaction. Nous présenterons différents théorèmes limites en temps long et leurs conséquences statistiques et pratiques. L’intérêt de ces modèles pour l’étude de dynamiques d’opinion sur des graphes aléatoires sera également expliqué.
Résumé : In this presentation, we build simple extreme analogues of Wang distortion risk measures and we show how this makes it possible to consider many standard measures of extreme risk, including the usual extreme Value-at-Risk or Tail-Value-at-Risk, as well as the recently introduced extreme Conditional Tail Moment, in a unified framework. We then introduce adapted estimators when the random variable of interest has a heavy-tailed distribution and we prove their asymptotic normality. The finite sample performance of our estimators is assessed in a simulation study and we showcase our techniques on a real dataset.
Résumé : Les données compositionnelles sont fréquentes en biologie, parfois de façon implicite : décomposition d’une image en tissus, Nous proposons une méthode qui, tout en tenant compte du caractère
Résumé : Quantile regression (QR), introduced by Koenker and Basset in 1978, can be considered the extension of ordinary least squares (OLS) to the estimation of a set of conditional quantile functions. QR offers a complete view of a response variable providing a method for modelling the rates of changes at multiple points (conditional quantiles) of its conditional distribution (Koenker, 2005 ; Davino et al., 2013) without requiring assumptions on the errors. Although different functional forms can be used, the seminar deals only with linear regression models. The parameter estimates in QR linear models have the same interpretation as those of any other linear model. As a consequence, the estimated values of the response variable conditioned to given values of the regressors, reconstruct the conditioned quantile of the dependent variable. QR represents a considerable alternative to OLS in case of heteroscedastic relationships, presence of outliers and a skewed dependent variable. The seminar will be structured into two parts. The first part will deal with a description of the main features of QR : estimation, inference, properties and assessment. In the second part, a recent contribute of Cristina Davino will be presented : Quantile Regression potentialities will be exploited to analyze group effects in a dependence model, namely to handle heterogeneity among units both in the presence of a known group structure and when the heterogeneity is unobserved. In many real data applications, statistical units belong to different groups and statistical models should be tailored to incorporate and exploit this heterogeneity among units. It is a matter of fact that if two units have similar features/behaviours or belong to the same group of a stratification variable, the dependence structure of a regression model is more alike.
Résumé : Let Z i =( X i , Y i ) , i=1,...,n be a sequence of random variables, independent identically distributed (i.i.d.) as a variable Z=( X,Y ) where Y and X are respectively real random and with values in a space of functions E . This talk deals with the problem of kernel estimation of the regression function of Y given X . Namely, I will give some asymptotic results about the classical Nadaraya-Watson in the context where X is with values in a finite dimensional Riemannian submanifold of a Hilbert space. I will illustrate my purpose through some simulations and real data applications which compare the behavior of this estimator in both cases : the classical case where E = L 2 ( [ a,b ] ) and the one where E is Riemannian submanifold this L 2 ( [ a,b ] ) .
Résumé : Dans certains domaines applicatifs, les données disponibles décrivent le comportement de plusieurs entités au cours du temps. Ces données, souvent dites de panel, sont caractérisées, à chaque instant de mesure, par un échantillon d’observations potentiellement multivariées voire fonctionnelles. Cet exposé sera focalisé sur la classification et la réduction de dimension de ce type de données, dans le sens où les classes évoluent au cours du temps via des facteurs latents de faible dimension. Le mélange de modèles en facteurs dynamiques, que nous avons proposé dans cette optique, sera décrit dans l’exposé. Ce modèle a l’avantage de pouvoir être exploité aussi bien pour décrire de manière synthétique les données que pour prévoir le comportement futur des classes. La stratégie variationnelle qui a été retenue pour réaliser l’inférence de ce modèle sera également présentée. La spécificité de celle-ci réside dans l’exploitation, à chaque itération, d’une version pondérée du filtre de Kalman et de projections locales des données. Afin de pouvoir traiter plus rapidement de grandes quantités de données, une variante séquentielle de cet algorithme variationnel sera également examinée. L’exposé s’achèvera par l’application de la méthode proposée sur différents jeux de données, y compris des données de panel issues de smart grids.
Résumé : We introduce confirmatory composite analysis (CCA) as a sub-type of structural equation modeling Année universitaire 2017/2018
Contributions à la gestion des données manquantes par imputation multipleRésumé : Les données manquantes sont fréquentes dans la pratique statistique. Dans un premier temps, nous expliquerons comment les méthodes d’analyse factorielle Dans un second temps, nous nous intéresserons à l’imputation des données manquantes
Random Forests for Big DataBig Data is one of the major challenges of statistical science and has numerous consequences from algorithmic and theoretical viewpoints. Big Data always involve massive data, but they also often include online data and data heterogeneity. Recently some statistical methods have been adapted to process Big Data, like linear regression models, clustering methods and bootstrapping schemes. Based on decision trees combined with aggregation and bootstrap ideas, random forests were introduced in 2001. They are a powerful nonparametric statistical method allowing to consider in a single and versatile framework regression problems, as well as two-class and multi-class classification problems. Focusing on classification problems, available proposals that deal with scaling random forests to Big Data problems are selectively reviewed. These proposals rely on parallel environments or on online adaptations of random forests. We also describe how the out-of-bag error is addressed in these methods. Then, we formulate various remarks for random forests in the Big Data context. Finally, we experiment five variants on two massive datasets, a simulated one as well as a real-world dataset. These numerical experiments lead to highlight the relative performance of the different variants, as well as some of their limitations.
Co-clustering de données fonctionnellesSuite au développement récent des compteurs intelligents, les opérateurs d’électricité sont aujourd’hui en mesure de collecter des
Bayesian model selection for computer code validation via mixture estimation modelWhen numerical codes are used for modeling the complex
Modélisation des retards de trains pour la robustesse des opérations en gareLes gares sont des points critiques du réseau : une importante partie du retard y est créée, ce qui perturbe fortement la faisabilité des planifications. Le routage des trains en gare est en particulier une tâche complexe en raison du nombre de trains en circulation et des différentes contraintes de sécurité et de ressources. Des retards, même minimes, peuvent compromettre le routage, ce qui peut nécessiter de rerouter ou de retarder des trains pour retourner en situation nominale. Produire des planifications robustes, c’est-à-dire permettant d’absorber les petites perturbations, est un enjeu important. Nous proposons ici une modélisation des retards des trains arrivant en gare afin de fournir des solutions robustes anticipant les retards prévisibles.
Assessing Calibration of Logistic Regression Models : Beyond the Hosmer-Lemeshow Goodness-of-Fit TestThe Hosmer-Lemeshow Goodness of Fit Test has become the standard method for assessing calibration for binary logistic regression models. However, this method breaks down when models are developed from extremely large data sets. In this talk I will discuss options for assessing model performance in these situations including modifying the number of groups used and a new method called “Calibration Belts”.
Regularized Generalized Canonical Correlation Analysis as general framework for Structured data analysisThe challenges related to the use of massive amounts of data include identifying the relevant variables, reducing dimensionality, summarizing information in a comprehensible way and displaying it for interpretation purposes. Often, these data are intrinsically structured in blocks of variables, in groups of individuals or in tensor. Classical statistical tools cannot be applied without altering their structure leading to the risk of information loss. The need to analyze the data by taking into account their natural structure appears to be essential but requires the development of new statistical techniques. In that context a general framework for structured data analysis based on Regularized Generalized Canonical Correlation Analysis (RGCCA) will be presented.
Mobile e-Book for BITEC Learner & K-12 Data Analysis In the Big Data eraThis project promotes the implementation of mobile e-Book initiative in Bioinformatics Training & Education Center (BITEC) supported from Korean Ministry of Health and Welfare and for training K-12 data analysis in the big data era. Each were 5 years projects co-work together Seoul National University Medical College and this is the last year of this project and we build up KNOU OER LMS system for nationwide medical doctors and data scientist too. The leaders of this mobile e-Book initiative for Life Long Learning are KNOU, only one National Open University in Korea, SNU Medical College renowned university in Korea & KSS. Despite that mobile delivery of courses in higher education graduate level is yet rare, KNOU with the 45 years of long distance education experience and know-hows has expanded the scope of mobile learning for training medical doctors with e-Book and multimedia lecture available using their cellular phones.
Deep latent variable modelsDeep latent variable models combine the approximation abilities of deep neural networks and the statistical foundations of generative models. The induced data distribution is an infinite mixture model whose density is extremely delicate to compute. Variational methods are consequently used for inference, following the seminal work of Rezende, Mohamed, and Wierstra (ICML 2014) and Kingma & Welling (ICLR 2014). We will provide a general review of these models and techniques, viewed from a statistical perspective. In particular, we will study the well-posedness of the exact problem (maximum likelihood) these variational approaches approximatively solve. We show that most unconstrained models used for continuous data have an unbounded likelihood. This ill-posedness and the problems it causes are illustrated on real data. We also show how to insure the existence of maximum likelihood estimates, and draw useful connections with nonparametric mixture models. Furthermore, we describe an algorithm that allows to perform missing data imputation using the exact conditional likelihood of a deep latent variable model. On several real data sets, our algorithm consistently and significantly outperforms the usual imputation scheme used within deep latent variable models.
Analyse multivariée de données histogrammesEn Statistique classique et en Analyse des Données Multivariées, les données sont habituellement représentées dans un tableau, où chaque ligne représente une unité statistique ou “individu”, pour lequel une valeur unique est enregistrée pour chaque variable quantitative ou qualitative (en colonnes). Mais cette représentation est trop restrictive quand les données à analyser comprennent de la variabilité. C’est le cas quand les unités sous analyse ne sont pas des éléments individuels, mais des groupes formés sur la base de propriétés communes. Alors, pour chaque variable descriptive, la variabilité observée dans chaque groupe doit être prise en compte, à fin d’éviter une trop importante perte d’information pertinente. Dans ce but, de nouveaux types de variables ont été introduits, dont les réalisations ne sont pas des valeurs ou des catégories uniques, mais des ensembles, des intervalles, ou, plus généralement, des distributions sur un domaine donné. L’Analyse de Données Symboliques propose un cadre pour la représentation et analyse de telles données, prenant en compte sa variabilité intrinsèque.
Une approche hiérarchique de la recherche d’interactions entre données omiquesLes études d’association visent à mettre en évidence une association statistique entre des marqueurs biologiques Année universitaire 2016/2017
Matthieu Saumard, ATER au CNAM, nous a présenté un exposé intitulé
Controlling the cost of prediction in using a cascade of reject classifiers for personalized medicineThe supervised learning in bioinformatics is a major tool to diagnose a disease, to identify the best therapeutic strategy or to establish a prognostic. The main objective in classifier construction is to maximize the accuracy in order to obtain a reliable prediction system. However, a second objective is to minimize the cost of the use of the classifier on new patients. Despite the control of the classification cost is high important in the medical domain, it has been very little studied. We point out that some patients are easy to predict, only a small subset of medical variables are needed to obtain a reliable prediction. The prediction of these patients can be cheaper than the others patient. Based on this idea, we propose a cascade approach that decreases the classification cost of the basic classifiers without dropping their accuracy. Our cascade system is a sequence of classifiers with rejects option of increasing cost. At each stage, a classifier receives all patients rejected by the last classifier, makes a prediction of the patient and rejects to the next classifier the patients with low confidence prediction. The performances of our methods are evaluated on four real medical problems.
Topological tools for Data AnalysisThis talk will be an introduction to Topological Data Analysis (TDA) and some tools will be presented to study topological features of a point cloud. TDA provides a framework to analyze data in a way that is insensitive to a particular metric. The intuition is to study the shape of the data. It is an approach to analyze data using techniques from topology, namely Persistent Homology. Persistent Homology allows us to compute topological features from the data set in different spatial resolutions using simplicial complexes. TDA combine algebraic topology to study the Betti numbers of a data set, a point cloud. Betti numbers count topological structure of data, such as connected components, loops, and voids. The Persistent diagrams and Bar Codes will be presented to asses the shape of the data.
Interval-valued Data Regression using Partial Linear ModelSemi-parametric modeling of interval-valued data is of great practical importance, as exampled by applications in economic and financial data analysis. We propose a flexible semi-parametric modeling of interval-valued data by integrating the partial linear regression model based on the Center & Range method, and investigate its estimation procedure. Furthermore, we introduce a test statistic that allows one to decide between a parametric linear model and a semi-parametric model, and approximate its null asymptotic distribution based on wild Bootstrap method to obtain the critical values. Extensive simulation studies are carried out to evaluate the performance of the proposed methodology and the new test. Moreover, several empirical datasets are analyzed to document its practical applications.
L’apprentissage par transfert : une nouvelle approche basée sur un type original de boostingL’exposé présentera d’abord le problème de l’apprentissage par transfert avec un bref état de l’art et les embryons existants de théorie. Nous introduirons ensuite une nouvelle approche fondée sur du boosting de projections entre l’espace cible et l’espace source. L’algorithme sera expliqué et illustré sur une application de classification de séries temporelles. Année universitaire 2015/2016
RAUL ANDRES TORRES DIAZ, Doctorant du "Statistics Department", Universidad Carlos III de Madrid, en séjour de recherche de trois mois au sein de l’Equipe Méthodes Statistiques de Data Mining et Apprentissage, Laboratoire CEDRIC, CNAM, nous a présenté un exposé intitulé : Année universitaire 2014/2015
Charantonis Anastase Alexandre, Post-doc au CEDRIC nous a présenté un exposé intitulé : Modélisation statistique de l’environnement : Réduction par classifications
Véronique Maume-Deschamps, Professeure à L’IFSA Lyon1 nous a présenté un exposé intitulé : Global sensitivity analysis and quantification of uncertainty
Giuseppe Giordano, Professeur à l’Université de Salerne ; Italie nous a présenté un exposé intitulé : Multidimensional Techniques for Social Network Data- Partie1 Partie2
Didier Rullière, ISFA, Université Lyon1 nous a présenté un exposé intitulé : Non parametric estimation of Archimedean copulas and tail dependence
Jean-Pierre Gauchi, chargé de recherche INRA nous a présenté un exposé intitulé : Plans d’expériences pour modèles non linéaires :
Rémi Servien, chargé de recherche INRA nous a présenté un exposé intitulé : "Identification et quantification de métabolites dans un spectre RMN"
Avner Bar-Hen, Professeur à l’université de Paris Descartes Année universitaire 2013/2014
Francisco de A.T. de Carvalho, Professeur à l’université de Recife
Jules de TIBEIRO, Professeur à l’Université de Moncton, New-Brunswick, Canada. nous a présenté un exposé intitulé :
Mory Ouattara, doctorant département IMATH-CNAM nous a présenté un exposé intitulé : Une méthode de soft subspace clustering basée sur les cartes topologiques pour données multiblocs et une méthode de recherche de consensus de partitions
Le Professeur Francesco Palumbo - Université de Naples -
Le Professeur Eric D ; Kolaczyk - Université de Boston -
Françoise Soulié Fogelman, consultante nous a présenté un exposé intitulé Utilisation des réseaux sociaux pour le data mining
Le Professeur Alfred Hero - University of Michigan Ann Arbor -
Un séminaire commun CNAM-ESCP Europe - Statistique et modélisation - s’est tenu à l’ESCP sur le thème Données de panels : Approches méthodologiques et applications au management
En collaboration avec la société SIGMA PLUS s’est tenu un séminaire au sujet de l’analyse de données textuelles présenté par Année universitaire 2012/2013
Anne Bernard, Doctorante département IMATH CNAM nous a présenté un exosé intitulé « Analyse en Composantes Principales Sparse pour données multiblocs et extension à l’Analyse des Correspondances Multiples Sparse »
Hervé Abdi Professor in the School of Behavioral and Brain Sciences at The University of Texas at Dallas nous a présenté un exposé intitulé : Approches Multi-Tableaux pour l’Analyse des Données de Connectivité Cérébrale
Le Professeur Heungsun Hwang, Department of Psychology, McGill University nous a présenté une conférence intitulée :
Pierre Goovaerts, Chief Scientist at BioMedware Inc,
Elena di Bernardino, Maître de conférences au département Imath du CNAM, nous a présenté une conférence intitulée : Distortions of multivariate risk measures : a level-sets based approach
Julie Josse, Maître de conférences au laboratoire de mathématiques appliquées d’Agrocampus Ouest, centre de Rennes, nous a présenté une conférence intitulée : Visualisation de données par ACP régularisée
Marc CHRISTINE, INSEE, direction de la Méthodologie et de la coordination statistique et internationale, nous a présenté une conférence intitulée Méthodes d’agrégation d’unités statistiques sous contrainte de contiguïté
Fabrice ROSSI, Professeur à l’université Paris 1, exerce sa recherche au sein du SAMM. Il y est responsable de l’axe de recherche Apprentissage Statistique et Réseaux. Il nous a présenté une conférence intitulée : Un modèle par blocs pour la classification de graphes temporels Année universitaire 2011/2012
Georges Hébrail, Chercheur senior EDF R&D, a présenté une conférence intitulée Gestion et fouille de données dans les Smart Grid
Jason Fine, Professeur aux département de biostatistique et au département de Statistique de l’université de Caroline du Nord à Chapel Hill a présenté une conférence intitulée Screening for osteoporosis for postmenopausal women : a case study in interval censored competing risks
Julie Séguéla, Doctorante CNAM département IMATH, a présenté une conférence intitulée Text mining et système de recommandation pour les offres d’emploi diffusées sur le web
Laura Trinchera Maître de conférences AgroParisTech a donné une conférence intitulée :
Matthieu Montes, Maître de conférences en Bioinformatique au CNAM a présenté l’exposé :
Hervé Abdi, Professeur à l’université du Texas à Dallas a donné une conférence intitulée :
Ismaïl Ahmed, Chercheur à l’INSERM a donné une conférence intitulée :
Aurélien Latouche, Professeur de Biostatistique au CNAM, a donné une conférence intitulée : Année universitaire 2010/2011
Furio Camillo Professeur à l’université de Bologne, invité au département Ingénierie mathématique du CNAM a donné une conférence intitulée « A multivariate new promising approach for assessing balance of categorical covariates and measuring local effects in observational studies using the “potential outcome” frame »
Giorgio Russolillo Chercheur au CEDRIC (CNAM) au sein de l’équipe MSDMA (Méthodes statistiques de data-mining et apprentissage) a donné une conférence intitulée
Guénaël Cabanes Chercheur au Laboratoire d’Informatique de Paris-Nord (LIPN) Institut Galilée - Université Paris-Nord a donné une conférence intitulée « Classification non supervisée à deux niveaux guidée par le voisinage et La conférence aura lieu salle 17.2.07 au CNAM le 6 avril de 14h à 15h.
"Notre travail de recherche concerne le développement d’approches à base de Cartes Auto-Organisatrices (SOM) pour la découverte et le suivi de structures de classes dans les données par apprentissage non supervisé (clustering). Nous avons proposé une méthode de clustering à deux niveaux simultanés (DS2L-SOM). Cette méthode se base sur l’estimation, à partir des données, de valeurs de connectivité et de densité des prototypes de la SOM. Ces valeurs sont utilisées pour effectuer une classification des données. Le nombre de clusters est détecté automatiquement. De plus, la complexité est linéaire selon le nombre de données. Nous montrons qu’il est relativement simple et efficace d’adapter DS2L-SOM aux variantes de l’algorithme SOM, de façon à obtenir une méthode très polyvalente capable par exemple d’analyser différents types de données. Par ailleurs, nous avons proposé une nouvelle méthode de description condensée de la distribution des données, ainsi qu’une mesure heuristique de similarité entre ces modèles. Ces algorithmes se basent sur une estimation de la densité sous-jacente des données pendant l’apprentissage d’une SOM modifiée. La qualité de la description obtenue et de la mesure de comparaison est validée sur un ensemble de jeux de données artificiels et réels. Les propriétés de ces algorithmes rendent possible l’analyse de grandes bases de données, y compris de grands flux de données, qui nécessitent à la fois vitesse et économie de ressources. Il est en effet possible de combiner l’algorithme de clustering à la mesure de similarité entre distributions pour l’analyse de données évolutives."
Mr Mohamed Hanafi chercheur de l’Unité de Recherche en Sensométrie et Chimiométrie, ONIRIS, Ecole Nationale Vétérinaire, Agroalimentaire et de l’alimentation, Nantes-Atlantique, La conférence aura lieu Amphi A Fabry-Perrot au CNAM le 23 mars de 10h45 à 12h.
Mme le professeur Taerim LEE de la Korea National Open University de Séoul donnera deux exposés :
Année universitaire 2009/2010
Troisième Journée sur les Analyses de Tableaux Multiples organisée par Gilbert Saporta (CNAM) , Mohamed Hanafi (ONIRIS), Thierry Fahmy (XL-Stats) Entrée libre sur inscription auprès de : mohamed.hanafi chez oniris-nantes.fr Au début du siècle dernier, les techniques d’analyse des tableaux multiples ont été introduites pour des applications en psychologie. Depuis cette date, leurs applications n’ont cessé de s’élargir, et couvrent maintenant des domaines aussi variés que la sensométrie, la chimiométrie, l’écologie et l’analyse d’image. Programme : 09h00 - 09h15 Ouverture de la journée. 09h15 - 10h00 Issues in designing user-friendly software for three-mode analysis. Pieter Kroonenberg (Université de Leiden, Pays Bas) 10h00 - 10h45 Quelques nouveaux résultats concernant les modèles Candecomp/Parafac et Indscal. Mohamed Benani-Dosse (Université de Rennes II,France) 10h45-11h15 Pause café 11h15-12h00 Regularized Generalized Canonical Correlation Analysis. Arthur Tenenhaus (Supelec, France) 12h00-13h30 Pause déjeuner 13h30-14h10 Utilisation avancée de l’approche PLS pour l’analyse des tableaux multiples avec XLSTAT. Emmanuel Jakobowicz (XLSTAT, France). 14h10-14h50 Propriétés des algorithmes pour la détermination des variables latentes dans le cadre de l’approche PLS et des méthodes multiblocs. Mohamed Hanafi (ONIRIS, Nantes France) 14h50-15h10 Pause café 15H10-15h50 Structure des données et problèmes de modélisation en métabolomique. Alain Paris (Met@risk, France) 15h50-16h30 A generic model for data fusion. Iven Van Mechelen (Katholieke Universiteit Leuven, Belgique ) 16h30-17h10 Table ronde animée par : Ph. Ricoux (Total,France) P. Kroonenberg (Université de Leiden, Pays Bas) et G. Saporta(CNAM, France) 17h10-17h15 Clôture de la journée. Séminaires novembre et décembre 2009 ; janvier à mars 2010
Année universitaire 2008/2009Année universitaire 2008/2009
Année universitaire 2007/2008Année universitaire 2007/2008
Année universitaire 2006/2007Année universitaire 2006/2007
Année universitaire 2005/2006Année universitaire 2005/2006
Mis à jour le vendredi 28 février 2025, par : Audigier |
|
||||||