Les mathématiques comparent des phénomènes
les plus diversifiés et découvrent les analogies
secrètes qui les unissent.
    J.B.J. Fourier

Accueil du site > Recherche > Séminaires de Statistique >

Séminaire de Statistique


Année universitaire 2017/2018

  • Vendredi 29 septembre 2017 Vincent Audigier (Cnam, équipe MSDMA)

Contributions à la gestion des données manquantes par imputation multiple

pdf de la présentation

Résumé : Les données manquantes sont fréquentes dans la pratique statistique. Elles sont problématiques car la plupart des méthodes ne peuvent pas être appliquées sur un jeu de données incomplet. Une solution classique pour gérer les données manquantes consiste à recourir à l’imputation multiple. On distingue généralement deux grandes familles de méthodes d’imputation multiple : les méthodes par modèle joint, reposant sur l’hypothèse d’une distribution multivariée, commune à l’ensemble des variables, et les méthodes par imputation séquentielle, qui consistent à spécifier une distribution conditionnelle pour chaque variable du jeu de données.

Dans un premier temps, nous expliquerons comment les méthodes d’analyse factorielle peuvent être utilisées pour proposer des méthodes d’imputation innovantes par modèle joint. En particulier, nous présenterons une méthode d’imputation multiple dédiée aux données qualitatives, basée sur l’analyse des correspondances multiples (ACM). La variabilité de prédiction des données manquantes y est reflétée via un bootstrap non-paramétrique. L’imputation multiple par ACM offre une réponse au problème de l’explosion combinatoire limitant les méthodes concurrentes dès lors que le nombre de variables ou de modalités est élevé.

Dans un second temps, nous nous intéresserons à l’imputation des données manquantes pour des données provenant de différentes études. Ce type de données est très spécifique dans la mesure où d’une part les données sont structurées sur deux niveaux (l’individu au premier, l’étude au second) ce qui nécessite des modèles d’imputation adaptés ; d’autre part, d’une étude à l’autre les variables collectées ne sont pas nécessairement les mêmes, ce qui conduit à des données manquantes très particulières appelées ``données systématiquement manquantes’’. Nous présenterons notamment de nouvelles méthodes d’imputation multiple séquentielles dédiées à ce type de données et comparerons leurs propriétés d’un point de vue théorique et via une étude par simulation.

  • Vendredi 27 octobre 2017 Robin Genuer (Univ. Bordeaux)

Random Forests for Big Data

Big Data is one of the major challenges of statistical science and has numerous consequences from algorithmic and theoretical viewpoints. Big Data always involve massive data, but they also often include online data and data heterogeneity. Recently some statistical methods have been adapted to process Big Data, like linear regression models, clustering methods and bootstrapping schemes. Based on decision trees combined with aggregation and bootstrap ideas, random forests were introduced in 2001. They are a powerful nonparametric statistical method allowing to consider in a single and versatile framework regression problems, as well as two-class and multi-class classification problems. Focusing on classification problems, available proposals that deal with scaling random forests to Big Data problems are selectively reviewed. These proposals rely on parallel environments or on online adaptations of random forests. We also describe how the out-of-bag error is addressed in these methods. Then, we formulate various remarks for random forests in the Big Data context. Finally, we experiment five variants on two massive datasets, a simulated one as well as a real-world dataset. These numerical experiments lead to highlight the relative performance of the different variants, as well as some of their limitations.

  • Vendredi 24 Novembre 2017 François-Xavier Jollois (Paris Descartes)

Co-clustering de données fonctionnelles

Suite au développement récent des compteurs intelligents, les opérateurs d’électricité sont aujourd’hui en mesure de collecter des données sur la consommation électrique de manière large et fréquente. C’est notamment le cas en France où EDF pourra bientôt enregistrer à distance la consommation de ses 27 millions de clients toutes les 30 minutes. Nous proposons dans ce travail une nouvelle méthodologie de co-clustering, basée sur le modèle de bloc latent fonctionnel (funLBM), qui permet de construire des "résumés" de ces données de grande consommation par co-clustering. Le modèle funLBM étend le modèle de bloc latent habituel au cas fonctionnel en supposant que les courbes d’un bloc vivent dans un sous-espace fonctionnel de faible dimension. Ainsi, funLBM est capable de modéliser et de regrouper un grand ensemble de données avec des courbes à haute fréquence. Un algorithme SEM-Gibbs est proposé pour l’inférence de modèle. Un critère ICL est également dérivé pour résoudre le problème du choix du nombre de groupes de lignes et de colonnes. Des expériences numériques sur des données Linky simulées et originales montrent l’utilité de la méthodologie proposée.

  • Vendredi 22 Décembre 2017 Kaniav Kamary (Cnam, équipe MSDMA)

Bayesian model selection for computer code validation via mixture estimation model

When numerical codes are used for modeling the complex physical systems, the unknown computer model parameters are tuned by calibration techniques. A discrepancy function is added to the computer code in order to capture model discrepancy that is eventually caused due to other inaccuracies of the computer model than the calibration parameters. While both model parameter and discrepancy are sources of model uncertainty, distinguishing the effects of the two sources can be challenging. By using a Bayesian testing procedure based on intrinsic Bayes factor, (Damblin et al., 2016) highlighted a confounding effect between the code discrepancy and a linear computer code.We illustrate this identifiability problem with several examples by applying another Bayesian model selection technique via mixture estimation model, developed by Kamary et al. (2014).

Année universitaire 2016/2017

  • Vendredi 18 novembre 2016

Matthieu Saumard, ATER au CNAM, nous a présenté un exposé intitulé Two applications of functional data

  • Vendredi 13 janvier 2017 Blaise Hanczar, Professeur à Evry

Controlling the cost of prediction in using a cascade of reject classifiers for personalized medicine

The supervised learning in bioinformatics is a major tool to diagnose a disease, to identify the best therapeutic strategy or to establish a prognostic. The main objective in classifier construction is to maximize the accuracy in order to obtain a reliable prediction system. However, a second objective is to minimize the cost of the use of the classifier on new patients. Despite the control of the classification cost is high important in the medical domain, it has been very little studied. We point out that some patients are easy to predict, only a small subset of medical variables are needed to obtain a reliable prediction. The prediction of these patients can be cheaper than the others patient. Based on this idea, we propose a cascade approach that decreases the classification cost of the basic classifiers without dropping their accuracy. Our cascade system is a sequence of classifiers with rejects option of increasing cost. At each stage, a classifier receives all patients rejected by the last classifier, makes a prediction of the patient and rejects to the next classifier the patients with low confidence prediction. The performances of our methods are evaluated on four real medical problems.

  • Vendredi 24 Février 2017 Rafael José González De Gouveia , CIMAT (Mexico)

Topological tools for Data Analysis

This talk will be an introduction to Topological Data Analysis (TDA) and some tools will be presented to study topological features of a point cloud. TDA provides a framework to analyze data in a way that is insensitive to a particular metric. The intuition is to study the shape of the data. It is an approach to analyze data using techniques from topology, namely Persistent Homology. Persistent Homology allows us to compute topological features from the data set in different spatial resolutions using simplicial complexes. TDA combine algebraic topology to study the Betti numbers of a data set, a point cloud. Betti numbers count topological structure of data, such as connected components, loops, and voids. The Persistent diagrams and Bar Codes will be presented to asses the shape of the data.

  • Vendredi 17 mars 2017 Yuan Wei (Beihang University, Beijing)

Interval-valued Data Regression using Partial Linear Model

Semi-parametric modeling of interval-valued data is of great practical importance, as exampled by applications in economic and financial data analysis. We propose a flexible semi-parametric modeling of interval-valued data by integrating the partial linear regression model based on the Center & Range method, and investigate its estimation procedure. Furthermore, we introduce a test statistic that allows one to decide between a parametric linear model and a semi-parametric model, and approximate its null asymptotic distribution based on wild Bootstrap method to obtain the critical values. Extensive simulation studies are carried out to evaluate the performance of the proposed methodology and the new test. Moreover, several empirical datasets are analyzed to document its practical applications.

  • Vendredi 21 avril 2017 Antoine CORNUEJOLS (AgroParisTech)

L’apprentissage par transfert : une nouvelle approche basée sur un type original de boosting

L’exposé présentera d’abord le problème de l’apprentissage par transfert avec un bref état de l’art et les embryons existants de théorie. Nous introduirons ensuite une nouvelle approche fondée sur du boosting de projections entre l’espace cible et l’espace source. L’algorithme sera expliqué et illustré sur une application de classification de séries temporelles. Nous terminerons par une analyse théorique de cette nouvelle méthode : quelles garanties de performance sur l’apprentissage peut-on obtenir ? Comment choisir l’espace des projections, et comment contrôler le risque de « sur-transfert » ? Quels liens peut-on établir avec d’autres approches théoriques comme par exemple : (i) le scénario d’apprentissage avec informations privilégiées proposé récemment par Vapnik, (ii) le calcul de la capacité d’un canal de transmission entre source et cible, et (iii) la recherche en avant dans les algorithmes de jeux. Rq : Il est important de souligner qu’il s’agit d’un travail en cours (work in progress), et que l’interaction avec les auditeurs est vivement souhaitée.

Année universitaire 2015/2016

  • Jeudi 3 décembre 2015

RAUL ANDRES TORRES DIAZ, Doctorant du "Statistics Department", Universidad Carlos III de Madrid, en séjour de recherche de trois mois au sein de l’Equipe Méthodes Statistiques de Data Mining et Apprentissage, Laboratoire CEDRIC, CNAM, nous a présenté un exposé intitulé : Multivariate extreme value analysis under a directional approach

Année universitaire 2014/2015

  • Jeudi 11 Juin 2015

Charantonis Anastase Alexandre, Post-doc au CEDRIC nous a présenté un exposé intitulé : Modélisation statistique de l’environnement : Réduction par classifications

  • Jeudi 21 Mai 2015

Véronique Maume-Deschamps, Professeure à L’IFSA Lyon1 nous a présenté un exposé intitulé : Global sensitivity analysis and quantification of uncertainty

  • Jeudi 5 Mars 2015

Giuseppe Giordano, Professeur à l’Université de Salerne ; Italie nous a présenté un exposé intitulé : Multidimensional Techniques for Social Network Data- Partie1 Partie2

  • Jeudi 19 février 2015

Didier Rullière, ISFA, Université Lyon1 nous a présenté un exposé intitulé : Non parametric estimation of Archimedean copulas and tail dependence

  • Jeudi 22 janvier 2015

Jean-Pierre Gauchi, chargé de recherche INRA nous a présenté un exposé intitulé : Plans d’expériences pour modèles non linéaires : des problématiques et des challenges en biologie

  • Jeudi 11 décembre 2014

Rémi Servien, chargé de recherche INRA nous a présenté un exposé intitulé : "Identification et quantification de métabolites dans un spectre RMN"

  • Jeudi 13 novembre 2014

Avner Bar-Hen, Professeur à l’université de Paris Descartes nous a présenté un exposé intitulé : "Analyse statistique des profils et de l’activité des participants d’un MOOC "

Année universitaire 2013/2014

  • Mardi 1er avril 2014

Francisco de A.T. de Carvalho, Professeur à l’université de Recife - Brésil nous présentera en salle 17.1.16 un exposé intitulé : « Batch SOM Algorithms for Interval-Valued Data with Automatic Weighting of the Variables »

  • Mercredi 5 mars 2014

Jules de TIBEIRO, Professeur à l’Université de Moncton, New-Brunswick, Canada. nous a présenté un exposé intitulé : « Graph Partitioning by Correspondence Analysis and Taxicab Correspondence Analysis »

  • Mercredi 22 janvier 2014

Mory Ouattara, doctorant département IMATH-CNAM nous a présenté un exposé intitulé : Une méthode de soft subspace clustering basée sur les cartes topologiques pour données multiblocs et une méthode de recherche de consensus de partitions

  • Mercredi 11 décembre

Le Professeur Francesco Palumbo - Université de Naples - https://www.docenti.unina.it/france... nous a présenté un exposé intitulé Prototyping through Archetypal Analysis : looking at data from a different perspective

  • Lundi 25 novembre

Le Professeur Eric D ; Kolaczyk - Université de Boston - http://math.bu.edu/people/kolaczyk/ nous a présenté un exposé intitulé Estimating Network Degree Distributions from Sampled Networks : An Inverse Problem

  • Mercredi 13 novembre

Françoise Soulié Fogelman, consultante nous a présenté un exposé intitulé Utilisation des réseaux sociaux pour le data mining présenté par

  • Mercredi 9 octobre

Le Professeur Alfred Hero - University of Michigan Ann Arbor - http://web.eecs.umich.edu/ hero/ nous a présenté un exposé intitulé Kronecker PCA

  • Jeudi 19 septembre

Un séminaire commun CNAM-ESCP Europe - Statistique et modélisation - s’est tenu à l’ESCP sur le thème Données de panels : Approches méthodologiques et applications au management

  • Mardi 10 septembre

En collaboration avec la société SIGMA PLUS s’est tenu un séminaire au sujet de l’analyse de données textuelles présenté par Normand Péladeau, Président de Provalis Research

Année universitaire 2012/2013

  • Mercredi 12 juin

Anne Bernard, Doctorante département IMATH CNAM nous a présenté un exosé intitulé « Analyse en Composantes Principales Sparse pour données multiblocs et extension à l’Analyse des Correspondances Multiples Sparse »

  • Mercredi 22 mai

Hervé Abdi Professor in the School of Behavioral and Brain Sciences at The University of Texas at Dallas nous a présenté un exposé intitulé : Approches Multi-Tableaux pour l’Analyse des Données de Connectivité Cérébrale

  • Mercredi 17 avril

Le Professeur Heungsun Hwang, Department of Psychology, McGill University nous a présenté une conférence intitulée : “Generalized structured component analysis : A component-based approach to structural equation modeling”

  • Mercredi 3 avril

Pierre Goovaerts, Chief Scientist at BioMedware Inc, Courtesy Associate Professor University of Florida, nous a présenté une conférence intitulée "The role of Geostatistics in Environmental Epidemiology"

  • Mercredi 20 février

Elena di Bernardino, Maître de conférences au département Imath du CNAM, nous a présenté une conférence intitulée : Distortions of multivariate risk measures : a level-sets based approach

Résumé

  • Mercredi 16 janvier

Julie Josse, Maître de conférences au laboratoire de mathématiques appliquées d’Agrocampus Ouest, centre de Rennes, nous a présenté une conférence intitulée : Visualisation de données par ACP régularisée

Résumé Exposé

  • Mercredi 12 décembre

Marc CHRISTINE, INSEE, direction de la Méthodologie et de la coordination statistique et internationale, nous a présenté une conférence intitulée

Méthodes d’agrégation d’unités statistiques sous contrainte de contiguïté

  • Mercredi 21 novembre

Fabrice ROSSI, Professeur à l’université Paris 1, exerce sa recherche au sein du SAMM. Il y est responsable de l’axe de recherche Apprentissage Statistique et Réseaux.

Il nous a présenté une conférence intitulée : Un modèle par blocs pour la classification de graphes temporels

Année universitaire 2011/2012

  • Mercredi 20 juin 2012

Georges Hébrail, Chercheur senior EDF R&D, a présenté une conférence intitulée Gestion et fouille de données dans les Smart Grid

  • Lundi 16 avril 2012

Jason Fine, Professeur aux département de biostatistique et au département de Statistique de l’université de Caroline du Nord à Chapel Hill a présenté une conférence intitulée Screening for osteoporosis for postmenopausal women : a case study in interval censored competing risks

  • Mercredi 21 mars 2012

Julie Séguéla, Doctorante CNAM département IMATH, a présenté une conférence intitulée Text mining et système de recommandation pour les offres d’emploi diffusées sur le web

  • Mercredi 1er février 2012

Laura Trinchera Maître de conférences AgroParisTech a donné une conférence intitulée : « Latent Class detection in Path Modeling : the REBUS-PLS algorithm »

  • Mercredi 18 janvier 2012

Matthieu Montes, Maître de conférences en Bioinformatique au CNAM a présenté l’exposé : « Virtual screening methods in drug discovery : designing Protein Protein Interactions inhibitors »

  • Mercredi 14 décembre 2011

Hervé Abdi, Professeur à l’université du Texas à Dallas a donné une conférence intitulée : Les problèmes statistiques de la mise en relation du génome et du comportement

  • Mercredi 16 novembre 2011

Ismaïl Ahmed, Chercheur à l’INSERM a donné une conférence intitulée : Détection automatique de signaux en pharmacovigilance : Approche statistique fondée sur les comparaisons multiples. Résumé

  • Mercredi 19 octobre 2011

Aurélien Latouche, Professeur de Biostatistique au CNAM, a donné une conférence intitulée : Estimation de l’aire sous la courbe Roc en présence de censure

Année universitaire 2010/2011

  • Mercredi 15 juin 2011

Furio Camillo Professeur à l’université de Bologne, invité au département Ingénierie mathématique du CNAM a donné une conférence intitulée « A multivariate new promising approach for assessing balance of categorical covariates and measuring local effects in observational studies using the “potential outcome” frame »

  • Mercredi 4 mai 2011

Giorgio Russolillo Chercheur au CEDRIC (CNAM) au sein de l’équipe MSDMA (Méthodes statistiques de data-mining et apprentissage) a donné une conférence intitulée « Algorithmes PLS pour l’analyse en composantes principales (ACP) ; régression sur composantes PLS et modèles structurels prédictifs : connexion et extension non-métrique. »

  • Mercredi 6 avril 2011

Guénaël Cabanes Chercheur au Laboratoire d’Informatique de Paris-Nord (LIPN) Institut Galilée - Université Paris-Nord a donné une conférence intitulée « Classification non supervisée à deux niveaux guidée par le voisinage et la densité »

La conférence aura lieu salle 17.2.07 au CNAM le 6 avril de 14h à 15h.

  • Résumé :

"Notre travail de recherche concerne le développement d’approches à base de Cartes Auto-Organisatrices (SOM) pour la découverte et le suivi de structures de classes dans les données par apprentissage non supervisé (clustering). Nous avons proposé une méthode de clustering à deux niveaux simultanés (DS2L-SOM). Cette méthode se base sur l’estimation, à partir des données, de valeurs de connectivité et de densité des prototypes de la SOM. Ces valeurs sont utilisées pour effectuer une classification des données. Le nombre de clusters est détecté automatiquement. De plus, la complexité est linéaire selon le nombre de données. Nous montrons qu’il est relativement simple et efficace d’adapter DS2L-SOM aux variantes de l’algorithme SOM, de façon à obtenir une méthode très polyvalente capable par exemple d’analyser différents types de données. Par ailleurs, nous avons proposé une nouvelle méthode de description condensée de la distribution des données, ainsi qu’une mesure heuristique de similarité entre ces modèles. Ces algorithmes se basent sur une estimation de la densité sous-jacente des données pendant l’apprentissage d’une SOM modifiée. La qualité de la description obtenue et de la mesure de comparaison est validée sur un ensemble de jeux de données artificiels et réels. Les propriétés de ces algorithmes rendent possible l’analyse de grandes bases de données, y compris de grands flux de données, qui nécessitent à la fois vitesse et économie de ressources. Il est en effet possible de combiner l’algorithme de clustering à la mesure de similarité entre distributions pour l’analyse de données évolutives."

  • Mercredi 23 mars 2011

Mr Mohamed Hanafi chercheur de l’Unité de Recherche en Sensométrie et Chimiométrie, ONIRIS, Ecole Nationale Vétérinaire, Agroalimentaire et de l’alimentation, Nantes-Atlantique, donnera une conférence intitulée « Analyse des données structurées en blocs : généricité des données, polymorphisme des méthodes et questions émergentes »

La conférence aura lieu Amphi A Fabry-Perrot au CNAM le 23 mars de 10h45 à 12h.

  • Résumé : Comme le souligne le titre, la présente communication s’inscrit dans le cadre de l’analyse des données structurées en blocs. Ces données multidimensionnelles sont appelées également « tableaux multiples ou multiblocs ». Les situations pratiques qui conduisent à l’acquisition des données structurées en blocs sont abondantes dans des domaines aussi variés que l’agroalimentaire, la chimie analytique, l’écologie, la biologie intégartive...On cite ici à titre d’exemple, les données qui se présentent sous la forme d’un tableau individus*variables où les variables sont organisées en plusieurs blocs. Aujourd’hui, on peut affirmer que l’accès aux données structurées en blocs ne pose réellement pas de problème. Les enjeux actuels se situent davantage au niveau de la conception d’une méthodologie adaptée pour une meilleure exploitation de ces données. Partant d’une synthèse des travaux les plus significatifs et des contributions les plus récentes en méthodologie d’analyse des données structurées en blocs, la présente communication vise à :
    - introduire une définition générique des données structurées en blocs. Cette généricité sera déclinée par une présentation détaillée du panorama des données structurées en blocs à partir d’exemples dans différents domaines d’application.
    - montrer que la méthodologie s’articule sur deux concepts anciens : rang et variable latente. En particulier, le rang d’un tableau partitionnée sera introduit et la notion de polymorphisme de méthodes sera discutée.
    - analyser la généricité des algorithmes pour la détermination des paramètres des méthodes. En particulier, un algorithme général sera introduit et ses propriétés numériques seront discutées.
    - En plus des situations pratiques et des résultats théoriques qui seront évoqués tout au long de la présentation, des questions émergentes pour la modélisation des systèmes complexes (approches multi échelles, approches intégratives) viendront conclure cette communication.

Mme le professeur Taerim LEE de la Korea National Open University de Séoul donnera deux exposés :

Année universitaire 2009/2010

  • 6 mai 2010 de 9h00 à 17h15 : CNAM, Amphi Abbé Grégoire, 292 rue saint Martin, 75003 Paris

Troisième Journée sur les Analyses de Tableaux Multiples

organisée par Gilbert Saporta (CNAM) , Mohamed Hanafi (ONIRIS), Thierry Fahmy (XL-Stats)

Entrée libre sur inscription auprès de : mohamed.hanafi@oniris-nantes.fr

Au début du siècle dernier, les techniques d’analyse des tableaux multiples ont été introduites pour des applications en psychologie. Depuis cette date, leurs applications n’ont cessé de s’élargir, et couvrent maintenant des domaines aussi variés que la sensométrie, la chimiométrie, l’écologie et l’analyse d’image. Cet engouement de la part des praticiens pour les techniques d’analyse des tableaux multiples s’explique par un besoin méthodologique qui s’est trouvé accentué grâce à la multiplication des outils technologiques d’acquisition des données. Parallèlement à cette demande, de nombreux développements consacrés aux fondements de ces techniques ont conduit à des avancées significatives aussi bien en statistique exploratoire (méthodes factorielles, techniques multidimensionnelles) qu’en mathématique (algèbre linéaire, algèbre tensorielle, optimisation). L’objectif de cette journée est de dresser un bilan des avancées récentes tant sur le plan algorithmiques de ces techniques que sur leurs applications. Cette journée s’adresse à un large public de spécialistes et non spécialistes, elle a pour ambition de promouvoir cette méthodologie et de favoriser les échanges entre spécialistes et praticiens.

Programme :

09h00 - 09h15 Ouverture de la journée.

09h15 - 10h00 Issues in designing user-friendly software for three-mode analysis. Pieter Kroonenberg (Université de Leiden, Pays Bas)

10h00 - 10h45 Quelques nouveaux résultats concernant les modèles Candecomp/Parafac et Indscal. Mohamed Benani-Dosse (Université de Rennes II,France)

10h45-11h15 Pause café

11h15-12h00 Regularized Generalized Canonical Correlation Analysis. Arthur Tenenhaus (Supelec, France)

12h00-13h30 Pause déjeuner

13h30-14h10 Utilisation avancée de l’approche PLS pour l’analyse des tableaux multiples avec XLSTAT. Emmanuel Jakobowicz (XLSTAT, France).

14h10-14h50 Propriétés des algorithmes pour la détermination des variables latentes dans le cadre de l’approche PLS et des méthodes multiblocs. Mohamed Hanafi (ONIRIS, Nantes France)

14h50-15h10 Pause café

15H10-15h50 Structure des données et problèmes de modélisation en métabolomique. Alain Paris (Met@risk, France)

15h50-16h30 A generic model for data fusion. Iven Van Mechelen (Katholieke Universiteit Leuven, Belgique )

16h30-17h10 Table ronde animée par : Ph. Ricoux (Total,France) P. Kroonenberg (Université de Leiden, Pays Bas) et G. Saporta(CNAM, France)

17h10-17h15 Clôture de la journée.

Séminaires novembre et décembre 2009 ; janvier à mars 2010

  • Mercredi 10 mars 2010 Jean-François Marcotorchino Directeur Scientifique et Technique THALES Communications
    email : jeanfrancois.MARCOTORCHINO@fr.thalesgroup.com

    Unification Relationnelle Générale des Critères de Partitionnement, Classification et Classement.

    Résumé : Lors de cet exposé, nous donnerons un éclairage peu connu sur bon nombre de Critères de Classement ou de Partitionnement structurants et usuels en montrant leur filiation étroite avec une grande famille unifiée de critères, tels les critères suivants : Critère de Condorcet, Critère de Condorcet Pondéré, Critère de la « Différence de Profils », Critère Inertiels, Critères dérivés des k-means etc.., dans le paradigme unificateur de l’Approche Relationnelle des données, en montrant que tout critère de classification ou de classement, utilisé aujourd’hui, peut être considéré formellement comme un dérivé de cette famille de critères relationnels. De fait, le propos est plus spécifiquement de montrer qu’un formalisme théorique unique peut permettre d’expliciter en profondeur les structures sous-jacentes propres à des critères de recherche d’ordres, d’ordonnances ou de partitionnements optimaux qui ont été introduits à des périodes de temps différentes, pour des motifs et des buts différents, dans des problématiques n’ayant souvent pas grand chose à voir entre elles. En résumé nous voulons montrer que le formalisme relationnel permet de transcrire dans un langage simple avec des notations assez systématisées l’essentiel des fondamentaux des structures de critères (ou de fonctions économiques à Maximiser ou Minimiser),.une fois faite l’assimilation des notations associées.
  • Mercredi 20 JANVIER 2010 Emmanuel Viennet Professeur Laboratoire de Traitement et Transport de l’Information Université Paris 13
    email : emmanuel.viennet@univ-paris13.fr

    Apprentissage et Réseaux Sociaux

    Résumé : L’étude des réseaux sociaux a connu un essor remarquable ces dernières années, avec le développement de nouvelles méthodes d’analyse et de fouille de données. De nombreuses applications industrielles demandent l’analyse de données structurées en réseaux : sites Web2.0, opérateurs de télécommunications. Les demandes sont variées et vont de la catégorisation de documents (messageries) à la détection de communautés d’utilisateurs, en passant par les systèmes de recommandation. L’analyse des réseaux sociaux pose des problèmes difficiles, comme la modélisation des interactions "sociales", la fouille de données structurées (graphes, textes, données hétérogènes) et la prise en compte de l’évolution temporelle des réseaux. De plus, les applications génèrent souvent des volumes de données très importants, avec des graphes comptant plusieurs dizaines des millions de nœuds, ce qui pose de sérieuses restrictions sur algorithmes utilisables. Dans ce séminaire, nous présenterons ce domaine de recherche et décrirons quelques problématiques et exemples pouvant intéresser les statisticiens.
  • Mercredi 13 janvier 2010 Christiane Guinot, PhD, DSc Biometrics and Epidemiology Unit CE.R.I.E.S., email : christiane.guinot@ceries-lab.com

    Identification de différents phénotypes d’une maladie de la peau : le psoriasis

    Résumé : Suite à nos travaux de recherche sur une classification de la peau humaine saine, nous avons été sollicité par le Pr L. Dubertret du Département de Dermatologie de l’hôpital Saint-Louis à Paris, pour rechercher une typologie du psoriasis, c’est-à-dire chercher des groupes de malades homogènes sur le plan clinique et sur le plan évolutif. En effet, il existe des formes cliniques extrêmement variées de psoriasis, auxquelles correspondent des groupes de patients actuellement non caractérisés et dont la réponse aux différents traitements est différente. Cette recherche de typologie a été effectuée en associant les méthodes d’analyse des correspondances multiples, de classification ascendante hiérarchique et d’analyse discriminante.
  • Mercredi 16 décembre 2009 de 11h-12h Lieu : Cnam, salle 31 2 89, 2 rue Conté, Paris IIIe
    Jérôme Pagès, Professeur à Agrocampus Rennes, email : jerome.pages@agrocampus-ouest.fr

    Traitement de données mixtes (variables quantitatives et variables qualitatives) en analyse de données.
  • Mercredi 18 novembre 2009 Professeur Francisco Carvalho de l’Université Fédérale du Pernambouc à Recife (Brésil)

    Nouveaux Modèles de Régression Linéaire pour les Variables de Type Intervalle

    Résumé : Nous présentons une nouvelle approche pour la régression linéaire sur des variables de type intervalle. Dans cette approche, chaque individu est décrit par un vecteur d’intervalle. La prévision du centre et de la longueur de l’intervalle de la variable à expliquer est faite à partir de différents modèles de régression linéaire qui tiennent compte des informations données par le centre et la longueur des variables explicatives et aussi de leurs interactions. Dans un deuxième temps, nous introduisons la contrainte que la limite inférieure doit être plus grande que la limite supérieur lors de la prévision de l’intervalle de la variable à expliquer. Nous montrons quelques exemples avec des données simulées ou réelles.

Année universitaire 2008/2009

Année universitaire 2008/2009

  • 17 juin 2009 Francesco Palumbo, université de Macerata (Italie) 11h à 12h, salle 33.1.11 : Statistical Analysis of Interval-valued data.
  • 18 mars 2009 El Mostafa Qannari ENITIAA/INRA Nantes -Approches en continuum autour de la régression PLS : En matière de traitement de données, le chimiométricien est souvent confronté à la situation consistant à prédire une ou plusieurs variables à partir de mesures instrumentales rapides telles que les mesures spectrales. Le plus souvent, l’objectif n’est pas tant un problème de prédiction à proprement parler qu’un problème d’investigation de relations entre tableaux de données au sens où l’on cherche à comprendre les phénomènes sous jacents en les reliant, quand cela est possible, à la structure moléculaire des produits étudiés. De ce fait, la régression PLS a une place de choix dans la boîte à outils du chimiométricien. En effet, il est bien connu que cette méthode est orientée vers l’explication d’une ou plusieurs variables et pour cela, elle s’appuie sur une information structurelle dans l’espace des variables explicatives. D’aucuns résument ceci par le raccourci consistant à affirmer que PLS réalise un compromis entre une analyse en composantes principales (ACP) des variables à expliquer, une ACP des variables explicatives et une méthode de régression des variables à expliquer sur les variables explicatives. Cependant, force est de constater que, dans la pratique, ce compromis est souvent biaisé en faveur des variables explicatives alors que l’on aurait souhaité que ce soit l’inverse ! L’exposé vise à montrer que des approches en continuum non seulement permettent de mieux rétablir l’équilibre mais procurent également à l’utilisateur toute une panoplie de modèles incluant des modèles plus classique tels que la régression PLS, la régression sur composantes principales, l’analyse en composantes principales sur variables instrumentales ou la Ridge régression. Le lien entre ces différentes méthodes est, par conséquent, mieux clarifié.
  • 25 février 2009 11h-12h, Salle 39-3-47 : Vincenzo Esposito Vinzi ESSEC Business School of Paris - A Comprehensive PLS environment for problematic cases in component-based SEM : Partial Least Squares Path Modelling is generally meant as a component-based approach to structural equation models and multi-block data analysis that privileges a prediction oriented discovery process to the statistical testing of causal hypotheses.
    In case of formative relationships in the measurement model between the manifest variables and their corresponding latent ones, the classical algorithm may often yield unstable results while being not even feasible in cases often encountered in real practice. This talk will discuss a comprehensive PLS environment where PLS regression is implemented in differen steps of the PLS-PM algorithm : the external estimation step for formative indicators ; the internal estimation step as a generalization of the path weighting scheme ; the estimation of path coefficients in structural models affected by strongly correlated latent variables or missing scores.
  • 14 janvier 2009 11h-12h, Salle 11A2.32 : Michel Tenenhaus (Groupe HEC, Jouy-en-Josas, France) tenenhaus@hec.fr - Approche PLS : Les méthodes PLS (Partial Least Squares) forment un ensemble de méthodes d’analyse de données exploratoires permettant de prendre en compte la causalité. Elles ont été initiées par Herman et Svante Wold à partir de 1966. Des outils de validation des modèles par Jack-Knife ou Bootstrap ont été plus récemment développés. Ces méthodes peuvent fonctionner sur des petits échantillons dont les individus sont décrits par un très grand nombre de variables. Il peut aussi y avoir des données manquantes. Nous présenterons dans cette conférence l’approche PLS pour l’étude des modèles à équations structurelles sur variables latentes. Nous illustrerons ces méthodes par des exemples concrets d’applications à l’aide des logiciels PLS-Graph et XLSTAT.
  • 3 décembre 2008 : Michel Bera - Le data mining en 2008 : l’apport aux problèmes de marketing des nouvelles structures de données liées aux comportements : TimeStamps, Réseaux Sociaux, Texte.

Année universitaire 2007/2008

Année universitaire 2007/2008

Année universitaire 2006/2007

Année universitaire 2006/2007

Année universitaire 2005/2006

Année universitaire 2005/2006



Mis à jour le lundi 13 novembre 2017, par : Audigier


Contact   |   Plan d'accès   |   Annuaire   |   Plan du site   |   IntraMaths   |   IntraCnam