Les thèmes de recherche en Statistique appliquée


I Méthodes statistique de data mining, ou analyse des données

I.1 Méthodes de réduction de dimension

On regroupe sous ce thème des méthodes visant à résumer de grands tableaux de données par un petit nombre de variables (méthodes factorielles) ou un petit nombre de types (classification, encore appelée apprentissage non supervisé). Les travaux de l’équipe portent sur :

 le choix préalable de variables ou de sous-ensembles de variables en ACP, AFC par des techniques d’optimisation de type leaps and bounds en collaboration avec R.Cléroux de l’Université de Montréal
 l’étude de variantes robustes de l’ACP, c’est à dire insensibles à la présence d’observations "aberrantes"
 la stabilité des valeurs propres, leurs règles de sélection et les tests de dimensionnalité
 la généralisation des méthodes d’ACP et d’ACM à des processus aléatoires à temps continus Xt , à des fins d’exploration et de prévision. Deux thèses de doctorat ont été soutenues (Cohen et Preda)
 les méthodes de visualisation de données : notre équipe a participé à un projet européen ESPRIT, au sein d’un consortium coordonné par une SSII grecque comprenant les Instituts Nationaux de Statistique italien ISTAT et britannique ONS. Ce projet, outre une étude générale des méthodes, a abouti à la réalisation du logiciel IVISS (Interactive Visualisation Statistical Software)
 La comparaison de partitions portant sur les mêmes observations avec des variables ou des méthodes différentes, ou sur des observations différentes mais avec les mêmes variables. Ce thème est l’objet de la thèse de G.Youness.
 Le traitement des données manquantes en classification : ce thème fait l’objet de la thèse d’Ana Lorga, en cotutelle avec l’Université de Lisbonne.

I.2 Méthodes liées à la prévision et l’estimation

 les méthodes PLS permettent d’effectuer des régressions dans des cas où les méthodes usuelles échouent : fortes multicolinéarités, nombre de prédicteurs supérieur au nombre d’observations. Les travaux portent sur l’extension de la régression PLS à la régression logistique et au cas d’un nombre infini de prédicteurs (données de processus).
 Les fusions et rapprochements statistiques de fichiers de provenance différentes ont pour but d’estimer des données manquantes en quantité (questions non posées) : nous menons des travaux dans ce domaine basés sur des approches de type multivarié. Une thèse de doctorat est en cours dans le cadre d’une convention de recherche avec EDF

II Contrôle de qualité multivarié, robustesse, détection de rupture, plans d’expériences

II.1 Contrôle multivarié

La mise au point de cartes de contrôle pour des processus complexes, c’est à dire caractérisés par plusieurs mesures corrélées entre elles fait appel à des techniques de détection de valeurs aberrantes multidimensionnelles qui sont intimement liées aux méthodes statistiques robustes. Les travaux menés portent sur l’utilisation de l’ACP,de l’ACPVI, et des statistiques robustes et ont conduit à des propositions nouvelles.

II.2 Détection de rupture

Le repérage de l’instant où un changement se produit dans le paramètre d’une distribution temporelle est d’intérêt primordial dans de nombreux domaines. Les travaux menés concernent essentiellement l’utilisation de procédures bayesiennes et non paramétriques pour différents types de distributions.

II.3 Plans d’expériences

La thèse de J.P.Gauchi sur les plans pour modèles non-linéaires a été soutenue en 1999 et représente un achèvement dans ce domaine qui intéresse chimistes, spécialistes du signal, biologistes etc.

III NTIC et enseignement de la statistique

Depuis plusieurs années des membres de l’équipe travaillent en collaboration avec le CRA Languedoc-Roussillon et l’École Nationale Supérieure d’Agronomie de Montpellier pour le développement d’outils d’auto-apprentissage de la statistique. Après avoir réalisé un didacticiel diffusé par la société Jériko, le groupe s’est tourné vers l’utilisation d’Internet avec le projet St@tNet qui a bénéficié d’un soutien financier de l’Agence Universitaire de la Francophonie (AUPELF-UREF) et du Ministère de l’Education Nationale (Direction de la technologie) (300kF) Ce projet a été réalisé en utilisant des technologies HTML, Java, Flash.

St@tNet s’adresse à un public de formation initiale et/ou continue de niveau Bac à Bac+2, mais peut également être utilisé (en partie) dans l’enseignement secondaire. Il comporte l’équivalent de sept livres interactifs couvrant les bases du raisonnement statistique, depuis le calcul des probabilités jusqu’à la théorie des tests, ou l’ajustement linéaire.

Les modules de cours St@tNet sont proposés en libre accès à l’adresse suivante : http://www.agro-montpellier.fr/cnam-lr/statnet

St@tNet est le seul cours francophone de statistique en « e-learning ».

L’expertise acquise dans ces projets a conduit à plusieurs contributions dans des colloques internationaux et notre équipe a été choisie pour participer au projet VL-CATS de l’Office Statistique des Communautés Européennes, dans le cadre du 5ème programme cadre de Recherche Européen (IST)

IV Autres thèmes

Dans le cadre de coopérations avec d’autres équipes, des travaux sont en cours sur les méthodes neuronales avec l’équipe de F.Badran. Des collaborations avec la chaire d’Hygiène et Sécurité ont donné lieu à des publications. D’autres collaborations sont en cours avec le projet SUVIMAX, ainsi que des recherches sur les problèmes statistiques posés par la datation au carbone14.

On notera également la participation de membres de l’équipe à de nombreux comités scientifiques, aux activités de la Société Française de Statistique dont G.Saporta a été élu président en juin 2000 (organisation de journées d’étude pour chercheurs) et la responsabilité de L.Tricot comme rédactrice en chef de la "Revue de Modulad" publiée par l’INRIA.

Nous participons également à la réalisation d’un logiciel statistique pour utilisateurs non-experts dans le cadre du projet européen X-STATIS financé par l’Office Statistique des Communautés Européennes.



Mis à jour le mercredi 22 juin 2011, par : wilk


Contact   |   Plan d'accès   |   Annuaire   |   Plan du site   |   IntraMaths   |   IntraCnam