Laboratoire SIGMA - SIGnaux, Modèles, Apprentissage statistique

 
Propositions de thèses Propositions de stages Ce que sont devenus nos anciens doctorants

PROPOSITIONS DE STAGES (2ème année de master, fin d'étude d'Écoles d'ingénieurs, ...) :

APPLICATION DE L'APPRENTISSAGE ARTIFICIEL À LA PRÉDICTION DES CRUES RAPIDES

Encadrement

- Pierre Roussel-Ragot, Laboratoire SIGMA de l’ESPCI-Paristech, 10 rue Vauquelin 75005 Paris. Pierre.Roussel@espci.fr

- Anne Johannet, Centre des Matériaux de Grande Diffusion, Ecole des Mines d’Alès (Gard-France). anne.johannet@ema.fr

Contexte : Ce stage s’inscrit dans le cadre du projet FLASH subventionné par l’Agence Nationale pour la Recherche. Ce projet a pour objectif le développement de nouveaux outils opérationnels de vigilance et de prévision en cas de crue rapide, fondés sur la mise en œuvre de modèles conçus par apprentissage statistique.

Sujet : Une thèse actuellement en cours se donne pour but d’effectuer une prévision de débit et de hauteur d’eau de pointe en un endroit donné d’un cours d’eau et une prévision du temps où ce pic sera atteint en effectuant une modélisation non  linéaire de la chaîne hydrométéorologique.

Pour atteindre cet objectif, des techniques d’apprentissage artificiel (réseaux de neurones) sont mises en oeuvre pour élaborer des modèles dynamiques non linéaires dont les entrées externes sont les hauteurs d’eau mesurées par des pluviomètres en divers points du bassin versant.

Actuellement les réseaux de neurones sont utilisés sous forme de boîtes noires ; pour une prévision à l’horizon n+h, le réseau dispose en entrée des données à l’instant n.

Dans le cadre de son stage, l’étudiant devra chercher à prédire uniquement les hauteurs de pluie aux instants n+1, …, n+h à partir des données connues à l’instant n dans le but de construire ensuite un réseau constitué de deux blocs, les hauteurs des précipitations prédites étant utilisées en entrée d’un second réseau, dont la sortie sera la hauteur d’eau dans le cours d’eau.

Il étudiera également différentes architectures de réseaux de neurones pour l’approximation de modèles d’écoulement simples afin de déterminer si les réseaux à une couche cachée classiques sont les mieux adaptés.

Le stage est donc focalisé sur la modélisation par apprentissage artificiel. Le candidat utilisera les boîtes à outils disponibles sous Matlab. Il devra également s’intéresser aux phénomènes physiques mis en jeu puisqu’il travaillera sur des données réelles et sur des modèles hydrodynamiques.

APPLICATION DE L'APPRENTISSAGE ARTIFICIEL À LA MODÉLISATION SYSTÉMIQUE DE LA CHAÎNE HYDROMÉTÉOROLOGIQUE POUR LA PRÉVISION DES CRUES ÉCLAIR

Encadrement:

- Anne Johannet, Laboratoire d’accueil : Centre des Matériaux de Grande Diffusion, Ecole des Mines d’Alès (Gard-France). anne.johannet@ema.fr

-Pierre Alain Ayral : Laboratoire "Génie de l'Environnement Industriel", Ecole des Mines d’Alès (Gard-France). Pierre-Alain.Ayral@ema.fr.

- Pierre Roussel-Ragot, Laboratoire SIGMA de l’ESPCI-Paristech, 10 rue Vauquelin 75005 Paris. Pierre.Roussel@espci.fr

Contact : anne.johannet@ema.fr

Contexte : Ce travail s’inscrit dans un projet financé par l'Agence Nationale de la Recherche (ANR) qui a pour objectif le développement de nouveaux outils opérationnels de vigilance et de prévision en cas de crue rapide, fondés sur la mise en œuvre de modèles conçus par apprentissage statistique (réseaux de neurones, machines à vecteurs supports). Les sites d’étude et de déploiement sont le bassin versant du Gardon à Remoulins et ses exutoires amonts, ainsi que les bassins versants de la Cèze et de l’Ardèche. Ces sites sont connus pour leurs crues dévastatrices. Néanmoins, la méthodologie développée sera générique, et pourra s’appliquer dans l’avenir à d’autres bassins versants.

Le projet est réalisé en partenariat avec le SCHAPI (Service Central d'Hydrométéorologie et d'Appui à la Prévision des Inondations) et a pour finalité opérationnelle d’alimenter la carte « vigicrue » accessible sur internet pour les bassins versants visés (Figure 1).

Figure 1 : Exemple de carte de vigilance”vigicrue” (12 février 2009)

Sujet : Pour atteindre cet objectif, on utilisera des techniques d’apprentissage artificiel (réseaux de neurones), pour élaborer des modèles dynamiques non linéaires. Ces méthodes, déjà très efficaces (Figure 2) permettent d’utiliser des données d’entrée de différents types (intensité des pluies, spatialisation, …) pour estimer la grandeur à prédire. En particulier on s’intéressera dans ce stage à l'estimation des précipitations obtenue par les images radar couvrant la zone d'étude.

Figure 2 : Prévision à 3h, en l'absence de prévision de pluie, de la crue exceptionnelle de septembre 2002 (hauteurs H et débits Q à Anduze).

Après un premier travail de prise en main des données, on s'intéressera à la comparaison des lames d'eau estimées à partir des images radar et des pluviomètres, puis aux performances des modèles de prévisions par réseaux de neurones, alimentés d'une part par les données de précipitation radar et d'autre part, directement, par les données des réflectivités (relation réflectivité hauteur ou réflectivité pluie dans le diagramme ci-dessous).

Mots clés : systèmes dynamiques non linéaires, identification des systèmes, apprentissage artificiel, méthodes prévisionnelles, hydrogéologie, hydraulique, assimilation de données, informations géographiques.

VERS UNE AIDE À LA THÉRAPIE DU STRESS OXYDATIF

Le stress oxydatif est une anomalie caractérisée par un déséquilibre entre les molécules oxydantes auxquelles l’organisme est exposé et les antioxydants que l’on ingère ou que les cellules produisent. Il apparaît aujourd’hui comme un des facteurs aggravant majeur d’un grand nombre de pathologies (inflammations, athérosclérose, maladies cardiovasculaires, syndromes neuro-dégénératifs, cancers...).

De nombreuses études se sont penchées sur les vertus des antioxydants pour leur action contre le stress oxydatif ; elles montrent que le fait de rétablir les concentrations normales en antioxydants permet, dans une certaine mesure, de prévenir les maladies cardiovasculaires, les cancers, les problèmes articulaires et les maladies neuro-dégénératives.

Ainsi, les dosages, lors d’un bilan sanguin, des principaux antioxydants et marqueurs (glutathion réduit (GSH), glutathion oxydé (GSSG), peroxydes lipidiques, LDL, ADN oxydés, …) sont essentiels pour la détection du stress oxydatif ainsi que pour sa prévention (par la prescription d’un régime approprié ou de compléments alimentaires).

Le coût du bilan global étant élevé (entre 150 et 500 €), et la médecine prédictive étant un enjeu majeur dans l’avenir, une première étude de modélisation à partir de réseaux de neurones a permis de prédire avec une bonne précision les taux de GSH et GSSG.

L’objectif du stage proposé au laboratoire SIGMA (SIGnaux, Modèles, Apprentissage) est de passer du diagnostic à la thérapie : en effet, un diagnostic est fondé sur des corrélations entre les grandeurs mesurées, tandis que la thérapie nécessite de connaître les relations de cause à effet entre ces grandeurs. L’établissement de relations causales à partir de données est devenu un sujet de recherche très actif depuis une date récente, et correspond à une forte demande de la part des praticiens et des laboratoires pharmaceutiques.

Le stage sera effectué au laboratoire, en collaboration avec le Dr Michel Brack, pionnier de la recherche médicale en France sur le sujet.

Contact : Rémi DUBOIS, laboratoire SIGnaux, Modèles, Aprentissage (SIGMA), escalier H, 4ème étage

UNE PROTHÈSE "INTELLIGENTE" POUR PATIENTS LARYNGECTOMISÉS

Le projet s'inscrit dans un nouveau domaine appelé ‘interface de parole silencieuse’ ou ‘silent speech interface’ (SSI),  actuellement en pleine émergence sur le plan international. Il vise à mettre en place un dispositif de parole silencieuse portatif capable de restituer la voix d’origine aux personnes qui ont perdu l’usage de la parole, par exemple à la suite d’une laryngectomie consécutive à un cancer. Le dispositif est constitué d’une caméra rapide placée devant la bouche de l’individu ainsi que d’une sonde ultrasonore placée sous le menton, qui acquièrent les images des lèvres et de la langue en vue de les traiter ensuite par des méthodes d’apprentissage statistique.

 

La première étape du processus est la création d’une base d’apprentissage : avant l’intervention chirurgicale, le patient prononce un corpus de mots ou de phrases, et les séquences vidéo et ultrasonores correspondantes sont enregistrées. À partir de ces séquences, des descripteurs sont extraits des images vidéos et ultrasonores ; ils contiennent des éléments caractéristiques de chaque mot. C’est en comparant les descripteurs du mot prononcé avec ceux enregistrés dans la base d’apprentissage que l’on est ensuite capable de reconnaître le mot.

Dans une version actuelle du dispositif, l’acquisition des données et le traitement de ces dernières s'effectue au niveau des mots isolés. Le locuteur prononce un mot dans la base et le système fait passer l’enregistrement audio associé au mot reconnu.

Le projet consistera à étendre le système de reconnaissance et de restitution de la parole aux séquences de mots contenus dans la base d'apprentissage, permettant ainsi à un utilisateur du système de construire n'importe quelle phrase à partir des mots présents dans la base.

Le développement logiciel se fera en Matlab. L'étudiant sera amené à construire lui-même des bases d'apprentissage et à effectuer des acquisitions ainsi qu'une évaluation quantitative de la performance du système (précision et vitesse de réponse).

Contact : Bruce Denby (escalier H, pièce G407)

Lieu du stage : ESPCI ParisTech, laboratoire SIGnaux, Modèles, Apprentissage (SIGMA)

Contact : Bruce DENBY

L'APPRENTISSAGE ARTIFICIEL AU SERVICE DE L'IMAGERIE PAR RÉSONANCE MAGNÉTIQUE

L'imagerie par résonance magnétique (IRM) est pratiquée couramment dans le domaine du diagnostic médical. Le recours à un agent de contraste peut être nécessaire pour améliorer la précision de cet examen. Deux grandes classes de produits de contraste sont utilisées en milieu clinique : les complexes de gadolinium(III) et les particules super-paramagnétiques. Le gadolinium(III) étant toxique à l'état libre, il est associé à un ligand organique au sein d'un complexe. La connaissance de la constante de stabilité thermodynamique (Ktherm) de cet ensemble est une donnée de première importance dans la recherche d'agents de contraste plus performants dont le champ d’application pourrait être élargi à l’imagerie fonctionnelle.

Les valeurs des constantes de stabilité des complexes gadoliniés commercialisés et utilisés à des fins cliniques sont de l'ordre de 20 (exprimées en logKtherm). Il est maintenant admis que les structures polyamino-polycarboxyliques permettent d'obtenir des édifices dont la stabilité est compatible avec les contraintes de l’imagerie médicale.

La détermination expérimentale de telles constantes, le plus souvent par potentiométrie ou spectrophotométrie, est longue et fastidieuse ; c'est pourquoi le développement de méthodes de prédiction (relations structure-propriété quantitatives ou QSPR) peut se révéler extrêmement utile pour la recherche de nouveaux agents de contraste. Dans cette optique, nous avons élaboré un algorithme de prédiction fondé sur l'apprentissage statistique de graphes ("graph machines").1 À partir d’un ensemble de constantes de stabilité mesurées, cet outil infère une relation entre la structure du ligand organique, représentée par un graphe, et la valeur de la constante considérée. La validité du modèle dépend de la composition de la base d'apprentissage : sa diversité structurale doit être représentative de l'ensemble des familles de ligands du gadolinium(III) reportées dans la littérature. In fine, cet outil doit alors prédire les valeurs de logKtherm de nouveaux complexes à partir de la structure du ligand correspondant.

Les premiers résultats de prédiction concernant les complexes de gadolinium(III) sont encourageants. Ils ont notamment montré l’importance du choix de la base d’apprentissage. Au cours de ce stage, il conviendra d’affiner cette base, d’estimer la capacité de généralisation des modèles qui en résultent, et d’explorer la stabilité d’autres métaux de transition avec les mêmes ligands.

1 A. Goulon, T. Picot, A. Duprat, G. Dreyfus, Predicting activities without computing descriptors: graph machines for QSAR, SAR and QSAR in Environmental Research 2007, 18, 141-153.

Contact : Arthur DUPRAT

Lieu du stage : ESPCI ParisTech, laboratoire SIGnaux, Modèles, Apprentissage (SIGMA), escalier H, 4ème étage



IMAGERIE CÉRÉBRALE ET POKEMON

Lorsqu’un sujet regarde une lumière clignotant à une fréquence constante, la rétine transforme ce signal visuel en oscillations cérébrales de fréquences stables, appelées potentiels évoqués visuels stationnaires (steady-state visual evoked potentials, ou SSVEP). Les SSVEP ont plusieurs propriétés intéressantes, comme par exemple celle de se « fixer » sur les signaux EEG lors de tâches cognitives : les SSVEP interfèrent en effet systématiquement avec  les ondes cérébrales liées à la tâche, de sorte que ces interférence peut être utilisée comme un marqueur indiquant les propagations de ces mêmes ondes. Les SSVEP se propagent en outre à l’ensemble du cortex, ce qui en fait un outil de prédilection pour les interfaces cerveau-machines dits « dépendants ». Ce type de stimuli est également célèbre dans le milieu médical, puisqu’il permet de diagnostiquer les épilepsies photosensibles – on se rappellera par exemple la célèbre crise d’« épilepsie Pokémon » qui a fait plusieurs milliers de victimes au Japon. Toutes les propriétés des SSVEP ne sont pas encore connues, comme par exemple leurs mécanismes de propagation depuis l’aire V1 – dont les deux principales théories sont illustrées sur la figure ci-dessous :

C’est pour étudier ces mécanismes qu’une base de données combinant des enregistrements électroencéphalographiques (EEG) et d’imagerie par résonance magnétique fonctionnelle (IRMf) a été collectée au Riken Brain Science Institute (Japon). Les analyses préliminaires de ces données ont été réalisées; mais la comparaison de ces signaux EEG et IRMf, de natures très différentes, pose un problème scientifique : en effet, le signal EEG est la résultante des activités électriques des neurones au voisinage des électrodes, alors que le signal mesuré par résonance magnétique reflète les variations de la quantité d'oxygène transporté par l'hémoglobine en fonction de l'activité neuronale du cerveau (effet BOLD pour blood-oxygen-level dependent). L’objectif du projet de recherche consistera à extraire les oscillations transitoires des signaux EEG, dont on suppose qu’elles sont corrélées avec les signaux d’IRMf. La thématique de ce projet pluridisciplinaire mènera l’étudiant à aborder des aspects très actuels de neurosciences, de traitement de signal et d’apprentissage statistique.

Contact : François VIALATTE

Lieu du stage : ESPCI ParisTech, laboratoire SIGnaux, Modèles, Apprentissage (SIGMA), escalier H, 4ème étage


Retour en haut de page


[ SIGMA-ESPCI | ESPCI ]

Dernière mise à jour :