Propositions theses

Application de l’apprentissage artificiel à la modélisation systémique de la chaîne hydrométéorologique pour la prévision des crues éclair (Thèse financée par un projet ANR)

Sujet : Application de l'apprentissage artificiel à la modélisation systémique de la chaîne hydrométéorologique pour la prévision des crues éclair

Objectif : développement de nouveaux outils opérationnels de vigilance et de prévision en cas de crue rapide, fondés sur la mise en œuvre de modèles conçus par apprentissage artificiel.

Lieu : Centre des Matériaux de Grande Diffusion, Ecole des Mines d'Alès (Gard-France), en collaboration avec l'ESPCI-Paristech (Paris)

Prothèse vocale et apprentissage statistique (Bourse "fléchée" du Ministère de la Recherche, École Doctorale EDITE de Paris)

L'objectif de la thèse est de réaliser une prothèse vocale pour restituer leur voix d'origine aux personnes ayant perdu l'usage de la parole, à la suite d'une laryngectomie totale ou partielle, ou d'une atteinte neurologique.

Fonctionnant comme un synthétiseur vocal piloté par l'imagerie de la langue et des lèvres, acquise avec un échographe miniature et une caméra vidéo, ce dispositif devrait fournir un signal de synthèse qui reproduit aussi fidèlement que possible la voix du patient, offrant ainsi aux personnes atteintes de ce handicap la possibilité d'améliorer sensiblement leur qualité de vie. Les travaux de thèse pourront s'appuyer sur des résultats prometteurs obtenus dans le projet Ouisper (financé sur le contrat ANR-06-BLAN-0166, et soutenu par la DGA), qui prendra fin au début de 2010 ; toutefois, pour atteindre ces objectifs, le doctorant devra lever ces quatre verrous technologiques clés:

1) Nouveau protocole d'acquisition : le protocole actuel nécessite de fixer la tête du locuteur dans un banc de mesures. Le doctorant devra concevoir et réaliser un système innovant qui permettrait de s'affranchir de cette contrainte, inacceptable dans une utilisation courante.

2) Nouveaux dictionnaires : les résultats obtenus à ce jour montrent qu'un fonctionnement du système en parole continue non-contrainte nest pas réaliste. Le doctorant devra réaliser des dictionnaires originaux, à vocabulaires restreints, mais suffisamment riches pour être d'une véritable utilité pour la communication orale des handicapés.

3) Nouvelles méthodes de synthèse : la synthèse concatenative, quoique conceptuellement simple, n'est pas suffisamment souple pour donner un bon résultat lorsque l'étape de reconnaissance contient des erreurs. Le doctorant devra concevoir de nouvelles méthodes de synthèse modélisant de manière plus acceptable les propriétés spectrales de la voix du locuteur, par exemple avec des réseaux Bayesiens. Des techniques innovantes pour récupérer la prosodie du locuteur seront également à développer.

4) Exécution en temps réel : la quantité de calculs nécessaires pour les étapes de reconnaissance et de synthèse étant significative, le doctorant devra réaliser une étape d'optimisation et d'adaptation des algorithmes utilisés sur une plateforme temps-réel.

Cette thèse, effectuée au Laboratoire d'Électronique de l'ESPCI-ParisTech (UMR 7084), s'inscrit dans un partenariat avec le Laboratoire de Phonétique et de Phonologie de Paris-3, spécialiste de la production de la parole et de ses pathologies. Le financement de ce projet est assuré en partie par l'ANR (appel Emergence-TEC 2009).

Le système développé dans la thèse offrira à la communauté des laryngectomisés (1 800 opérations par an en France) une alternative à l'électrolarynx et la voix trachéo-oesophagienne, options nécessitant une nouvelle chirurgie sans garantie de succès, et l'utilisation quotidienne de produits médicaux spécialisés. Ces voix de substitution nécessitent un apprentissage et une longue prise en charge orthophonique, parfois au-delà dune année. Le coût en termes de santé publique qui en découle est très significatif. D'utilisation simple et intuitive, ce nouveau système totalement non invasif permettra un retour à la voix d'origine de l'utilisateur, constituant une avancée socio-technologique importante, qui apportera une amélioration notable de la qualité de vie de la communauté visée, car aucune solution de ce type n'existe actuellement.
La thèse se situe également au coeur dun nouveau domaine appelé « interface de parole silencieuse », ou silent speech interface (SSI), actuellement en pleine émergence en France, en Allemagne, au Royaume-Uni, au Japon, et aux Etats-Unis, (voir, par exemple le numéro spécial de la revue Speech Communication, intitulé «Silent Speech Interfaces », édité par B. Denby, T. Schultz, et K. Honda, à paraître fin 2009). Ainsi, les technologies développées lors de la thèse auront un intérêt supplémentaire dans le secteur des télécommunications, autour de la réalisation d'un « téléphone silencieux » permettant à son utilisateur de communiquer oralement, mais en silence total. Dans le scénario d'un lien avec la téléphonie mobile, un marché très significatif semblerait envisageable.

Machines à vecteurs supports et autres méthodes à noyaux pour la modélisation dynamique

Projet :

Parmi les méthodes d'apprentissage dites « à noyaux », les machines à vecteurs supports ont été appliquées tout d'abord à la classification, puis à la modélisation statique, avec des résultats très prometteurs. En revanche, l'application de ces méthodes au problème de la modélisation dynamique est un sujet naissant pour lequel peu de résultats existent à ce jour [1].
Durant les deux dernières années, plusieurs travaux ont été menés dans ce sens au Laboratoire d'Électronique de l'ESPCI. En particulier, deux approches pour la mise en oeuvre des machines à vecteurs supports pour la modélisation dynamique de processus ont été proposées : une approche algorithmique et une approche analytique [2, 3].
Le présent sujet de thèse consiste en un approfondissement de ces résultats, en commençant les travaux par les deux points suivants :
1) Appliquer les deux approches (algorithmique et analytique) à des exemples académiques et à des données réelles afin d'en évaluer les performances et les limites, tout en les comparant à celles que l'on peut obtenir avec d'autres approches fondées sur l'apprentissage artificiel.
2) Effectuer une étude approfondie de l'approche analytique dans le but d'en proposer des versions améliorant notamment la précision de la modélisation ainsi que la vitesse de l'apprentissage.
Ce domaine de recherche étant novateur et ouvert, d'autres méthodologies originales pourront apparaître et être développées lorsque les travaux du candidat progresseront.

[1] J.A.K Suykens, J. Vandewalle, Recurrent least squares support vector machines. IEEE Transaction on Circuits and Systems-I, Vol. 47, No. 7, pp. 1109-1114, July 2000.

[2] Marc Lucea, Modélisation dynamique par réseaux de neurones et machines à vecteurs supports : contribution à la maîtrise des émissions polluantes de véhicules automobiles. Thèse de Doctorat de l'Université Pierre et Marie Curie - Paris VI (septembre 2006).

[3] Hai-Ni Qu, Yacine Oussar, Gerard Dreyfus?Weisheng Xu, Regularized Recurrent Least Squares Support Vector Machines. International Joint Conference on Bioinformatics, Systems Biology and Intelligent Computing, Shanghai, 2009.

Enjeux :

Les recherches en apprentissage artificiel ont été consacrées essentiellement à l'apprentissage de modèles statiques qui ne peuvent pas prendre en considération, donc modéliser, le comportement temporel des processus. Des modèles dynamiques à états discrets ont été proposés et sont largement utilisés (modèles de Markov cachés), et les seuls modèles dynamiques à état continu qui ont connus de réels succès sont les réseaux de neurones récurrents, largement mis en œuvre pour la modélisation et la commande de processus, dans des domaines aussi divers que la robotique ou l'environnement (prévision de crues [1]). L'enjeu de la thèse est de trouver des méthodes qui concilient la souplesse et la rapidité de mise en œuvre des réseaux de neurones dynamiques d'une part, et, d'autre part, l'efficacité des méthodes à noyaux telles que les machines à vecteurs supports du point de vue de la capacité de généralisation.

[1] Flash Flood Forecasting by Statistical Learning in the Absence of Rainfall Forecast: a Case Study, M. Toukourou, A. Johannet, G. Dreyfus, EANN, London (2009).

Mots-clés : Machine à vecteurs supports, méthodes à noyaux, modélisation dynamique, apprentissage.

La fibrillation auriculaire (FA) résulte d’un fonctionnement anarchique des oreillettes qui perdent alors toute efficacité. L’origine de cette pathologie est un défaut de propagation des signaux électriques dans le tissu cardiaque.

Dans le cas des FA paroxystiques (occasionnelles) un traitement médicamenteux est généralement prescrit. Lorsque ce traitement est inefficace, et dans les cas plus sévères (FA persistantes et permanentes), une procédure chirurgicale appelée ablation est préconisée. Cette opération consiste à introduire un cathéter d’ablation dans le cœur pour brûler les zones de tissu pathologique et les rendre ainsi inactives. Tout au long de cette procédure, les médecins analysent l’activité électrique des oreillettes grâce à des cathéters de mesure également introduits dans le cœur (cf figures). À partir de la forme de ces signaux et de leur évolution, ils choisissent les zones à brûler. L’analyse de ces signaux est néanmoins complexe, et l’information pertinente n’est pas clairement identifiée.

L’objectif du travail de thèse consiste à développer de nouvelles méthodes de traitement du signal pour extraire les caractéristiques importantes de ces signaux endocavitaires, et d’étudier leur pertinence pour la localisation des zones pathologiques, afin d’aider les médecins lors des procédures chirurgicales. Dans un premier temps, le travail portera sur l’étude des signaux enregistrés lors de FA paroxystiques pour lesquelles l’emplacement des foyers est connu. L’étude portera ensuite sur les FA chroniques, issues de dysfonctionnements plus complexes du tissu cardiaque, donc plus difficiles à analyser.

Les techniques de modélisation statistique et d’extractions de caractéristiques développées au laboratoire d’Électronique de l’ESPCI dans le domaine de la cardiologie, et plus généralement dans le traitement de données, serviront de point de départ pour cette thèse. L’expertise médicale nécessaire pour interpréter les signaux sera fournie par une équipe du CHU de Bordeaux.

Mots-clés : apprentissage automatique, aide au diagnostic, fibrillation cardiaque.

Apprentissage artificiel de données structurées pour l’aide à la conception de médicaments

Projet :

La mise en œuvre de méthodes d'apprentissage statistique pour l'aide à la conception de nouveaux médicaments a connu un essor rapide au cours des dernières années. Ces méthodes ont eu un profond impact sur le QSAR/QSPR (Quantitative Structure-Activity/Property Relationships). Dans ce cadre, le laboratoire a développé une méthode originale, appelée "Graph machine", par opposition aux traditionnelles "Vector machines". L'avantage majeur de cette méthode réside dans le fait que les molécules dont on veut prédire une ou plusieurs propriétés sont décrites directement à partir de leur structure, à l'aide d'un graphe dont les nœuds sont les atomes ou groupements, et dont les arêtes sont les liaisons chimiques entre ces derniers. Il n'est donc pas nécessaire, pour prédire une propriété ou activité donnée, d'imaginer, de calculer et de valider les descripteurs de la molécule qui sont pertinents pour la propriété ou l'activité en question : la méthode est générique, et permet de diminuer, dans des proportions considérables, le temps nécessaire pour réaliser la prédiction d'une propriété ou d'une activité. Cette méthode d'apprentissage sur des graphes a été validée avec succès sur diverses propriétés (coefficient de partage, point d’ébullition, volatilité, etc.) et activités (activité anti-HIV, cancérogénicité, activité anti-inflammatoire, toxicité, etc.) [1]. D’autre part, nous avons développé des méthodes originales et efficaces de sélection de modèles dans ce cadre d'apprentissage de graphes [2].

L'objectif de la thèse est de lever un verrou conceptuel important pour la mise en œuvre de la méthode à grande échelle, et d'aboutir à une proposition d'architecture logicielle pour une "boîte à outils de prédiction" innovante et efficace.

Les principales limitations des connaissances actuelles sur les graph machines résident dans le comportement de ces dernières dans deux cas : celui des très petits ensembles d'apprentissage et celui des très grands ensembles d'apprentissage. La première tâche consistera à établir avec précision ces limitations.

Il conviendra ensuite de traiter le problème des grandes bases de données, qui est crucial pour l'utilisation effective de cette méthode chez des industriels qui sont susceptibles de disposer de bases de données de grande taille.

Une première approche consistera à étendre aux graph machines les techniques dites "d'apprentissage actif" qui sont connues dans le cadre des méthodes d'apprentissage conventionnelles ; elles permettent de choisir, dans les bases de données de grande taille existantes, les exemples les plus informatifs pour l'apprentissage.
En même temps, on étudiera l'extension aux graph machines des techniques de plans d'expériences, qui, pour leur part, permettent d'optimiser la création d'une base de données. Les plans d'expériences et l'apprentissage actif sont donc deux approches complémentaires.

Enfin, on mettra en œuvre des méthodes de « comités de machines » utilisant les graph machines, les méthodes à noyaux, et les réseaux de neurones, afin de tirer le meilleur parti de ces approches, qui sont les plus récentes dans le domaine de la prédiction de propriétés et activités de molécules.

Le résultat final de la thèse pourrait être une proposition d'architecture logicielle pour une « boîte à outils de prédiction » qui guiderait le concepteur de médicaments vers la méthode de prédiction la mieux adaptée aux contraintes spécifiques de son problème (taille de la base de données, type de propriété/activité à prédire, pertinence des descripteurs existants).

La thèse, encadrée par Arthur Duprat, Maître de conférences à l'ESPCI-ParisTech, aura lieu au Laboratoire d'Électronique de cet établissement, en collaboration étroite avec le Laboratoire de Chimie Organique, au sein de l'UMR 7084. De nature pluridisciplinaire, cette thèse nécessitera de la part du doctorant des connaissances solides en statistiques et apprentissage artificiel.

[1] A. Goulon, T. Picot, A. Duprat, and G. Dreyfus,
Predicting activities without computing descriptors: graph machines for QSAR.

SAR and QSAR in Environmental Resesarch, vol. 18, pp. 141 - 153 (2007).

[2] A .Goulon-Sigwalt-Abram, A. Duprat, G. Dreyfus,
Graph Machines and Their Applications to Computer-Aided Drug Design: a New Approach to Learning from Structured Data,
Lecture Notes in Computer Science, vol. 4135, pp. 1 - 19, Springer (2006).

Enjeux :

Les méthodes actuelles d'exploration de l'univers des molécules sont encore très primitives, de sorte que le coût d'un médicament est essentiellement le coût de son développement : on estime que, pour une molécule qui aboutit sur le marché en tant que médicament, environ 10 000 autres molécules ont été synthétisées, puis abandonnées au cours du développement, soit parce qu'elles ne présentaient pas l'effet escompté, soit parce qu'elles possédaient des effets secondaires indésirables. Ces synthèses inutiles allongent le développement d'un nouveau médicament, et en grèvent évidemment le coût. C'est en cela qu'un "chimioscope", qui permettrait de prédire les propriétés des molécules par le calcul sans qu'il soit nécessaire d'en effectuer la synthèse, serait précieux, non seulement pour la connaissance fondamentale, mais également pour la réduction de la durée et des coûts du développement des nouveaux médicaments. Le projet proposé constitue un pas important dans cette direction.

Mots-clés : apprentissage artificiel, activité thérapeutique, toxicité, graph machines, méthodes à noyaux, réseaux de neurones

Directeurs de thèse : Gérard Dreyfus, Professeur, Arthur Duprat Maître de Conférences HDR.

Encadrement : Arthur Duprat.

Retour à la liste des thèses

Apprentissage statistique pour la localisation de téléphones portables en l'absence de GPS

Projet :

Depuis quelques années, le problème de la localisation de téléphones mobiles, pour les services d'urgence et pour les nouveaux services exploitant la localisation (Location Based Services en anglais), connaît un intérêt grandissant. C'est pourquoi les combinés radiomobiles sont de plus en plus fréquemment équipés de puces GPS ; néanmoins, celles-ci sont mal adaptées à la localisation de personnes à l'intérieur des bâtiments. Ceci est problématique pour certaines applications, telles que le suivi précis des déplacements d'individus atteints d'une détérioration intellectuelle, due à la maladie d'Alzheimer ou à une autre cause. Les solutions publiées dans les journaux spécialisés en télésurveillance médicale nécessitent généralement un système de capteurs et de dispositifs de communication spécialisés, qui est coûteux et compliqué à mettre en œuvre, et dont l'acceptation par l'utilisateur n'est pas garantie. Notre laboratoire à récemment mis au point une approche élégante, fondée sur l'apprentissage statistique, qui nécessite simplement que la personne à localiser porte sur elle un téléphone cellulaire muni d'une modification logicielle mineure. Afin de valider la technique, et d'établir les bases de son futur développement industriel, nous proposons un programme de recherche dans lequel le doctorant sera chargé de :

1) mettre au point, à partir d'un prototype existant, un système d'acquisition permettant d'effectuer des mesures simultanées des puissances des ondes radiotéléphoniques reçues en plusieurs lieux d'un même bâtiment ;

2) organiser et réaliser des campagnes de mesures dans une variété de styles de bâtiments, afin de valider la technique dans des conditions réalistes et de tester sa robustesse temporelle ;

3) expérimenter de nouveaux algorithmes d'exploitation des données pour la localisation, fondés sur les techniques d'apprentissage statistique.

La thèse s'intègre dans le projet ARPEGEO (Analysis of RadioPrints for Enhanced GEOlocalisation), qui implique deux professeurs, un maître des conférences, une doctorante, et plusieurs stagiaires au Laboratoire d'Électronique de l'ESPCI. L'établissement de partenariats est prévu dans le cadre du projet :
1) avec des chercheurs et praticiens du domaine de la gérontologie, afin d’évaluer l’acceptation de la solution proposée par sa communauté d’utilisateurs ;
2) et avec un opérateur ou constructeur du domaine de la radiotéléphonie, afin d'assurer la faisabilité de l'implantation des algorithmes développés dans un téléphone commercial.

La thèse sera dirigée par Bruce Denby, professeur à l'UPMC et chercheur au Laboratoire d'Électronique de l'ESPCI-Paristech, où se déroulera la thèse.

Enjeux :

Aujourd'hui, 20% de la population de l'Union Européenne est constituée d'individus de plus de 65 ans. En même temps, le coût par personne des services de santé pour ce même secteur de la population est environ 30 fois plus élevé que celui de la population adulte générale. La principale cause de détérioration intellectuelle chez les personnes âgées est la maladie d’Alzheimer, qui touche aujourd'hui plus de 20 millions de personnes mondialement (800 000 en France). Continuer de fournir un suivi sanitaire de qualité à une population croissante de personnes à risque nécessite de nouvelles solutions technologiques, dont la télémédecine et la télésurveillance sont deux exemples.

L'un des axes du plan Alzheimer 2008-2012 (http://www.plan-alzheimer.gouv.fr/) est d'apporter un soutien accru aux aidants familiaux. Les personnes qui prennent en charge les patients atteints de détériorations intellectuelles craignent que ces personnes ne quittent sans surveillance leur domicile ou leur lieu d'hébergement collectif, et n'errent pendant des heures, voire plus, dans la ville ou la campagne. Cette situation surviendrait chez près de 60% des personnes malades. Elle est plus fréquente à un stade avancé de la maladie, mais peut survenir à tous les stades. Elle est à l'origine de stress et d'angoisse qui débouchent le plus souvent sur un confinement de la personne à son domicile, puis à un épuisement des accompagnants et un recours précoce à l'institutionnalisation. La localisation minutieuse a donc pour objet de sécuriser la personne malade et son entourage, de raccourcir le temps de recherche en cas de disparition tout en respectant le besoin de liberté du patient, et le maintien de ses activités. Ceci est d'autant plus important que la personne est à une phase de début de la maladie et qu'elle a un réseau social faible ou distant qui ne peut veiller régulièrement sur elle.

Le suivi des mouvements quotidiens de personnes à risque dans leurs lieux de résidence permet donc de veiller à la santé de ces personnes dans l'environnement où elles sont le plus à l'aise. La solution proposée devrait permettre de localiser la personne à la pièce près lorsqu'elle se trouve encore dans les locaux, ou avec une précision équivalente dans le cas d'une errance à l’extérieur. La validité de notre approche ayant été démontrée, la thèse présentera à la fois des aspects pratiques et des aspects algorithmiques pour préciser les performances des algorithmes existants dans des conditions expérimentales très diverses, et, le cas échéant, d'améliorer ces algorithmes.

Directeur de thèse : Bruce DENBY

Retour à la liste des thèses