Filipo Studzinski Perotto

Short Bio Parcours Biografia [+]

Education Formation Formação

2005 – 2010 : PhD in Computer Sciences (Artificial Intelligence / Machine Learning), Institut National Polytechnique de Toulouse 2005 – 2010 : Doctorat en Informatique (Intelligence Artificielle / Apprentissage Automatique), Institut National Polytechnique de Toulouse 2005 – 2010 : Doutorado em Ciência da Computação (Inteligência Artificial / Machine Learning), Instituto Nacional Politécnico de Toulouse ( INP / IRIT - ADRIA )

2002 – 2004 : Master in Computer Sciences (Artificial Intelligence), Federal University of Rio Grande do Sul 2002 – 2004 : Master en Informatique (Intelligence Artificielle), 2002 – 2004 : Mestrado em Ciência da Computação (Inteligência Artificial), ( UFRGS / INF - GIA )

2000 – 2001 : Licence in Sociology (unfinished) 2000 – 2001 : Licence en Sociologie (L2) 2000 – 2001 : Graduação em Sociologia (incompleta)

1997 – 2000 : Licence in Informatics 1997 – 2000 : Licence en Informatique 1997 – 2000 : Graduação em Ciência da Computação

Recent Professional Experience Expérience Professionnelle Récente Experiência Profissional Recente

2021 – ... : Research Engineer in Dynamical Optimization, ONERA/DTIS/SYD, Toulouse 2021 – ... : Ingénieur de Recherche en Optimisation Dynamique, ONERA/DTIS/SYD, Toulouse 2021 – ... : Engenheiro de Pesquisa em Otimização Dinâmica, ONERA/DTIS/SYD, Toulouse

2019 – 2021 : Post-Doctoral Researcher, University of Toulouse - Paul Sabatier / IRIT-SMAC 2019 – 2021 : Post-Doctorant, Université de Toulouse - Paul Sabatier / IRIT-SMAC 2019 – 2021 : Post-Doutorando, Universidade de Toulouse - Paul Sabatier / IRIT-SMAC

2018 – 2019 : Post-Doctoral Researcher, INSA of Rouen / LITIS-MIND 2018 – 2019 : Post-Doctorant, INSA de Rouen / LITIS-MIND 2018 – 2019 : Post-Doutorando, INSA de Rouen / LITIS-MIND

2016 – 2018 : Lecturer, University of Rouen / LITIS-MIND 2016 – 2018 : Enseignant Contractuel, Université de Rouen / LITIS-MIND 2016 – 2018 : Professor Substituto, Universidade de Rouen / LITIS-MIND

2014 – 2016 : Lecturer, University of Toulouse / IRIT-LILaC 2014 – 2016 : Attaché Temporaire d’Enseignement et Recherche (ATER), Université de Toulouse / IRIT-LILaC 2014 – 2016 : Professor Substituto, Universidade de Toulouse / IRIT-LILaC

2012 – 2014 : R&D Engineer, Epsilon Ingénierie SAS (ALCEN Group), Toulouse 2012 – 2014 : Ingénieur de Recherche et Développement, Epsilon Ingénierie SAS (Groupe ALCEN), Toulouse 2012 – 2014 : Engenheiro R&D, Epsilon Ingénierie SAS (Grupo ALCEN), Toulouse

Teaching Activities Activité d'Enseignement dans des Écoles Supérieures Atividades de Ensino Superior

2016 – 2017 : Rouen Normandy University (France), Sciences and Technics Faculty 2016 – 2017 : Université de Rouen Normandie, UFR Sciences et Techniques 2016 – 2017 : Universidade de Rouen Normandia (França), Faculdade de Ciências e Técnicas

2014 – 2016 : Toulouse 1 Capitole University (France), Faculty of Informatics 2014 – 2016 : Université Toulouse 1 Capitole, Faculté d'Informatique 2014 – 2016 : Universidade Toulouse 1 Capitole (França), Faculdade de Informatica

2011 – 2012 : École Supérieure d’Informatique (SUPINFO)

2010 – 2011 : Faculty SENAC, Brazil 2010 – 2011 : Facultés SENAC, Brésil 2010 – 2011 : Faculdades SENAC, Rio Grande do Sul

2008 – 2009 : Federal University of Rio Grande do Sul (UFRGS), Brazil 2008 – 2009 : Université Fédérale du Rio Grande do Sul (UFRGS), Brésil 2008 – 2009 : Universidade Federal do Rio Grande do Sul (UFRGS)

Scientific Commitee Member Participation à des Comités Scientifiques Participação em Comitês Cientificos

Program Commitee Member : ECML-PKDD (2020), IJCAI (2016), SGAI (2020, 2019, 2008, 2007). Membre de comité de programme : ECML-PKDD (2020), IJCAI (2016), SGAI (2020, 2019, 2008, 2007). Membro do comité cientifico : ECML-PKDD (2020), IJCAI (2016), SGAI (2020, 2019, 2008, 2007).

Reviewer : AAMAS (2019, 2018, 2017, 2016, 2015), IJCAI (2015), FLAIRS (2015). Relecteur : AAMAS (2019, 2018, 2017, 2016, 2015), IJCAI (2015), FLAIRS (2015). Revisor : AAMAS (2019, 2018, 2017, 2016, 2015), IJCAI (2015), FLAIRS (2015).

Spoken Languages Langues Linguas

Portuguese (native speaker) Portugais (langue maternelle) Português (nativo)

French (C2 - excellent) Français (C2 - excellent) Francês (C2 - excelente)

English (C1 - advanced) Anglais (C1 - avancé) Inglês (C1 - avançado)

Spanish (B2 - professional) Espagnol (B2 - professionnel) Espanhol (B2 - profissional)

Publications Publications Publicações [+]

International Journals Révues Internationales à Comité de Lecture Periodicos Internationais [-]

Book Chapters Chapitres d'Ouvrages Scientifiques Capitulos de Livro [-]

Perotto, F.S. (2012).

Anticipatory Learning Mechanisms

In: SEEL, N.M. (ed.). Encyclopedia of the Sciences of Learning. Berlin/Heidelberg: Springer. p.266-269. ISBN 978-1-4419-1427-9

PhD Thesis Thèses de Doctorat Teses de Doutorado [-]

Perotto, F.S. (2010).

Un mécanisme constructiviste d’apprentissage automatique d’anticipations pour des agents artificiels situés

Université de Toulouse. [en français et en portugais]

International Conferences Papers Actes de Communication Internationales à comité de Lecture Artigos em Conferências Internacionais [-]

FS Perotto, S Vakili, P Gajane, Y Faghan, M Bourgais. (2021).

Gambler bandits and the regret of being ruined

In: 20th International Conference on Autonomous Agents and Multiagent Systems (AAMAS).
FS Perotto, et al. (2021).

Integrating Shared Information into the Sensorial Mapping of Connected and Autonomous Vehicles

In: 13th International Conference on Agents and Artificial Intelligence (ICAART).
FS Perotto, N Verstaevel, I Trabelsi, L Vercouter. (2021).

Combining Bandits and Lexical Analysis for Document Retrieval in a Juridical Corpora

In: International Conference on Innovative Techniques and Applications of Artificial Intelligence (SGAI). Springer.
Perotto, F.S.; Bourgais, M.; Silva, B.C.; Vercouter, L. (2019).

Open Problem: Risk of Ruin in Multi-Armed Bandits

In: CONFERENCE ON LEARNING THEORY, COLT, 2019, Proceedings, v.99, PMLR, p.3194-3197.
Perotto, F.S.; Vercouter, L. (2018).

Tuning the Discount Factor in Order to Reach Average Optimality on Deterministic MDPs

In: BRITISH CONFERENCE ON ARTIFICIAL INTELLIGENCE, SGAI, 2018. Proceedings, LNCS v.11311. Springer. p.92-105.
Airiau, S.; Grandi, U.; Perotto, F.S. (2017).

Learning Agents for Iterative Voting

In: ALGORITHMIC DECISION THEORY, ADT, 2017. Proceedings, LNAI, v.10576. Springer. p.139-152.
Perotto, F.S. (2012).

Toward Sophisticated Agent-Based Universes : statements to introduce some realistic features into classic AI/RL problems

In: INTERNATIONAL CONFERENCE ON AGENTS AND ARTIFICIAL INTELLIGENCE, ICAART, 4th, 2012, Vilamoura, Portugal. Proceedings, SciTePress. p.433-438. ISBN 978-989-8425-95-9
Perotto, F.S. (2012).

Recognizing Internal States of Other Agents to Anticipate and Coordinate Interactions

EUROPEAN WORKSHOP ON MULTI-AGENT SYSTEMS, EUMAS, 9th, 2011. Revised Selected Papers, LNAI, 7541, Springer. p.238-258. ISBN 978-3-642-34798-6
Perotto, F.S.; Buisson, J.-C.; Álvares, L.O.C. (2009).

Un Mecanismo Constructivista para el Aprendizaje de Anticipaciones en Sistemas Acoplados Agente-Ambiente

In: CONFERENCIA LATINO-AMERICANA DE ESTUDIOS EN INFORMÁTICA, CLEI, 35th, 2009, Pelotas, RS, Brésil. Proceedings, Pelotas: UFPel. [en espagnol] ISBN 8-5766-9247-3
Quinton, J.-C.; Perotto, F.S.; Buisson, J.-C. (2008).

Anticipative Coordinated Cognitive Processes for Interactivist and Piagetian Theories

In: CONFERENCE ON ARTIFICIAL GENERAL INTELLIGENCE, AGI, 1st, 2008, Memphis, TN, USA. Proceedings, Amsterdam: IOS Press, v.171. p.287-298. ISBN 978-1-5860-3833-5
Perotto, F.S.; Álvares, L.O.C.; Buisson, J.-C. (2007).

Constructivist Anticipatory Learning Mechanism (CALM): Dealing with Partially Deterministic and Partially Observable Environments

In: INTERNATIONAL CONFERENCE ON EPIGENETIC ROBOTICS, EpiRob, 7th, 2007, Piscataway, NJ, USA. Proceedings, New Jersey: Lund University. p.117-127. ISBN 978-9-1974-7418-5
Perotto, F.S.; Álvares, L.O.C. (2007).

Incremental Inductive Learning in a Constructivist Agent

In: INTERNATIONAL CONFERENCE ON INNOVATIVE TECHNIQUES AND APPLICATIONS OF ARTIFICIAL INTELLIGENCE, SGAI, 26th, 2006, Cambridge, UK. Proceedings, Londres: Springer-Verlag. p.129-144. ISBN 978-1-8462-8662-9
Perotto, F.S.; Álvares, L.O.C. (2006).

Learning Environment Regularities with a Constructivist Agent

In: INTERNATIONAL JOINT CONFERENCE ON AUTONOMOUS AGENTS AND MULTIAGENT SYSTEMS, AAMAS, 7th, 2006, Hakodate, Japon. Proceedings, New York: ACM. p.807-809. ISBN 978-1-5959-3303-4
Silva, B.C.; Basso, E.W.; Perotto, F.S. (2006).

Improving Reinforcement Learning with Context Detection

In: INTERNATIONAL JOINT CONFERENCE ON AUTONOMOUS AGENTS AND MULTIAGENT SYSTEMS, AAMAS, 7th, 2006, Hakodate, Japon. Proceedings, New York: ACM. p.810-812. ISBN 978-1-5959-3303-4
Perotto, F.S.; Vicari, R.M.; Álvares, L.O.C. (2004).

An Agent Architecture based on Constructivist Artificial Intelligence

In: ARTIFICIAL INTELLIGENCE APPLICATIONS AND INNOVATIONS, AIAI, 1st, 2004, Toulouse, France. Proceedings, Londres: Kluwer. p.103-115. ISBN 1-4020-8150-2

Peer Reviewed National Journals Révues Nationales à Comité de Lecture Periodicos Nacionais [+]

Perotto, F.S.; Vicari, R.M. (2001).

Modelagem do Conhecimento, Sistemas Especialistas e o Projeto SEAMED

Revue Électronique d’Initiation Scientifique (REIC), 1(1). Porto Alegre: UFRGS. [en portugais] ISSN: 1519-8219

National Conferences Papers Actes de Communication Nationales à Comité de Lecture Artigos em Conferências Nacionais [+]

Perotto, F.S.; et al. (2019).

Une approche hybride pour la segmentation automatique de documents juridiques.

In: TRAITEMENT AUTOMATIQUE DES LANGUES NATURELLES, TALN, 2019, Toulouse, Actes, AFIA. p.447-455. [en français]
Perotto, F.S. (2019).

Bandits Manchots Survivants

In: JOURNÉES FRANCOPHONES SUR LA PLANIFICATION, LA DÉCISION ET L’APPRENTISSAGE, JFPDA, 14th, 2019, Toulouse, France. Actes. AFIA. p.61-72. [en français]
Perotto, F.S. (2016).

Itération de Politique par Trajectoires

In: JOURNÉES FRANCOPHONES DE L’INTELLIGENCE ARTIFICIELLE FONDAMENTALE, JIAF, 10th, 2016, Montpellier, France. AFIA. p.189-198. [en français]
Perotto, F.S. (2015).

Exploration et Exploitation dans des MDPs Cybernétiques

In: JOURNÉES FRANCOPHONES SUR LA PLANIFICATION, LA DÉCISION ET L’APPRENTISSAGE, JFPDA, 10th, 2015, Rennes, France. AFIA. p.61-72. [en français]
Perotto, F.S.; Buisson, J.-C.; Álvares, L.O.C. (2009).

Um Mecanismo Construtivista para a Aprendizagem de Estrutura de MDPs Fatorados e Parcialmente Observáveis.

In: ENCONTRO NACIONAL DE INTELIGÊNCIA ARTIFICIAL, ENIA, 7th, 2009, Bento Gonçalves, RS, Brésil. Proceedings, Porto Alegre: SBC. p.1029-1038. [en portugais] ISBN: 2175-2761

Portfolio [+]

Web Design Développement Web Programação Web [-]

www.fsperotto.com

This website was entirely conceived and developped by me : contents, graphic design, and behaviors. La page web que vous êtes en train de consulter a été entièrement conçue par moi : les contenus, le design graphique, ainsi que les comportements. A pagina web que você esta consultando foi inteiramente concebida por mim : conteudos, design grafico e comportamentos.

It's a static web page, developed under the framework HTML 5.0, CSS 3.0, and JavaScript/JQuery. Il s'agit d'une page web statique, développée dans le framework HTML 5.0, CSS 3.0, et JavaScript/JQuery. Trata-se de uma pagina web estatica, desenvolvida dentro do framework HTML 5.0, CSS 3.0, e JavaScript/JQuery.

The source code of this page is available here: Le code source de la page est disponible ici : O codigo fonte da pagina esta disponivel aqui:

www.fahrenheit-pi.com

Entre 2012 et 2014 j'ai travaillé en tant qu'ingénieur de recrche et développement dans l'entreprise EPSILON-ALCEN, à Toulouse, spécialisée dans l'ingénierie thérmique.

Une de mes foncions à l'époque, en colaboration avec d'autres membres de l'équipe informatique, était le developpement du site web dédié de la plateforme de mutualisation FARENHEIT.

Ce portail web a été dévéloppé en PHP à l'aide du système de gestion de contenus Joomla, intégré à des applications JavaEE internes, dont l'accés est restreint au personnel authorisé.

Mes responsabilités étaient le déployement et la gestion des serveurs (Apache/PHP, JBoss, MySQL), le développement des nouveaux modules Joomla en PHP, le développement d'applications web sous JavaEE, et l'intégration au service d'authentification unifié CAS (modules Apache et Java).

APPRENTISSAGE MULTI-AGENT EN SITUATION D’ÉLECTION ITÉRATIVE [-]

En ce qui concerne l’étude des mécanismes sociaux, la théorie du vote fournit un important modèle d’interaction. En intégrant l'équipe LILaC, à partir d'une collaboration avec les collègues du groupe, on a travaillé dans l'itersection entre le choix social et l’apprentissage multi-agent. Dans une situation de choix social, un agent vote stratégiquement : il ne dévoile pas sa vraie préférence, mais il choisi l'action qui lui permettra d'obtenir un résultat collectif plus intéressant par rapport au résultat qu’il aurait obtenu s’il avait voté de façon sincère.

Dans cette recherche, nous avons étudié la capacité d’apprentissage des agents dans une situation de choix collectif. Chaque agent, possédant une fonction de préférence privée concernant les candidats, participe à une élection itérative. À chaque tour, les agents votent et un candidat est déclaré vainqueur selon la règle de majorité simple. La même élection se répète selon un nombre d’itérations prédéfini, et les agents reçoivent de récompenses proportionnelles à la position du candidat vainqueur dans sa propre échelle de préférences. Un mécanisme d’apprentissage par renforcement peut ainsi être utilisé. La stratégie de vote de chaque agent est modifiée par le calcul de l’utilité de ses actions dans les itérations précédentes.

Nous avons réalisé plusieurs expériences, faisant varier le nombre de votants et de candidats, ainsi que la forme de génération des fonctions de préférence individuelles, et nous avons démontré que ces agents, équipés d’un mécanisme d’apprentissage simple, du type multiarmed bandit optimiste en face à l’incertitude, peuvent apprendre à prendre de décisions collectives dans un niveau de qualité similaire à d’autres procédures de vote itératif, comme Best-Response et STV. Ainsi, nous avons pu vérifier que des agents dotés de ce genre de mécanisme sont capables d’apprendre à voter de façon stratégique à partir des interactions passées, et que les résultats de ces élections s’améliorent effectivement à chaque itération selon les mesures standard de qualité de décision, comme Condorcet-Efﬁciency et Borda-Score.

Dans les scénarios proposés, l’information disponible pour les agents se limite au candidat gagnant à chaque itération, contrairement à d’autres méthodes de vote itératif qui demandent plus d’information, comme le score des candidats. De la même façon, nos agents sont autorisés à changer leur vote simultanément à chaque itération, ce qui n’est pas souvent permis par les méthodes classiques pour de raisons de convergence.

Ce travail a été présenté lors du workshop ALA 2016, et sera présenté et publié lors de la conférence ADT 2017.

Vous pouvez télécharger l'article ici :

Vous pouvez également télécharger le code source du programme Java ici :

DILEMME ENTRE L’EXPLORATION ET L’EXPLOITATION [-]

Quand un agent doit apprendre la dynamique de son environnement à travers ses interactions, et en même temps optimiser son comportement (pour maximiser l’espoir de futures récompenses), il se voit piégé par le dilemme entre l’exploration et l’exploitation. S’il décide prématurément de suivre la politique d’actions qui lui semble la meilleure (l’exploitation), il risque d’accepter un comportement sous-optimal (un maximum local). Inversement, s’il reste trop longtemps à explorer l’environnement à la recherche de la solution optimale, il perd l’occasion de profiter de ce qu’il a déjà appris.

L’objectif des mécanismes d’apprentissage par renforcement est de trouver une politique d’actions qui maximise les récompenses, et qui présente le moindre regret, c’est-à-dire, que la performance cumulative de l’agent dans le long-terme doit se rapprocher de la performance cumulative d’un agent hypothétique qui agit dès le début selon une politique optimale. Deux types de stratégie pour résoudre ce dilemme existent : (a) réaliser une exploration non-dirigée, en introduisant une certaine quantité d’actions aléatoires dans le comportement de l’agent ; ou (b) suivre le principe de l’optimisme face à l’incertitude.

Les algorithmes liés à la première stratégie (l’exploration non-dirigée), comme ε-greedy, sont faciles à implémenter, mais ils sont inefficaces dans des nombreuses situations d’apprentissage séquentiel. Le deuxième groupe d’algorithmes (optimistes face à l’incertitude), comme UCB et R-Max, présente le défaut de ne pas prendre en compte le coût de l’exploration, pouvant plonger l’agent dans une longue phase d’exploration au début du temps de sa vie.

Dans deux articles récents (2015) je propose une solution pour éviter les périodes d’exploration initiale non-régulée. L'algorithme se base sur l’idée d’utiliser l’information relative à l’état de l’agent, et ainsi de choisir les bons moments pour changer de stratégie, entre l’exploration et l’exploitation. Dans l’algorithme proposé, l’agent est engagé avec un comportement pendant un certain temps, ce qui lui permet de persévérer dans la recherche des récompenses ou des découvertes distantes dans l’espace d’états.

Pour montrer l’intérêt d’une telle solution, nous avons modifié le problème classique d’apprentissage par renforcement dans lequel le but est simplement de trouver la solution optimale en minimisant le regret. Dans notre proposition, les récompenses positives ou négatives reçues par l’agent se cumulent dans une variable qu’on appelle « énergie ». Comme dans le modèle cybernétique, le but de l’agent devient, en plus de trouver une politique qui maximise les récompenses, d’éviter que son énergie retombe à un niveau critique, trop près de zéro.

Les algorithmes d'apprentissage, ainsi que des problèmes tels que le crawling-robot, ont été implémentés en Java sous Eclipse, utilisant l'architecture MVC multithreading, ansi que les bibliotèques Swing pour l'IHM.

Dans ces articles, nous avons comparé les algorithmes classiques avec notre algorithme, en obtenant des résultats intéressants. Nous avons démontré, pour des problèmes standards, que notre méthode est capable de trouver efficacement la politique optimale, tout en évitant de se retrouver sans énergie.

Vous pouvez télécharger les articles ici :

PROGRAMMATION DYNAMIQUE POUR L’OPTIMISATION DE LA MOYENNE [-]

La programmation dynamique est constituée d’un ensemble d’algorithmes capables de calculer efficacement des politiques optimales pour les processus de décision markoviens, fournissant les fondations pour les algorithmes d’apprentissage par renforcement. La majorité de ces algorithmes suppose que la politique optimale est celle qui maximise la somme de récompenses dévaluées. Cependant, ce critère n’est pas approprié à plusieurs systèmes récurrents (où il n’y a pas un état terminal), pour lesquels la récompense moyenne s’accorde mieux.

Dans cette recherche, nous avons développé une méthode de programmation dynamique originale pour le calcul de politiques optimales selon le critère de la moyenne (gain) et de tous les ordres de moyenne ajustée (bias). L’algorithme, appelé Trajectory Policy-Iteration (TPI) est capable de trouver une solution en temps polynomial quand le processus présente des transitions déterministes.

TPI estime la fonction de valeur des processus de décision markoviens (MDPs) en considérant un horizon de temps illimité (potentiellement infini). L’algorithme utilise l’information structurale sous-jacente au processus, de manière à estimer l’utilité des paires état-action à travers l’identification des circuits et des chemins transitoires dans le processus, pouvant ainsi calculer la moyenne des récompenses attendues pour chaque segment. Les différents ordres de la moyenne ajustée ont été traités par une technique intuitive, qui constitue une contribution tant comme interprétation originale du sens de ces divers degrés d’ajustement, que comme méthode nouvelle pour évaluer et trouver telles solutions.

La viabilité de l’algorithme est supportée par des résultats expérimentaux. Un article a été présenté dans le workshop JIAF 2016, et un autre, conséquence de ce même projet, est en préparation.

Vous pouvez télécharger l'article ici :

SIMULATION ET OPTIMISATION DE PERFORMANCES THERMIQUES [-]

Entre le mois d’avril 2012 et le mois de septembre 2014, j’ai intégré la société Epsilon Ingénierie SAS (entreprise membre du groupe ALCEN), située à Toulouse, en tant qu’ingénieur de recherche et développement. Dans ce cadre, j’ai eu l’occasion de participer à des recherches concernant les méthodes de simulation et de modélisation automatique appliquées aux problèmes d’ingénierie thermique, en utilisant des méthodes de régression et d’optimisation, des réseaux de neurones artificiels, et des outils de simulation. Cette expérience en entreprise a représenté une riche opportunité pour apprendre à adapter mon savoir-faire, plutôt lié à un univers académique et théorique, dans un environnement industriel, avec les pratiques de la recherche appliquée.

Dans le contexte industriel de l’ingénierie thermique, une problématique importante est l’analyse de points thermiquement vulnérables des produits (pièces d’un satellite, d’un avion, microcomposants électroniques, etc.). Les études de viabilité de ces composants ne se font pas par l’expérimentation réelle, vu que la construction d’un prototype est financièrement impraticable, mais à travers des simulations avec des logiciels spécialisés dans la reproduction du comportement des matériaux (modèle physique d’éléments finis).

Le but de ces simulations thermiques est de trouver les points ou la région la plus sensible du composant, et ensuite la redimensionner automatiquement à fin d’augmenter la fiabilité de la pièce. Cette procédure se poursuit itérativement, jusqu’à ce que des niveaux de fiabilité prédéterminés soient vérifiés (résistance aux températures extrêmes).

Cependant, l’exécution répétée des simulations numériques détaillées prenant en compte tous les éléments finis qui constituent le modèle physique est prohibitive en temps de calcul. Une alternative consiste à utiliser des modèles de substitution à temps de réponse rapide, dont les paramètres sont obtenus à partir d’échantillons de données générées à partir d’une simulation partielle du système physique. Il s’agit de constituer un modèle réduit possédant une forme analytique paramétrée à partir de l’interpolation ou de la régression des échantillons.

Dans ce cadre, j’ai participé au développement d’un outil capable d’extraire un modèle fonctionnel qui représente un composant physique de manière abstraite, et d’indiquer, à chaque itération, les points potentiellement sensibles du modèle, et qui doivent donc être détaillés par une nouvelle simulation physique partielle. Cet outil effectue la construction des modèles réduits à travers des réseaux de neurones artificiels. Le plan d’expériences peut ainsi être enrichi progressivement par l’ajout des points extraits du modèle obtenu avec le réseau de neurones dans la simulation physique.

La procédure est la suivante : (a) des échantillons de données représentant les températures maximales atteintes dans quelques points du composant sont générés par simulation physique ; ensuite (b) les paramètres d’un réseau de neurones du type backpropagation (où les entrées correspondent aux différentes dimensions du composant) sont appris en utilisant ses échantillons, et le réseau de neurones devient un modèle simplifié du comportement thermique du composant ; (c) on calcule le point où la température est maximale ; (d) on rajoute ce point au plan d’expériences, et on génère des données pour ce point dans la simulation physique ; (e) on répète ces pas jusqu’à la convergence.

Ce travail, faisant partie d’un contexte de recherche uniquement industrielle, n’a pas été publié en forme d’article scientifique. Il a produit un outil utilisé dans les études thermiques menées par l’entreprise. Le temps moyen de simulation qui s’élevait à plusieurs heures a été réduit à quelques secondes.

MÉCANISMES ANTICIPATOIRES POUR DES AGENTS AUTONOMES [-]

En 2010, j’ai obtenu mon doctorat en intelligence artificielle, réalisé en cotutelle entre l’Université Fédérale du Rio Grande do Sul (UFRGS), au Brésil, et l’Institut National Polytechnique de Toulouse (INP), en France. J'ai été accueilli au sein de l'équipe ADRIA à l'IRIT pour développer une thèse se situant entre la thématique de l’IA constructiviste et des architectures pour des agents autonomes.

Ma thèse, intitulée « Un mécanisme constructiviste d’apprentissage automatique d’anticipations pour des agents artificiels situés » présente une discussion théorique sur le concept d’agent autonome pour ensuite approcher le problème de l’apprentissage de modèles de monde à partir de l’interaction. L’architecture CAES et le mécanisme CALM sont présentés, supportés par des éléments issus du paradigme de l’intelligence artificielle située et affective, des considérations provenant de la psychologie du développement, et de l’état-de-l’art en apprentissage automatique, mécanismes constructivistes, systèmes de classification anticipatoires, MDPs factorisés et partiellement observables.

CAES (Coupled Agent-Environment System) constitue une architecture qui décrit l’agent et l’environnement comme deux systèmes partiellement ouverts, en couplage dynamique, suivant les principes de la situativité et de la motivation intrinsèque.

CALM (Constructivist Anticipatory Learning Mechanism) est un mécanisme d’apprentissage fondé sur l’approche constructiviste de l’intelligence artificielle. Il permet à un agent situé de construire un modèle de monde dans des environnements partiellement observables et partiellement déterministes, sous la forme d’un processus de décision markovien factorisé (FMDP). Le modèle de monde construit est ensuite utilisé pour définir une politique d’actions visant à optimiser la performance de l’agent.

L’originalité de l’approche utilisée pour affronter la modélisation de l’environnement à partir des observations est la capacité d’induire l’existence des propriétés non-observables du problème. De cette façon, au lieu de construire directement des distributions de probabilités pour anticiper les transformations captées par la perception, l’agent cherche à définir de nouvelles variables non-attachées aux senseurs qui puissent permettre la construction d’un modèle cohérent.

Les variables construites par le mécanisme, et qui sont donc non-observables, aident à anticiper le changement des variables observables du système. Mais ces variables, dites abstraites, doivent elles aussi être intégrées dans le cycle d’anticipation du mécanisme, à fin que l’agent puisse déterminer dans quel état se trouve l’environnement.

Le mécanisme approche donc trois différents problèmes : (a) l’apprentissage par renforcement, où, à partir d’un modèle de monde, il faut définir une politique d’actions à fin d’optimiser le comportement de l’agent, (b) l’apprentissage de modèles de monde, qui est un type d’apprentissage supervisé où la propre dynamique observable de l’environnement sert à construire une représentation anticipatoire des événements, et (c) la construction de concepts abstraits pour représenter des éléments non-observables de l’univers.

Le modèle de monde que CALM construit décrit les régularités déterministes de l’environnement où l’agent est situé, même s’il peut présenter aussi des phénomènes non-déterministes. Dans des univers bien structurés, même ceux qui sont complexes (comme le monde réel), la majorité des phénomènes se présente comme des transformations régulières si les conditions causales sont bien identifiées. Ainsi la stratégie adoptée dans CALM pour approcher l’incertitude c’est d’abord essayer de trouver les causes des phénomènes observables, avant de les prendre comme stochastiques.

Ainsi, CALM est capable de découvrir des régularités même quand elles sont dépendantes des propriétés non-observables de l’environnement. La stratégie est d’augmenter le vocabulaire de représentation de l’agent en ajoutant des éléments synthétiques qui peuvent être associés à des propriétés cachées, des conditions séquentielles, ou des conditions abstraites présentes dans les situations vécues par l’agent.

Dans CALM, la sélection des propriétés pertinentes pendant la construction de chaque structure d’anticipation se fait grâce à la constitution d’une mémoire épisodique généralisée. La mémoire épisodique garde le souvenir des traits des situations vécues par l’agent, liées à chaque transformation spécifique dont l’anticipation est en train de se construire. La taille de cette mémoire est gérable précisément parce qu’elle est généralisée, en limitant le nombre de conditions qui peuvent être observées simultanément.

L’efficacité du mécanisme est basée sur l’hypothèse d’un environnement bien structuré, où le nombre de propriétés pertinentes pour décrire chacune des transformations régulières est, au plus, d’ordre logarithmique par rapport au nombre total de propriétés du problème. Si cela est garanti, alors CALM peut traiter en temps polynomial des problèmes partiellement observables et partiellement déterministes.

Le travail développé dans cette thèse a produit plusieurs articles, indiqués sur la liste de publications.

Teaching Enseignement Ensino [+]

List by category Resumé par catégorie Resumo por categoria [-]

Artificial Intelligence Intelligence Artificielle Inteligência Artificial

Math : 60h Mathématiques : 60h Matematica : 60h

Databases : 292h Bases de données : 292h Bancos de Dados : 292h

Programming Programmation Programação

Introduction to Computer Science Introduction à l'informatique / C2i Introdução à Informatica

Computer and Microprocesso Architecture Architecture des ordinateurs et microprocesseurs Arquitetura de computadores et microprocessadores

Links Liens Links [+]

Press articles in the daily "O Sul" Articles dans le journal "O Sul" Artigos para o jornal "O Sul"

Press articles in the daily "Brasil 247" Articles dans le journal "Brasil 247" Artigos para o jornal "Brasil 247"

Contact Contact Contato [-]

Let's work together. Travaillons ensemble. Trabalhemos juntos.

Email Filipo Email Filipo Email Filipo

[first.last]@gmail.com [prénom.nom]@gmail.com [nome.sobrenome]@gmail.com

Filipo is: Filipo est : Filipo é: