Commissariat à l’Energie Atomique (CEA)

SOLACI

Université Claude Bernard Lyon 1

 

Discipline : 71ème section

Laboratoire : ELICO

Ecole Doctorale : EPIC

 

Intitulé de la thèse : Processus et outils d’évaluation itératifs de traitements IA et d’extraction d’informations. Approches méthodologiques, enjeux scientifiques et stratégiques dans un environnement de Data Intelligence, Data Science.

Contexte de l’évaluation des algorithmes d’Intelligence Artificielle appliqués à la production scientifique

Les outils de Data Mining et de Text Mining sont de plus en plus utilisés pour cartographier du contenu documentaire, le catégoriser et l’enrichir pour améliorer la pertinence de moteurs de recherche.

La pertinence des résultats est rarement évaluée avec une méthode scientifique, automatisée, et des analyses en montrent les biais.

La pertinence des résultats est liée :

  • A un cas d’usage : regrouper des publications dans un même sujet, identifier des publications (proches) à partir d’une recherche.
  • Des constats à compiler permettant de donner une orientation à un résultat : pertinent, non pertinent, (Vrais/faux, Faux/Vrais)
  • La désambiguïsation.

Les mutations de la publication scientifique reposent sur sa fragmentation, sur l’intégration de standards technologiques et l’enrichissement de métadonnées (Herman, 2020). Elles ont été accompagnées de nouveaux modes de recherche et d’accès à l’information scientifique.

Cela a permis de fonder un axe de recherche à la convergence de l’Information Retrieval, du Data Mining et de l’évaluation de la qualité de l’information, que la littérature qualifie de Entity Tracking (Balog, 2011) (Yan, 2012). Il vise donc à aborder des corpus d’articles scientifiques par une approche de recherche d’entités.

Cet axe de recherche est porté par une communauté interdisciplinaire regroupée autour de conférences (ISSI, IEEE…) et de revues spécialisées (JASIST, Journal of Informetrics, …) et fédérée autour de deux questions de recherches principales : Entity Track and Evaluation et du Named Entity Recognition.

Objectif de la thèse

Le CEA a mis en place une chaîne de traitement des publications utilisant la linguistique combinée aux statistiques, le Traitement Automatique du Langage Naturel (TALN), Data science, Data Intelligence, Deep Learning et l’Intelligence Artificielle (IA). A partir de l’utilisation de ces modules il s’agit d’identifier et de modéliser les outils et les processus permettant de qualifier les données.

Le doctorant ou la doctorante sera donc en charge des activités suivantes :

–   Analyse des résultats de la chaîne de traitement sur la partie données/contenu : extraction, référentiels, graphes, moteur de recherche.

–  Spécifications et réalisation de méthodes et d’outils pour effectuer des analyses.

–   Fourniture de synthèses des analyses.

– Propositions formalisées de recommandation pour la préfiguration d’outils et de méthodes de travail

–   Élaboration d’outils et de méthodologie.

Intégration du travail de recherche dans un projet de gestion des connaissances (KM) du CEA

Cet enjeu est au cœur d’un projet porté par le Commissariat à l’Énergie Atomique (CEA) en collaboration avec la société SOLACI, et qui vise à explorer et à qualifier par cette approche, et dans un cadre plus large de gestion des connaissances, sa production scientifique. Plus particulièrement, dans un objectif de monitoring et pour contribuer à la gouvernance d’une stratégie scientifique, cet enjeu fonde le sujet de thèse ici proposé. Au sein de ce projet la thèse vise donc à qualifier des concepts extraits d’un corpus de publications pertinentes pour le CEA, étape fondamentale pour le déploiement des trois étapes suivantes du projet (gestion des référentiels, élaboration de graphes, analyse et représentation).

La première étape consiste à la réduction des publications à un ensemble de métadonnées. Pour concentrer l’information, il s’agit simplement d’identifier les auteurs, leurs affiliations, les titres des revues et un ensemble de mots clés décrivant le contenu de chaque publication. Cette opération, initialement manuelle, vise à ne retenir que les informations les plus pertinentes à même de décrire une publication. Si une large partie du travail peut être automatisée par des outils d’extraction utilisant la linguistique combinée aux statistiques, le Traitement Automatique du Langage Naturel (TALN), Data science, Data Intelligence, Deep Learning et l’Intelligence Artificielle (IA), l’identification des mots clés ou l’extraction de concepts au moyen d’outils de traitement des langues naturelles requièrent encore une intervention humaine pour interpréter les extractions et fournir des résultats pertinents et exploitables.

Ce travail s’appuiera sur une plateforme applicative développée pour le CEA pour assurer l’ensemble de la chaîne de traitement de publications scientifiques, avec l’extraction des métadonnées, l'extraction des concepts, la gestion de référentiels, et un certain nombre de traitements partiels. Ceci pour construire des valeurs de référence (sur les publications, auteurs et affiliations), pour extraire des concepts par application d’une bibliothèque python de traitements sémantiques (NLTK), pour construire une base graphe de connaissances (au format Neo4j) et enfin le moteur de recherche plein texte, avec facettes et utilisant l’ensemble des données produites.

Corpus étudiés :

  • Un corpus en sciences physiques autour des domaines de travail du CEA, construit à partir des publications écrites par des chercheurs du CEA élargi à l’ensemble des publications citées. Certains auteurs de ce corpus pourront être sollicités pour exprimer des besoins d’usages et valider les approches proposées.
  • Un corpus autour de la thématique de l’information scientifique et technique, au sein duquel émarge le sujet de la thèse, et qui sera constitué notamment par les ressources bibliographiques mobilisées et celles des domaines connexes ou émergents (bibliométrie, analyse des graphes…). 

Cadre théorique 

Le cadre théorique de la thèse émarge aux Sciences de l’Information et de la Communication, plus particulièrement au versant Information Science de la discipline (Saracevic, 1997) (Ibekwe, 2012). Le ou la candidat.e mobilisera d’une part les concepts et modèles de traitement de l’information numérique et d’autre les concepts et les modèles de l’information scientifique numérique (Price, 1963) (Boukacem-Zeghmouri, 2015) (Lafouge, 2020). A la convergence des deux thématiques, les travaux les plus récents autour de l’Information Retrieval et de la bibliométrie (Bornmann, 2014) (Bornmann, 2019), tels qu’ils sont appuyés aux approches de l’Intelligence artificielle et de la cartographie interviendront également dans la définition du cadre méthodologique de la thèse. Au cœur de ce dispositif, la notion pluridisciplinaire de l’usage, telle qu’elle est traitée actuellement à partir des enjeux du User Experience (UX), ou Expérience Utilisateur (Shin, 2017), fera l’objet d’une attention particulière et pourra faire l’objet d’un enrichissement théorique.
Bibliographie indicative

Balog, K., Serdyukov, P., & De Vries, A. P. (2011). Overview of the TREC 2011 entity track. In NIST Special Publication.

Bornmann, L., & Marewski, J. N. (2019). Heuristics as conceptual lens for understanding and studying the usage of bibliometrics in research evaluation. Scientometrics, 120(2), 419–459. https://doi.org/10.1007/s11192-019-03018-x

Bornmann, L. (2014). Is there currently a scientific revolution in scientometrics? Journal of the Association for Information Science and Technology. https://doi.org/10.1002/asi.23073

Boukacem-Zeghmouri, C. (2015). Mutations dans la sous-filière de la revue scientifique dans les domaines STM: une analyse par les industries culturelles. Université Claude Bernard Lyon 1. Retrieved from citeulike-article-id:13647950

Ding, W., & Chen, C. (2014). Dynamic topic detection and tracking: A comparison of HDP, C-word, and cocitation methods. Journal of the Association for Information Science and Technology, 65(10), 2084–2097. https://doi.org/10.1002/asi.23134

Herman, E., Akeroyd, J., Bequet, G., Nicholas, D., & Watkinson, A. (2020). The changed – and changing – landscape of serials publishing: Review of the literature on emerging models. Learned Publishing, 33(3), 213–229. https://doi.org/10.1002/leap.1288

Ibekwe-Sanjuan, F. (2012). The French conception of information science: “une exception française”? Journal of the American Society for Information Science and Technology, 63(9), 1693–1709. https://doi.org/10.1002/asi.22670

Lafouge, T., & Boukacem‐Zeghmouri, C. (2019). Le champ infométrique : un nouveau cadre d’observation des régularités d’usage de l’information scientifique. Etudes de Communication, 53, 179–2005. https://doi.org/https://doi.org/10.4000/edc.9537

Liu, H., Chen, Z., Tang, J., Zhou, Y., & Liu, S. (2020). Mapping the technology evolution path: a novel model for dynamic topic detection and tracking. Scientometrics, 125(3), 2043–2090. https://doi.org/10.1007/s11192-020-03700-5

Neylon, C. (2011). It’s not filter failure, it’s a discovery deficit. Serials, 24(1), 21–25.

Saracevic, T., & Kantor, P. B. (2002). Studying the value of library and information services. Part I. Establishing a theoretical framework. Journal of the American Society for Information Science, 48(6), 527–542. https://doi.org/10.1002/(sici)1097-4571(199706)48:6<527::aid-asi6>3.3.co;2-h

Shin, Y., Im, C., Oh, H., & Kim, J. (2017). Design for experience innovation: understanding user experience in new product development. Behaviour and Information Technology, 36(12), 1218–1234. https://doi.org/10.1080/0144929X.2017.1368709

Starostin, A. S., Bocharov, V. V., Alexeeva, S. V., Bodrova, A. A., Chuchunkov, A. S., Dzhumaev, S. S., … Toldova, S. Y. (2016). FactRuEval 2016: Evaluation of named entity recognition and fact extraction systems for Russian. In Komp’juternaja Lingvistika i Intellektual’nye Tehnologii (pp. 702–720).

Yan, E., & Ding, Y. (2012). Scholarly network similarities: How bibliographic coupling networks, citation networks, cocitation networks, topical networks, coauthorship networks, and coword networks relate to each other. Journal of the American Society for Information Science and Technology. https://doi.org/10.1002/asi.22680

Wang, S., Du, J., Liang, M., & Chen, L. (2010). Dynamic topic detection and tracking based on knowledge base. In Proceedings – 2010 3rd IEEE International Conference on Broadband Network and Multimedia Technology, IC-BNMT2010 (pp. 1159–1164). https://doi.org/10.1109/ICBNMT.2010.5705272

Modalités pratiques de déroulement de la thèse

La doctorante ou le doctorant sera accueilli au sein de l’Université Claude Bernard, au bâtiment Nautibus, dans les locaux dédiés aux doctorants du laboratoire Elico. Il ou elle sera amené à se rendre au CEA pour des réunions de suivis de thèse et de travail avec son directeur de thèse professionnel. Lors de ces déplacements, les missions seront prises en charge par le laboratoire ELICO.

La doctorante ou le doctorant sera inscrit à l’Ecole Doctorale n°485 EPIC – Education, Psychologie, Information et Communication (https://edepic.universite-lyon.fr/). Portée par l&apos;Université Lumière Lyon 2, conventionnée avec les universités et établissements accrédités Claude Bernard Lyon 1, Jean Moulin Lyon 3, Jean Monnet (Saint-Etienne) et ENS Lettres & Sciences humaines, partenaire de l&apos;IEP, de l&apos;INRP et de l&apos;INSA-Lyon, EPIC est née en 2007. Elle a pour objectif de constituer le cadre de la formation à et par la recherche dans les trois secteurs disciplinaires qu&apos;elle fédère principalement (et au-delà – notamment en Histoire-Epistémologie-Philosophie des Sciences, des Techniques et des Technologies, ainsi qu&apos;en sciences des sports -, compte tenu des laboratoires et des autres spécialités de doctorat qui lui sont rattachés).

Présentation des partenaires

CEA

Le Commissariat à l’énergie atomique et aux énergies alternatives (CEA) est un organisme public de recherche à caractère scientifique, technique et industriel (EPIC). Acteur majeur de la recherche, du développement et de l&apos;innovation, le CEA intervient dans quatre domaines : la défense et la sécurité, les énergies bas carbone (nucléaire et renouvelables), la recherche technologique pour l&apos;industrie et la recherche fondamentale (sciences de la matière et sciences de la vie). S&apos;appuyant sur une capacité d&apos;expertise reconnue, le CEA participe à la mise en place de projets de collaboration avec de nombreux partenaires académiques et industriels.

ELICO (https://elico-recherche.msh-lse.fr/)

ELICO, Équipe de recherche de Lyon en sciences de l’Information et de la COmmunication est une unité de recherche (UR) qui rassemble des enseignant·es-chercheur·es principalement réparti·es dans 6 établissements d’enseignement supérieur du site Lyon–St-Étienne : Université Claude-Bernard-Lyon 1, Université Lumière-Lyon 2, Université Jean-Moulin-Lyon 3, Sciences Po Lyon, Enssib et Université Jean-Monnet-Saint-Étienne. L’UR compte environ 80 membres dont 45 enseignant·es-chercheur·es, 20 doctorant·es, 3 personnels administratifs et des chercheur·es associé·es.

Les cadres épistémologiques et théoriques, à partir desquels les membres d’ELICO développent leurs objets de recherche, formulent des réponses aux appels à projet, définissent des modalités de travail collectif dont la pertinence et l’efficacité sont liées à la complémentarité des angles mobilisés, sont formulés en trois couples conceptuels : Discours-représentations / Normes-institutions / Savoirs-documents.

L’activité de l’unité relève à la fois d’une recherche fondamentale et d’une recherche appliquée visant à donner leur pleine utilité sociale aux recherches et à leurs résultats.

SOLACI (https://www.linkedin.com/in/solaci)

Solaci est une Société de conseil et d’ingénierie, spécialisée dans le pilotage de projet, AMOA, et dans la facilitation de projets de Data intelligence. Ses domaines d’intervention portent sur la veille concurrentielle, gestions de connaissances (KM), l’Intelligence Artificielle et l’Intelligence collaborative. 

Université Claude Bernard Lyon 1 – UCBL (https://www.univ-lyon1.fr/)

L&apos;université Claude-Bernard, Lyon 1 est une université spécialisée dans les domaines des sciences et technologies, de la santé et des sciences du sport. Créée en 1971 par le regroupement de la faculté des sciences de Lyon, doit son nom au physiologiste Claude Bernard. Université à la pointe de l’innovation, Lyon 1 allie formation de qualité et recherche d’excellence au cœur d’un environnement attractif et bénéficie d’un rayonnement international. L’UCBL est l’une des cinq tutelles de l’Unité de Recherche ELICO. Avec près de 48.000 étudiants, 50 Masters, 66 laboratoires de recherche, 5600 publications par an, près de 2900 enseignants chercheurs, trois campus l’UCBL est une des Universités les plus importantes en France

La candidature se fait avec l’envoi de
– Un CV détaillé
– Une lettre de motivation
– Une copie du diplôme de Master

Contacts mails :

olivier.musseau@cea.fr

eric.debonne@solaci.com

cherifa.boukacem-zeghmouri@univ-lyon1.fr 

Date limite de candidature : avant le 15 septembre 2022