2025-03-17
La recherche assistée par l’IA
Partout sur la planète, l’innovation fulgurante en IA transforme l’enseignement supérieur. Comment pouvons-nous, en tant que communauté universitaire, tirer profit de cette technologie tout en négociant les défis éthiques et pédagogiques qu’elle pose ? Voilà la question directrice qui guidera mon mandat.
À la suite de mon dernier billet, j’ai reçu plusieurs questions à propos de l’utilisation des fonctions de « recherche approfondie » (deep research) des services d’IA comme ChatGPT (OpenAI), Gemini (Google), Mistral ou Perplexity. En fait, je reçois plus de questions sur les potentiels d’utilisation de l’IA en recherche que sur la pédagogie!
Il ne fait aucun doute que ces capacités intéressent les communautés étudiantes et de recherche. C’est pourquoi je consacre le présent billet à réfléchir au sujet brûlant de la recherche assistée par l’IA.
La recherche, documentaire et scientifique
L’IA générative fait maintenant partie des flux de travail de nombreux universitaires et professionnels. Les services d’IA comme ChatGPT et Claude, en particulier, sont utilisés comme assistants de rédaction et de révision, d’analyse et de synthèse de documents, de calcul, de programmation, d’idéation, etc.
Mais que valent ces services d’IA pour la recherche ? Avant de répondre à la question, rappelons la distinction entre deux types de recherche.
Pour aller à l’essentiel : (1) la recherche documentaire consiste à collecter, analyser et synthétiser des informations fiables sur un sujet donné. Elle vise à dresser un état des connaissances à partir de publications (livres, articles, rapports, bases de données, etc.). Alors que (2) la recherche scientifique consiste plutôt à produire de nouvelles connaissances, en suivant une démarche scientifique reconnue par les experts du domaine et évaluée par les pairs.
Regardons de plus près ces deux aspects de la recherche.
(1) La recherche documentaire assistée par l’IA
Depuis 2023, les services d’IA générative ont commencé à effectuer des recherches en ligne lorsque leurs modèles furent autorisés à utiliser un navigateur et des moteurs de recherche. Mais leur utilité limitée a rapidement été mise en évidence.
Deux études du Tow Center for Digital Journalism ont documenté ces lacunes, notamment des erreurs récurrentes à citer correctement les sources, un manque de transparence dans le comportement des moteurs de recherche pilotés par l’IA et un manque de constance dans le respect des interdictions d’accès de leurs navigateurs et engins d’indexation sur les sites journalistiques protégés par le droit d’auteur [1].
Depuis la fin de 2024, certaines plateformes, comme ChatGPT et Gemini, sont maintenant aussi capables d’effectuer des « recherches approfondies ». On peut donc s’en servir pour bonifier considérablement nos activités de recherche documentaire.
Cette fonction est qualifiée « d’approfondie » parce qu’elle procède en plusieurs étapes, et demande une démarche de « raisonnement » de la part du modèle. En effet, à partir d’une question directrice et de précisions demandées par le robot à l’humain, l’IA est maintenant capable d’élaborer les étapes d’une recherche exploratoire, de la préciser au fur et à mesure de son exploration, d’effectuer des vérifications, puis de produire un rapport final. Le tout en 5-30 minutes.
Pour s’acquitter de sa tâche, hormis le navigateur et les moteurs de recherche, l’IA utilise aussi d’autres outils, comme des robots d’indexation (web crawlers). Cela la rend capable de naviguer des bases de données (ex : arXiv, PubMed et Semantic Scholar), notamment pour identifier et explorer des sources pertinentes dans la littérature scientifique. L’exploration, l’analyse, la sélection, la vérification et la synthèse de ces contenus informationnels permettent donc de générer des réponses documentées à nos questions de recherche [2]. Autrement dit, la recherche approfondie permet d’automatiser un type de « génération augmentée par récupération » (de l’anglais « retrieval augmented generation », RAG), une approche experte de l’IA générative normalement effectuée manuellement, avec des outils logiciels et de programmation.
C’est donc un fait : les services d’IA générative deviennent des agents de recherche documentaire de plus en plus compétents et utiles pour la recherche professionnelle. Mes propres tests avec ChatGPT et Gemini, sur des sujets relevant de mon expertise, me confirment qu’ils sont capables d’analyser rapidement de grandes quantités de documents provenant de sources multiples, de synthétiser efficacement ces informations et d’identifier des liens ou des tendances au sein des connaissances existantes.
Si cette capacité est impressionnante et utile, elle est cependant loin d’être parfaite. La qualité des instructions ainsi que la direction (instruction, objectifs, contexte) de recherche humaine (expertise) demeurent absolument essentielles pour minimiser les erreurs et parvenir à des résultats vraiment utiles.
La recherche scientifique assistée par IA
La recherche scientifique ne se limite pas au traitement de contenus informationnels. Elle mobilise aussi (et surtout) des connaissances préalables robustes, des intuitions scientifiques créatives ainsi qu’un esprit critique toujours actif. Pour prévenir les erreurs et garantir la valeur ajoutée de l’IA, les scientifiques doivent donc superviser étroitement l’intégration de ces systèmes dans les processus de la recherche universitaire.
Les services d’IA généralistes peuvent être employés, sans trop de risque, à l’étape de la revue de littérature, ainsi que comme partenaires pour explorer et discuter d’hypothèses, d’idées et de méthodologies. Cependant, les systèmes d’IA généralistes demeurent des assistants incapables de contribuer à la création originale de connaissances ou de nouvelles théories, ou encore à la validation empirique d’hypothèses.
Ces limitations pourraient toutefois être bientôt dépassées par le développement de systèmes multi-agents spécialisés en recherche scientifique. Pour les développer, les laboratoires d’IA collaborent étroitement avec de nombreux laboratoires scientifiques. Pour illustrer ce futur hybride de la recherche, je me contenterai de l’exemple du système « AI Co-Scientist », développé par Google, en partenariat avec des laboratoires de recherche biomédicaux.
Vers des IA co-scientifiques ?
Motorisée par le modèle multimodal Gemini 2.0, l’architecture d’AI Co-Scientist est composée de plusieurs agents, chacun étant spécialisé dans un type de tâche (recherche dans la littérature, génération d’hypothèses, réflexion scientifique et critique…). Ces agents sont coordonnés d’une manière asynchrone par un agent superviseur, qui optimise les ressources informatiques de manière à maximiser la qualité des résultats [3].
Concrètement, à partir d’une question de recherche formulée par l’humain, le système multi-agent génère des hypothèses, les discute, fouille la littérature, les améliore et les valide dans des « tournois » simulant le débat scientifique entre plusieurs experts.
AI Co-Scientist est donc une forme de simulation locale du fonctionnement global de la recherche et du débat scientifiques. Son efficacité repose sur la reproduction de l’intelligence collaborative et collective des scientifiques, dans la dynamique de la découverte scientifique, sous la forme de boucles d’amélioration itératives accélérées par la puissance informatique des supercalculateurs.
Jusqu’ici, le système multi-agent a offert trois réelles contributions confirmées par des équipes scientifiques : (i.) un repositionnement de médicaments (pour le traitement de la leucémie myéloïde aiguë), qui fut validé expérimentalement avec succès in vitro; (ii.) la découverte de nouvelles cibles épigénétiques (pour traiter la fibrose hépatique), qui fut validée sur des organoïdes hépatiques humains; (iii.) des hypothèses novatrices sur les mécanismes génétiques d’évolution bactérienne (liés à la résistance antimicrobienne), où l’IA a prédit des résultats obtenus en parallèle par une équipe humaine [3].
Dynamiques de collaboration avec l’IA
AI Co-Scientist est un précurseur de grands changements à venir dans certains domaines scientifiques, même si la très grande majorité des laboratoires universitaires ne disposeront pas de telles ressources informatiques (dans un futur prévisible). Pour le moment, l’intégration utile et responsable, à l’université, des fonctions de recherche approfondie devrait attirer notre attention. En particulier pour explorer les dynamiques de collaboration avec l’IA qui émergent dans la communauté étudiante des cycles supérieurs [4].
Car la transmission des compétences en recherche est au cœur de la mission des universités et, plus largement, de la science. Or, ces compétences sont également menacées par l’enjeu du délestage cognitif, dont j’ai parlé dans le billet précédent. « Automatiser la science » est certainement contradictoire avec la mission de l’université. Mais peut-être aussi avec la science elle-même. Il faudra donc s’assurer que la formation scientifique s’adapte, tout en préservant l’essentiel.
Note: Les propos de Dave Anctil vous sont offerts à titre personnel, pour susciter la réflexion. Certains outils mentionnés ne font pas l’objet d'un soutien par les TI de l’Université de Montréal.
Références
[1] Les deux rapports de recherche journalistique du Tow Center for Digital Journalism (Columbia Uni.) : Jaźwińska, K. et Chandrasekar, A. (2024). « How ChatGPT Search (Mis)represents Publisher Content », Columbia Journalism Review, 27 novembre; Jaźwińska, K. et Chandrasekar, A. (2025). « AI Search Has A Citation Problem », Columbia Journalism Review, 6 mars. Ils portent sur la fonction de recherche et non sur la fonction de recherche approfondie. Leur méthodologie est aussi discutable, notamment parce qu’elle ne discrimine pas la performance de la recherche pilotée par IA avec la performance des moteurs de recherche classique, et parce que les critères d’évaluation ne sont pas quantifiés, ce qui laisse place à des interprétations discutables. (Je remercie Daniel Plante, conseiller en pédagogie numérique du cégep Marie-Victorin, d’avoir attiré mon attention sur ces études.)
[2] Pour une explication vulgarisée du fonctionnement ainsi qu’une estimation des forces et limites, voir Sarah Lea (2025). « Deep Research by OpenAI: A Practical Test of AI-Powered Literature Review », Towards Data Science, 4 mars.
[3] Gottweis, J. et al. (2025). « Towards an AI co-scientist », arXiv preprint arXiv:2502.18864. Présentation de la recherche par les équipes de Google ici.
[4] Il faudra appliquer des protocoles expérimentaux centrés sur l’observation des dynamiques de travail académique entre l’humain et l’IA, par ex. : Nguyen, A. et la. (2024). « Human-AI collaboration patterns in AI-assisted academic writing ». Studies in Higher Education, 49.