Modélisation 3D de protéines avec Libmol et l’IA (Swissmodel, Alphafold) et réflexion sur les enjeux

Modélisation 3D de protéines avec Libmol et l’IA (Swissmodel, Alphafold) et réflexion sur les enjeux

:

NIVEAU : lycée (1ère spécialité SVT)


INTRODUCTION / CONTEXTE


 

TME DE PROGRAMME :

 

1ère spécialité SVT - Thème 1 : la Terre, la vie et l’évolution du vivant - Transmission, variation et expression du patrimoine génétique - mutations de l’ADN et variabilité génétique

 

 

Les élèves évaluent la fiabilité de l'IA en comparant des structures 3D d'hémoglobines (indidus sains vs drépanocytaires) obtenues par modélisation classique et par intelligence arificielle (Swissmodel, Alphafold). Ils utilisent Libmol pour visualiser, mettre en forme et confronter leurs résultats.

L'activité développe l'esprit critique sur l'IA, ses limites et ses enjeux en recherche et santé.

 

Image intégrée depuis Dropbox


COMPÉTENCES TRAVAILLÉES :

Compétences disciplinaires :

  • Mobiliser des connaissances en biologie moléculaire et en génétique
    L’étude des structures de l’hémoglobine normale et drépanocytaire nécessite une compréhension des mutations génétiques et de leurs conséquences sur la structure et la fonction des protéines.


     

  • Analyser et interpréter des résultats expérimentaux
    Les élèves comparent les structures obtenues par différentes méthodes, évaluent la fiabilité des modèles et discutent des limites des approches utilisées.

     


    Compétences transversales :

     

  • Collaborer en équipe pour mener une investigation scientifique
    La réalisation de l’activité en groupe favorise la coopération, la répartition des tâches et la communication entre les membres de l’équipe.

     

  • Développer l’esprit critique et l’argumentation scientifique
    Les élèves évaluent la fiabilité des modèles d’IA, identifient les limites des outils utilisés et argumentent leurs conclusions de manière rigoureuse.

     

  • Communiquer des résultats scientifiques à l’oral et à l’écrit
    Les élèves présentent leurs analyses, interprétations et conclusions, développant ainsi leurs compétences en communication scientifique.

     

Compétences du CRCN (Cadre de Référence des Compétences Numériques) :

  • Domaine 5 : environnement numérique
    5.3 Utiliser des outils numériques pour simuler ou modéliser :

    Modélisation 3D de structures protéiques avec des logiciels spécialisés (Libmol, SwissModel, AlphaFold).

     

  • Domaine 3 : création de contenus
    3.1 Développer des documents multimédias :

    => présentation et confrontation des résultats sous forme de visualisations comparées


 


DÉROULEMENT DE LA SÉANCE :


 

Mise en contexte (15 minutes)


 

Dans un contexte de classe dialoguée, l’enseignant aura pris soin de recueillir les représentations initiales des élèves concernant l’utilisation de l’IA, ses principes et ses enjeux.

Le sujet de la modélisation moléculaire par IA, largement méconnu des élèves, est alors introduit en s’appuyant sur les connaissances des cours précédents concernant la synthèse des protéines. On évoquera les points suivants :

  • Le prix Nobel de chimie 2024 a été décerné à Demis Hassabis et John M. Jumper (société Google DeepMind) pour leurs travaux sur la prédiction de la structure tridimensionnelle des protéines, assistée par l’IA, à partir de leur séquence d’acides aminés.
  • Présentation, à l’aide du document annexe, des techniques expérimentales de détermination de la structure tridimensionnelle des protéines.

     

Image intégrée depuis Dropbox

  • Les techniques expérimentales longues et coûteuses ont permis, en plusieurs décennies, de déterminer 250.103 structures tridimensionnelles de protéines sur les 250.106 protéines connues, soit 1/1000.

 

  • Concernant la modélisation 3D par IA, en revanche, il a suffi de seulement 1 an à Alphafold pour déterminer la structure 3D de la totalité des protéines connues !

Article de la Recherche « La quasi-totalité des structures de protéines désormais prédites »

 


 

Ces résultats impressionnants conduisent assez naturellement à se poser la question de la

fiabilité de la modélisation tridimensionnelle par IA.

Activité en autonomie guidée (1 h 30)

Durée

Activité / Consigne

Modalité

Matériel

Objectif pédagogique

10 minutes

Générer un modèle 3D d’hémoglobine S avec Swissmodel via sa séquence d’acides aminés. Télécharger modèle avec + grand indice de fiabilité (QMEAN).

Copier-Coller séquence aa du .edi dans Swissmodel

Récupération du modèle généré d’HbS au format pdb

Swissmodel

Séquence aa d’HbS (.edi)

 

Utiliser une IA fonctionnant par homologie

15 minutes

Visualiser et traiter votre modèle d’HbS dans Libmol. Comparer avec le modèle d’HbA issu de Swissmodel fourni

Charger les modèles HbS et HbA issus de Swissmodel dans la visionneuse

Visionneuse Libmol

HbA via Swissmodel (.pdb)

Utiliser un outil de traitement et visualisation

Incidence mutation

20 minutes 

Comparer les HbA/HbS Swissmodel (modèles par homologie) aux HbA/HbS Alphafold (modèles par apprentissage) et aux modèles issus des données expérimentales

Charger les modèles HbS et HbA issus d’Alphaphold et de Libmol dans la visionneuse

HbA (A.Fold) HbS (A.Fold)

 

Modèles intégrés HbA/HbS à Libmol

Extrême similitude des structures 3D quel que soit le modèle qui met en évidence une grande fiabilité des résultats


 

La fiabilité surprenante des modèles tridimensionnels de protéines générés par IA interroge alors la nécessité de poursuivre les recherches expérimentales, qui apparaissent nettement moins efficaces.

Durée

Activité / Consigne

Modalité

Matériel

Objectif pédagogique

5 minutes

Expliquez pourquoi l’IA n’est pas suffisante pour déterminer seule la structure 3D des protéines.

Travail en groupe

(2 ou 3 élèves) à partir de documents

Fiche Annexe

 

Interroger le fonctionnement de la modélisation par IA.

Comprendre la notion de modèle.

 

Exercer son esprit critique

 

Extraire et mettre en relation des informations issues d’un schéma

10 minutes

Quelles différences majeures y a-t-il entre les IA générant des modèles par apprentissage (ex : Alphafold) et les IA générant des modèles par homologie (ex : Swissmodel) ?

30 minutes

4) Expliquez les enjeux concernant la détermination de la structure 3D des protéines par IA.

 

5) D’après vous, en vous appuyant seulement sur les documents et sur votre raisonnement, quels pourraient être les risques associés à accorder trop de confiance à l’IA concernant la détermination des structures protéiques ?

 

6) Quelles mesures pourraient être prises pour diminuer ces risques ?

 

7) Question ouverte : quelles sont vos impressions concernant l’utilisation de l’IA dans les sciences ?

Ce TP/TD vous a-t-il fait évoluer dans votre vision de l’IA

(Vous a-t-il rendu plus enthousiaste ? Plus méfiant(e) ?

Ou encore plus mitigé(e) ?)

 

Notion d’enjeux, de risques, de mesures de prévention et/ou d’atténuation

 

Exercer son esprit critique

 

Extraire et mettre en relation des informations issues de documents


 

Conclusion : (5 à 10 minutes)


 

  1. Les modèles IA sont alimentés des résultats des travaux expérimentaux. Leur fiabilité en dépend. Les modèles IA peuvent en retour guider la recherche expérimentale : ces travaux se complètent plus qu’ils ne s’opposent.
  2. L’ampleur des enjeux et la rapidité des découvertes peuvent conduire à considérer le développement de la modélisation tridimensionnelle des protéines par IA comme une question socialement vive (enjeux, inégalités possibles...).


 


DOCUMENTS FOURNIS :


 


 

Récapitulatif des documents élèves :


 

Fiche d’activité

Fiche annexe + FT Libmol

(détermination de la structure des protéines IA vs expérimentales)

Interface de visualisation comparative

Modèles moléculaires

HbA (Swiss) HbS (Swiss)

 

 

 

 

HbA (A.Fold) HbS (A.Fold)


 

 

 

Document professeur :

 


 

L’élaboration de cette séance de cours aura demandé un travail préalable conséquent pour maîtriser les différents outils mobilisés et être en mesure d’aller un peu plus loin avec les élèves demandeurs, avec notamment :

  • Un travail de recherche concernant les scores de qualité des modèles 3D de protéines générés (doc prof)
  • Un travail d’exploration des divers logiciels (récapitulé dans cette vidéo) pour savoir passer d’un format à un autre et savoir générer, sans être limité, divers modèles à partir de l’intelligence artificielle.


 


ANALYSE DE LA SÉANCE / RETOUR D'EXPÉRIENCE :


 

Il est apparu au cours de cette séance que les élèves, bien qu’utilisateurs réguliers d’IA (principalement ChatGPT), connaissaient peu leurs fonctionnements et avaient une connaissance assez limitée des enjeux (éthiques, scientifiques, climatiques...) liés à l’utilisation de l’IA. Ces difficultés ont pu être palliées par une appétence des élèves pour le sujet qui a été accueilli avec un certain enthousiasme. Néanmoins, à cela s’ajoutaient quelques difficultés techniques liées à l’utilisation des logiciels, (notamment concernant Libmol et l’utilisation de l’interface de visualisation comparative) qui ont fait que les élèves ont manqué de temps pour finaliser leurs travaux en une seule séance lors de ma première tentative. J’ai repensé alors la séance (que j’ai pu tester à une seconde occasion) pour la rendre plus efficace et plus balisée. Les modèles Alphafold ont été directement fournis aux élèves par souci de gain de temps et aussi du fait que l’utilisation d’Alphafold nécessite l’utilisation d’un compte Google qui ne respecte donc pas le RGPD.

Le choix de l’hémoglobine n’était pas le plus pertinent pour tester l’incidence sur la forme d’une protéine d’une mutation du gène codant la protéine, mais il a été contraint par la progression de la collègue remplacée, contexte dans lequel a été effectuée la séance. Par ailleurs, le fait de traiter à la fois du sujet de la forme des protéines, de la modélisation par IA et d’y ajouter la question des mutations était plutôt ambitieux.

Ci-dessous : comparaison des 2 modélisations d’hémoglobines générées par Swissmodel

=> la parfaite adéquation des structures (au-delà de la différence des acides aminés) s’explique par la modélisation par homologie

=> Swissmodel compare les mêmes séquences aux mêmes templates et propose le template qui correspond le mieux à la séquence, il n’y aura pas d’incertitude puisque Swissmodel propose toujours le même résultat :

Hémoglobine S Swissmodel

Hémoglobine A Swissmodel

Image intégrée depuis Dropbox

 

=> Remarque : à la différence de Swissmodel, Alphafold fonctionne par prédiction de la position spatiale des acides aminés par rapport au contexte de la séquence. Ce dernier fonctionnement rappelle le modèle de langage probabiliste utilisé pour les IA pour construire une phrase mot par mot selon le contexte qui précède le mot.

Le TP conduisait à afficher et traiter 6 molécules, ce qui ne devenait rapide qu'une fois Libmol maitrisé, mais restait fastidieux. En pratique, une fois les HbS et HbA générées par Swissmodel et comparées à l’aide de Libmol, il a été demandé à certains groupes de travailler sur HbS et d’autres sur HbA. Chaque groupe n’a donc traité que 4 modélisations d’hémoglobines.

Il pourrait néanmoins être intéressant de s’affranchir pour cette séance de la question des mutations et de se limiter aux seules questions de formes des protéines et des modélisations par IA pour éprouver plus rigoureusement la fiabilité des modèles moléculaires générés et mettre davantage l’accent sur les divergences entre les modèles générés par homologie et ceux générés par apprentissage.

De ce point de vue, l’étude des protéines prions pourrait s’avérer intéressante. En effet, la protéine prion normale (PrPC) et pathologique (PrPSc) ont la même séquence primaire d'acides aminés, mais elles diffèrent considérablement par leur structure tridimensionnelle. Ces différences structurelles ne sont pas codées par des séquences de nucléotides différentes, mais résultent de leur repliement et de leur conformation 3D.

L’étude des conséquences des mutations lors d'un TP préalable rendrait le travail plus fluide et permettrait donc d’approfondir le travail critique lors du TP sur la modélisation par IA.

Remarque : pour comparer les modèles générés par IA et les modèles expérimentaux présents sur Libmol, il est possible de cliquer sur le code pdb (entouré ci-dessous) pour obtenir des précisions. Le modèle d’hémoglobine HbS sur Libmol est ainsi issu des techniques de cristallographie aux rayons X.


Image intégrée depuis Dropbox

 

Retours d’élèves sur la question ouverte :

Quelles sont vos impressions concernant l’utilisation de l’IA dans les sciences ?

1

L’utilisation de l’IA dans les sciences m’a laissé une impression mitigée. D’une part, j’ai été impressionné par la capacité des outils d’IA (comme Alphafold ou Swissmodel) à traiter rapidement une immense quantité de données. Cela ouvre des perspectives intéressantes dans des domaines comme la médecine, où l’IA peut simplifier les tâches de l’humain. Cependant, ce TP m’a également rendu plus conscient des limites et des risques liées à l’IA. En effet, l’IA peut commettre des erreurs et cela dépend aussi de l’évolution de l’IA. L’IA est un progrès dans les sciences.

2

Témoignage 1

3

Témoignage 2

4

Mes principales impressions, concernant l’IA dans les Sciences, sont que l’IA est un moyen d’accélérer des processus, de détermination par exemple. Mais l’IA ne doit pas être utilisée pour créer de nouvelles techniques de recherche ou autres, en effet, il peut y avoir des erreurs, car l’IA n’est pas encore totalement fiable. Ce TP m’a fait découvrir que l’on utilisait l’IA dans les Sciences, j’en suis impressionné, mais je pense qu’il ne faut pas trop compter sur l’IA, au risque de faire des erreurs.

Témoignages


PISTES D'AMÉLIORATION :


 

  • Rendre la séance moins linéaire en repensant les supports. Difficultés néanmoins liées à l’originalité du sujet.

Cette séance est très propice à une ludification (enquête, jeu de rôle…) qui pourrait limiter cette linéarité en concevant, par exemple, diverses missions pouvant varier d’un groupe à l’autre. On pourrait ainsi faire travailler des équipes sur des protéines différentes, ou encore en donner à certains groupes des modèles Alphafold et à d’autres des modèles Swissmodel.

  • Différenciation, au-delà de l’accompagnement par l’enseignant, sous forme de tutoriels vidéos (éventuellement en amont de la séance) pour les élèves plus en difficulté, notamment concernant l’utilisation de logiciels comme Libmol.


Angé Benjamin


 


 

Article avec mise en page
Fichier attachéTaille
PDF icon article.pdf1.6 Mo