DeepMind’s New AI Can Predict Genetic Diseases

Environ 10 ans Il y a, Žiga AVSEC était un étudiant en physique qui s'est retrouvé à suivre un cours intensif en génomique via un module universitaire sur l'apprentissage automatique. Il travaillait bientôt dans un laboratoire qui a étudié les maladies rares, sur un projet visant à épingler la mutation génétique exacte qui a provoqué une maladie mitochondriale inhabituelle.

C'était, dit Avsec, une «aiguille dans une botte de foin». Il y avait des millions de coupables potentiels qui se cachent dans le code génétique – des mutations ADN qui pouvaient faire des ravages sur la biologie d'une personne. Des variantes dits de faux-sens étaient particulièrement intéressantes: les changements de lettres uniques en code génétique qui entraînent un acide aminé différent en cours au sein d'une protéine. Les acides aminés sont les éléments constitutifs des protéines, et les protéines sont les éléments constitutifs de tout le reste du corps, donc même de petits changements peuvent avoir des effets importants et de grande envergure.

Il y a 71 millions de variantes faux-sens possibles dans le génome humain, et la personne moyenne en porte plus de 9 000. La plupart sont inoffensifs, mais certains ont été impliqués dans les maladies génétiques telles que l'anémie falciforme et la fibrose kystique, ainsi que des conditions plus complexes comme le diabète de type 2, qui peut être causée par une combinaison de petits changements génétiques. Avsec a commencé à demander à ses collègues: “Comment savons-nous lesquels sont réellement dangereux?” La réponse: “Bien en grande partie, nous ne le faisons pas.”

Sur les 4 millions de variantes faux-sens qui ont été repérées chez l'homme, seulement 2% ont été classés comme pathogènes ou bénins, au cours des années de recherche minutieuse et coûteuse. Il peut prendre des mois pour étudier l'effet d'une seule variante faux-sens.

Aujourd'hui, Google Deepmind, où AVSEC est maintenant un chercheur du personnel, a publié un outil qui peut rapidement accélérer ce processus. Alphamissense est un modèle d'apprentissage automatique qui peut analyser les variantes faux-sens et prédire la probabilité qu'ils provoquent une maladie avec une précision de 90% – plus large que les outils existants.

Il est construit sur AlphafoldModèle révolutionnaire de DeepMind qui prédit les structures de centaines de millions de protéines de leur composition d'acides aminés, mais cela ne fonctionne pas de la même manière. Au lieu de faire des prédictions sur la structure d'une protéine, Alphamissesense fonctionne plus comme un modèle de langue large tel que le chatppt d'Openai.

Il a été formé sur le langage de la biologie humaine (et primate), il sait donc à quoi devraient ressembler les séquences normales d'acides aminés dans les protéines. Lorsqu'il est présenté avec une séquence qui a mal tourné, il peut en prendre note, comme avec un mot incongru dans une phrase. «C'est un modèle de langue mais formé sur les séquences de protéines», explique Jun Cheng, qui, avec AVSEC, est co-dirigeant l'auteur d'un article publié aujourd'hui dans Science Cela annonce l'alphamissense au monde. «Si nous substituons un mot d'une phrase en anglais, une personne qui connaît l'anglais peut immédiatement voir si ces substitutions changeront ou non le sens de la phrase.»

Pushmeet Kohli, vice-président de la recherche de Deepmind, utilise l'analogie d'un livre de recettes. Si Alphafold était préoccupé par la façon dont les ingrédients pouvaient se lier ensemble, Alphamissense prédit ce qui pourrait arriver si vous utilisez complètement le mauvais ingrédient.