![pageSearch](/themes/hestia/images/page-search.png)
Caster Concepts présente les roulettes TWERGO® Xtreme pour les applications aérospatiales et AGV
Sep 02, 2023Jabil Mexique obtient l'accréditation MedAccred
Aug 20, 2023Huntsville
Aug 10, 2023Installer des réservoirs pour stocker les affluents traités : Pollution Control Board, Assam
Aug 11, 2023Visitez une chaîne d’assemblage de PCB depuis votre fauteuil
Aug 03, 2023Génome
![Jun 01, 2023](/themes/hestia/images/news-details-icon1.png)
Nature Genetics (2023)Citer cet article
29 000 accès
2 citations
179 Altmétrique
Détails des métriques
Prédire les effets des variantes de codage constitue un défi majeur. Bien que les modèles récents d’apprentissage en profondeur aient amélioré la précision de la prédiction des effets des variantes, ils ne peuvent pas analyser toutes les variantes de codage en raison de leur dépendance à l’égard d’homologues proches ou de limitations logicielles. Ici, nous avons développé un flux de travail utilisant ESM1b, un modèle de langage protéique de 650 millions de paramètres, pour prédire les ~ 450 millions d'effets de variantes faux-sens possibles dans le génome humain, et avons rendu toutes les prédictions disponibles sur un portail Web. ESM1b a surpassé les méthodes existantes en classant environ 150 000 variantes faux-sens ClinVar/HGMD comme pathogènes ou bénignes et en prédisant les mesures sur 28 ensembles de données d'analyse mutationnelle approfondie. Nous avons en outre annoté environ 2 millions de variantes comme étant dommageables uniquement dans des isoformes de protéines spécifiques, démontrant l'importance de prendre en compte toutes les isoformes lors de la prévision des effets des variantes. Notre approche se généralise également à des variantes de codage plus complexes telles que les indels dans le cadre et les stop-gains. Ensemble, ces résultats établissent les modèles de langage protéique comme une approche efficace, précise et générale pour prédire les effets des variantes.
La détermination des conséquences phénotypiques des variantes génétiques, connue sous le nom de prédiction des effets des variantes (VEP), constitue un défi majeur en génétique humaine1,2,3,4. Les variantes codantes modifiant les séquences d'acides aminés des protéines présentent un intérêt particulier en raison de leur enrichissement en associations de maladies, de mécanismes mieux compris et de leur action thérapeutique5,6,7,8. La plupart des variantes codantes naturelles sont du faux-sens, remplaçant un acide aminé par un autre9. Malgré les progrès de la génomique fonctionnelle et des études génétiques, distinguer les variantes dommageables perturbant les protéines des variantes neutres reste un défi. De plus, la plupart des gènes humains sont épissés alternativement, et la même variante peut être dommageable pour certaines isoformes de protéines mais neutre pour d'autres, en fonction des interactions avec le reste de la protéine. Ainsi, la plupart des variantes faux-sens restent des variantes de signification incertaine (VUS), limitant l'utilité du séquençage de l'exome dans le diagnostic clinique2,10. VEP est encore plus difficile pour les variantes de codage affectant plusieurs résidus tels que les indels dans le cadre.
Les approches expérimentales pour le VEP telles que les analyses mutationnelles profondes (DMS)11 et Perturb-seq12 peuvent mesurer simultanément les phénotypes moléculaires et cellulaires de milliers de variantes. Cependant, ces endophénotypes sont des proxys imparfaits des phénotypes cliniques pertinents et restent difficiles à mettre à l’échelle à l’échelle du génome13,14. En revanche, les méthodes informatiques qui apprennent les propriétés biophysiques ou les contraintes évolutives des protéines pourraient théoriquement couvrir toutes les variantes codantes15,16,17. Alors que la plupart des méthodes informatiques sont formées sur des données étiquetées de variants pathogènes par rapport à des variants bénins10, les méthodes non supervisées basées sur l'homologie prédisent les effets des variants directement à partir d'alignements de séquences multiples (MSA) sans formation sur les données étiquetées. EVE, une méthode d'apprentissage profond non supervisé implémentant un auto-encodeur variationnel génératif, s'est récemment avérée plus performante que les méthodes supervisées4. Cependant, en raison de leur dépendance à l’égard du MSA, les méthodes basées sur l’homologie fournissent des prédictions uniquement pour un sous-ensemble de protéines et de résidus bien alignés. De plus, étant donné que les isoformes alternatives du même gène ont des homologues identiques, il n’est pas clair si elles peuvent distinguer les effets des variantes sur différentes isoformes.
Une autre approche d'apprentissage en profondeur du VEP utilise des modèles de langage protéique, une technique dérivée du traitement du langage naturel. Il s'agit de réseaux de neurones profonds entraînés pour modéliser l'espace de séquences protéiques connues sélectionnées tout au long de l'évolution, telles que capturées par de grands ensembles de données protéiques tels que UniProt18 (Fig. 1a). Notamment, les modèles de langage protéique ne nécessitent pas d’homologie explicite et peuvent estimer la probabilité de toute séquence d’acides aminés possible. Il a été démontré qu’ils apprennent implicitement comment la séquence protéique détermine de nombreux aspects de la structure et de la fonction des protéines, notamment la structure secondaire, les interactions à longue distance, les modifications post-traductionnelles et les sites de liaison19,20,21,22,23,24. L'un des plus grands modèles de langage protéique est ESM1b, un modèle accessible au public de 650 millions de paramètres formé sur environ 250 millions de séquences protéiques20. Il a été démontré qu'il prédisait, sans formation supplémentaire, les effets variables corrélés aux résultats de l'expérience DMS25.