banner
Maison / Blog / Génome
Blog

Génome

Jun 01, 2023Jun 01, 2023

Nature Genetics (2023)Citer cet article

29 000 accès

2 citations

179 Altmétrique

Détails des métriques

Prédire les effets des variantes de codage constitue un défi majeur. Bien que les modèles récents d’apprentissage en profondeur aient amélioré la précision de la prédiction des effets des variantes, ils ne peuvent pas analyser toutes les variantes de codage en raison de leur dépendance à l’égard d’homologues proches ou de limitations logicielles. Ici, nous avons développé un flux de travail utilisant ESM1b, un modèle de langage protéique de 650 millions de paramètres, pour prédire les ~ 450 millions d'effets de variantes faux-sens possibles dans le génome humain, et avons rendu toutes les prédictions disponibles sur un portail Web. ESM1b a surpassé les méthodes existantes en classant environ 150 000 variantes faux-sens ClinVar/HGMD comme pathogènes ou bénignes et en prédisant les mesures sur 28 ensembles de données d'analyse mutationnelle approfondie. Nous avons en outre annoté environ 2 millions de variantes comme étant dommageables uniquement dans des isoformes de protéines spécifiques, démontrant l'importance de prendre en compte toutes les isoformes lors de la prévision des effets des variantes. Notre approche se généralise également à des variantes de codage plus complexes telles que les indels dans le cadre et les stop-gains. Ensemble, ces résultats établissent les modèles de langage protéique comme une approche efficace, précise et générale pour prédire les effets des variantes.

La détermination des conséquences phénotypiques des variantes génétiques, connue sous le nom de prédiction des effets des variantes (VEP), constitue un défi majeur en génétique humaine1,2,3,4. Les variantes codantes modifiant les séquences d'acides aminés des protéines présentent un intérêt particulier en raison de leur enrichissement en associations de maladies, de mécanismes mieux compris et de leur action thérapeutique5,6,7,8. La plupart des variantes codantes naturelles sont du faux-sens, remplaçant un acide aminé par un autre9. Malgré les progrès de la génomique fonctionnelle et des études génétiques, distinguer les variantes dommageables perturbant les protéines des variantes neutres reste un défi. De plus, la plupart des gènes humains sont épissés alternativement, et la même variante peut être dommageable pour certaines isoformes de protéines mais neutre pour d'autres, en fonction des interactions avec le reste de la protéine. Ainsi, la plupart des variantes faux-sens restent des variantes de signification incertaine (VUS), limitant l'utilité du séquençage de l'exome dans le diagnostic clinique2,10. VEP est encore plus difficile pour les variantes de codage affectant plusieurs résidus tels que les indels dans le cadre.

Les approches expérimentales pour le VEP telles que les analyses mutationnelles profondes (DMS)11 et Perturb-seq12 peuvent mesurer simultanément les phénotypes moléculaires et cellulaires de milliers de variantes. Cependant, ces endophénotypes sont des proxys imparfaits des phénotypes cliniques pertinents et restent difficiles à mettre à l’échelle à l’échelle du génome13,14. En revanche, les méthodes informatiques qui apprennent les propriétés biophysiques ou les contraintes évolutives des protéines pourraient théoriquement couvrir toutes les variantes codantes15,16,17. Alors que la plupart des méthodes informatiques sont formées sur des données étiquetées de variants pathogènes par rapport à des variants bénins10, les méthodes non supervisées basées sur l'homologie prédisent les effets des variants directement à partir d'alignements de séquences multiples (MSA) sans formation sur les données étiquetées. EVE, une méthode d'apprentissage profond non supervisé implémentant un auto-encodeur variationnel génératif, s'est récemment avérée plus performante que les méthodes supervisées4. Cependant, en raison de leur dépendance à l’égard du MSA, les méthodes basées sur l’homologie fournissent des prédictions uniquement pour un sous-ensemble de protéines et de résidus bien alignés. De plus, étant donné que les isoformes alternatives du même gène ont des homologues identiques, il n’est pas clair si elles peuvent distinguer les effets des variantes sur différentes isoformes.

Une autre approche d'apprentissage en profondeur du VEP utilise des modèles de langage protéique, une technique dérivée du traitement du langage naturel. Il s'agit de réseaux de neurones profonds entraînés pour modéliser l'espace de séquences protéiques connues sélectionnées tout au long de l'évolution, telles que capturées par de grands ensembles de données protéiques tels que UniProt18 (Fig. 1a). Notamment, les modèles de langage protéique ne nécessitent pas d’homologie explicite et peuvent estimer la probabilité de toute séquence d’acides aminés possible. Il a été démontré qu’ils apprennent implicitement comment la séquence protéique détermine de nombreux aspects de la structure et de la fonction des protéines, notamment la structure secondaire, les interactions à longue distance, les modifications post-traductionnelles et les sites de liaison19,20,21,22,23,24. L'un des plus grands modèles de langage protéique est ESM1b, un modèle accessible au public de 650 millions de paramètres formé sur environ 250 millions de séquences protéiques20. Il a été démontré qu'il prédisait, sans formation supplémentaire, les effets variables corrélés aux résultats de l'expérience DMS25.

1%)9. Only high-confidence variants were included (Supplementary Methods). The distribution of ESM1b effect scores shows a substantial difference between pathogenic and benign variants in both datasets (Fig. 2a). Moreover, pathogenic and benign variants show consistent distributions across the two datasets, suggesting that the predictions are well-calibrated. Using an LLR threshold of −7.5 to distinguish between pathogenic and benign variants yields a true-positive rate of 81% and a true-negative rate of 82% in both datasets./p> 0.01’). Bottom: Venn diagram of the variants extracted from HGMD, ClinVar and gnomAD. b, Comparison between ESM1b and EVE in their capacity to distinguish between pathogenic and benign variants (measured by global ROC-AUC scores), as labeled by ClinVar (36,537 variants in 2,765 unique genes) or HGMD/gnomAD (30,497 variants in 1,991 unique genes). c, The distribution of ESM1b effect scores across ClinVar missense VUS, decomposed as a mixture of two Gaussian distributions capturing variants predicted as more likely pathogenic (orange) or more likely benign (blue). d, The distribution of ESM1b effect scores across all common ClinVar labels, including the two Gaussian components from c. Boxes mark Q1–Q3 of the distributions, with midpoints marking the medians (Q2) and whiskers stretching 1.5× IQR. Altogether there are ~300,000 missense variants labeled in ClinVar. e,f, Evaluation of 19 VEP methods against the same two benchmarks: ClinVar (e) and HGMD/gnomAD (f). Performance was measured by two metrics for binary classification as follows: ROC-AUC (light red) and a balanced version of PRC-AUC (light blue; Methods). Performance was evaluated on the sets of variants available for all 19 methods. g,h, Head-to-head comparison between ESM1b and each of the 18 other VEP methods over the same two dataset benchmarks (in terms of ROC-AUC). Because ESM1b provides scores for all missense mutations, the comparison against each other method is performed on the set of variants with effect predictions for that method. The percentage of variants considered for each method is shown at the bottom of each bar. IQR, interquartile range./p> 4), including three ClinVar variants annotated as VUS (Fig. 4b)./p> 2). Center: the lowest and highest isoform scores predicted for all VUS from the left panel (top two boxes), compared to the mean scores (across isoforms) of VUS, benign or pathogenic variants (as in Fig. 2d; bottom three boxes). The boxes represent the Q1–Q3 range and median (Q2) line; whiskers correspond to 1.5× IQR; outliers (outside the whiskers) are shown individually. Right: the distribution of the lowest and highest isoform scores predicted for all VUS from the left panel, compared to the distributions for pathogenic or benign variants from ClinVar, HGMD and gnomAD (as in Fig. 2a). Across all panels, the number of variants associated with each category is shown in parentheses. d, The top 100 ClinVar genes with the highest number of variants with highly variable effect scores (as in c). Numbers of annotated isoforms of each gene are shown in parentheses./p> 2) across isoforms (Fig. 4c). Notably, we only considered reviewed, manually curated protein isoforms (Supplementary Methods). These 3,477 variants include 148 (4%) benign or likely benign, 437 (13%) pathogenic or likely pathogenic and 2,892 (83%) VUS. Interestingly, these VUS mirror the effect score distribution of pathogenic variants when considering the most damaging isoform, and benign variants when considering the least damaging isoform (Fig. 4c). Like P53, many clinically important genes have a large number of ClinVar variants with high effect score variance across isoforms, including BRCA1, IRF6 and TGFB3 (Fig. 4d)./p> −7) in one isoform, (2) likely pathogenic (LLR < −8) in another and (3) these two predictions are substantially different (LLR difference > 4). We identified ~1.8 million such variants across ~9,000 genes, which is 85% of all genes with manually curated alternative isoforms (Fig. 5a). Isoform-sensitive variants (ISV) are more likely to occur near splice junctions and in genes with splicing-disrupted protein domains, as opposed to domains that are either included intact or removed entirely during splicing (Fig. 5b)./p> −7, (2) minimum score < −8 and (3) difference between minimum and maximum score > 4. b, Top: ISV are closer to splice junction than would be expected at random. Bottom-left: ISV in genes with domains containing splice junctions: 90.31% versus 28.21% expected at random. Bottom-right: metrics of predicting whether genes contain domains disrupted by splice junction given whether or not they contain ISV. c, An example of a small splicing effect (excision of five amino acids from the primary isoform of the MEN1 protein) leading to dramatic changes in the predicted effects of variants in a much larger region. Bottom: AlphaFold structural predictions of the two isoforms. Arrows are pointing to a small surface pocket introduced by the five amino acid deletion (around Ser145). d, An example of alternative splicing leading to a distant effect in the TGFB3 proprotein. Exclusion of the TGFβ-3 chain in an alternative isoform of the proprotein leads to a region at the beginning of the LAP chain (marked by orange) losing its sensitivity to missense variants. Right: AlphaFold prediction of the binding of the two chains showing these two regions to be close to one another in 3D structure. ISV, isoform-sensitive variants; ACC, accuracy; TPR, true-positive rate; F1, F1 score; MCC, Matthew’s correlation coefficient./p>