banner
Maison / Blog / Prédiction d’épissage aberrant dans les tissus humains
Blog

Prédiction d’épissage aberrant dans les tissus humains

Jun 09, 2023Jun 09, 2023

Nature Genetics volume 55, pages 861-870 (2023)Citer cet article

14 000 accès

2 citations

171 Altmétrique

Détails des métriques

L'épissage aberrant est une cause majeure de troubles génétiques, mais sa détection directe dans les transcriptomes est limitée aux tissus cliniquement accessibles tels que la peau ou les fluides corporels. Bien que les modèles d’apprentissage automatique basés sur l’ADN puissent donner la priorité à des variantes rares pour affecter l’épissage, leurs performances dans la prédiction de l’épissage aberrant spécifique à un tissu restent non évaluées. Ici, nous avons généré un ensemble de données de référence d'épissage aberrant, couvrant plus de 8,8 millions de variantes rares dans 49 tissus humains à partir de l'ensemble de données Genotype-Tissue Expression (GTEx). Avec un rappel de 20 %, les modèles basés sur l'ADN de pointe atteignent une précision maximale de 12 %. En cartographiant et en quantifiant l'utilisation du site d'épissage spécifique à un tissu à l'échelle du transcriptome et en modélisant la compétition entre les isoformes, nous avons multiplié par trois la précision au même rappel. L'intégration des données de séquençage d'ARN de tissus cliniquement accessibles dans notre modèle, AbSplice, a porté la précision à 60 %. Ces résultats, répliqués dans deux cohortes indépendantes, contribuent considérablement à l’identification de variantes non codantes avec perte de fonction ainsi qu’à la conception et à l’analyse de diagnostics génétiques.

L’identification des variantes d’ADN non codantes avec perte de fonction constitue un goulot d’étranglement majeur dans l’interprétation du génome entier, car il est difficile de prédire la fonction en dehors des régions codantes1. Les variantes modifiant l'épissage représentent une classe importante de variantes non codantes avec perte de fonction, car elles peuvent conduire à des isoformes d'ARN radicalement modifiées, par exemple en induisant des changements de cadre ou des ablations de domaines protéiques fonctionnellement importants. Si le variant modifie fortement le choix des isoformes d’épissage, l’abondance restante des isoformes d’ARN fonctionnelles peut être tellement réduite que la fonction du gène est perdue. En raison de la pertinence de l'épissage pour l'interprétation des variantes, notamment dans le diagnostic des maladies rares et en oncologie, des algorithmes ont été développés pour prédire si les variantes affectent l'épissage2,3,4,5,6,7,8,9. Cependant, ce n'est que récemment que des événements d'épissage aberrants, c'est-à-dire de rares modifications importantes de l'utilisation des isoformes d'épissage, ont été signalés dans les tissus humains . Bien qu'une méthode permettant de prioriser a posteriori les variantes rares causales candidates pour les événements d'épissage aberrant observés ait été proposée12, le problème direct, c'est-à-dire prédire parmi les variantes rares lesquelles entraîneront un épissage aberrant, n'a pas été résolu.

Ici, nous avons entrepris d'établir des modèles prédisant si une variante rare s'associe à un épissage aberrant dans un tissu humain donné. Tout d’abord, nous avons supposé que seul l’ADN était disponible et avons ensuite examiné plus en détail les données complémentaires de séquençage d’ARN (RNA-seq) des tissus cliniquement accessibles (CAT) (Fig. 1).

Nous avons cherché à prédire si des variantes rares étaient associées à un épissage aberrant dans 49 tissus humains. a, Nous avons établi une référence complète pour l'épissage aberrant en traitant des échantillons GTEx avec un appelant d'épissage aberrant10 récemment publié, sur la base duquel nous pourrions évaluer et développer des prédicteurs pouvant prendre comme entrée la séquence d'ADN et, éventuellement, les données de séquençage d'ARN des CAT. b, l'analyse comparative a révélé des performances modestes des algorithmes actuellement utilisés basés uniquement sur l'ADN, une amélioration substantielle des performances lors de l'intégration de ces modèles avec SpliceMap, une carte quantitative de l'épissage spécifique aux tissus que nous avons développée dans cette étude, et d'autres améliorations en incluant également des mesures directes d'épissage aberrant. épissage dans les tissus accessibles.

Nous avons créé une référence en utilisant l'appelant d'épissage aberrant FRASER (Find RAre Splicing Events in RNA-seq)10 sur 16 213 échantillons d'ARN-seq de l'ensemble de données Genotype-Tissue Expression (GTEx), couvrant 49 tissus et 946 individus. Comparé à d'autres méthodes de détection des valeurs aberrantes d'épissage 11,12, FRASER a systématiquement montré le plus grand accord avec les prédicteurs basés sur la séquence et a donc été utilisé par la suite pour nos évaluations (Extended Data Fig. 1). Pour chaque individu, nous avons considéré chaque gène codant pour une protéine portant au moins une variante rare (fréquence des allèles mineurs (MAF) inférieure à 0,1 % sur la base de la base de données d'agrégation du génome (gnomAD)13 et trouvée chez pas plus de deux individus dans GTEx) et avons défini pour prédire dans quel tissu, le cas échéant, ce gène est épissé de manière aberrante. Nous avons défini un gène comme étant épissé de manière aberrante dans un échantillon s'il était appelé comme une valeur aberrante d'épissage significative à l'échelle du transcriptome et avec une amplitude suffisante (pourcentage différentiel d'épissage (Ψ) supérieur à 0,3 ; méthodes, et voir Données étendues, Fig. 1 pour les résultats avec des seuils alternatifs). Des études antérieures avaient rapporté que jusqu'à 75 % des événements d'épissage aberrants dans les échantillons de séquençage d'ARN GTEx ne sont pas répliqués dans les tissus10,12 et peuvent donc refléter des artefacts techniques ou un épissage aberrant qui n'est pas génétiquement motivé. Nous avons quantifié l'enrichissement des valeurs aberrantes d'épissage répliquées dans les tissus du même individu en ce qui concerne la distance jusqu'à la variante rare la plus proche et avons constaté qu'elles étaient enrichies jusqu'à une distance de 250 paires de bases (pb) (Données étendues, Fig. 2). Par conséquent, nous avions également besoin qu'une variante rare soit à moins de 250 pb des limites de tout intron associé au site d'épissage aberrant (Méthodes et données étendues, Fig. 3). Ce filtre a donné des résultats similaires à ceux du filtrage des événements aberrants répliqués, avec l'avantage supplémentaire d'être applicable à des cohortes indépendantes disposant d'un seul échantillon par individu (Données étendues, Fig. 4).

 0.8, MMSplice score > 2 (absolute score) and an AbSplice-DNA score > 0.2 in at least one tissue. Asterisks mark significance levels of two-sided Fisher tests of AbSplice-DNA compared with SpliceAI (*<0.05, **<10−4, ***<10−8). NS, not significant./p> 0.3) and then by significance level. This simple method yielded a markedly increased precision compared with the DNA-based models, up to nearly 40% recall (Fig. 5c and Extended Data Fig. 10a). However, RNA-based predictions remain limited to those splice sites expressed and spliced in the CAT. Therefore, we next trained models integrating AbSplice-DNA features together with RNA-seq-based features from CATs, including differential splicing amplitude estimates to leverage the splicing scaling law and the SpliceMaps (Methods). These models, which we call AbSplice-RNA, outperformed all other models (Fig. 5c and Extended Data Fig. 10a). We found that using fibroblasts only led to the same performance as using all CATs, reaching around 60% precision at 20% recall and amounting to a twofold improvement over AbSplice-DNA (Fig. 5c and Extended Data Fig. 10b). Those improvements were consistent across target tissues (Fig. 5d). As expected, AbSplice-RNA outperformed AbSplice-DNA for genes expressed in CATs and remained on par with it otherwise (Extended Data Fig. 10c). Altogether, these results establish a formal way to integrate direct measurements of aberrant splicing along with sequence-based models to predict aberrant splicing in a tissue of interest./p> 0.3). The same filters were applied to the splicing efficiency metrics./p> 0.3) lower than the remaining genes, and further ranked genes within each of these two groups by increasing P value./p>

 0.3, FDR < 0.05, 126,308 aberrant events) b, Filter 2: same as a, but restricting to genes that are aberrantly spliced in at least two different tissues from the same individual (32,886 aberrant events). c, Filter 3: same as a, but restricting to genes that have a rare variant within 250 bp of the splice sites (22,766 aberrant events). While the results are best with Filter 3, the relative improvements in terms of precision at the same recall between the methods is the same as with Filter 2. In particular, having restricted to variants 250 bp away from any detected split read boundary (Filter 3) did not bias our analysis for the splice-site centric method MMSplice over SpliceAI. d, After applying Filter 3, outliers were stratified into ‘replicated’ (14,030 aberrant events), that is appearing in at least two different tissues of the same individual, and ‘not replicated’ (8,736 aberrant events). All models showed a significantly higher performance for aberrant splicing events replicated in two or more samples compared to those reported in a single sample only./p> 0.3) across tissues./p> 1 (transcript per million). AbSplice-RNA improves for genes expressed in fibroblasts and remains on par with AbSplice-DNA for genes not expressed in fibroblasts./p>