banner
Maison / Blog / Un cadre automatisé pour l'évaluation des modèles d'apprentissage profond pour les prédictions de sites d'épissage
Blog

Un cadre automatisé pour l'évaluation des modèles d'apprentissage profond pour les prédictions de sites d'épissage

Jun 07, 2023Jun 07, 2023

Rapports scientifiques volume 13, Numéro d'article : 10221 (2023) Citer cet article

1085 Accès

2 Altmétrique

Détails des métriques

Un nouveau cadre pour l'évaluation automatisée de divers détecteurs de sites d'épissage basés sur l'apprentissage profond est présenté. Le cadre élimine les activités fastidieuses de développement et d'expérimentation pour différentes bases de code, architectures et configurations afin d'obtenir les meilleurs modèles pour un ensemble de données de site d'épissage d'ARN donné. L'épissage d'ARN est un processus cellulaire dans lequel les pré-ARNm sont transformés en ARNm matures et utilisés pour produire plusieurs transcrits d'ARNm à partir d'une seule séquence génétique. Depuis les progrès des technologies de séquençage, de nombreuses variantes de sites d’épissage ont été identifiées et associées aux maladies. Ainsi, la prédiction du site d’épissage de l’ARN est essentielle pour la recherche de gènes, l’annotation du génome, les variantes pathogènes et l’identification de biomarqueurs potentiels. Récemment, des modèles d’apprentissage profond ont fonctionné avec une grande précision pour classer les signaux génomiques. Le réseau neuronal convolutif (CNN), la mémoire à long court terme (LSTM) et sa version bidirectionnelle (BLSTM), l'unité récurrente fermée (GRU) et sa version bidirectionnelle (BGRU) sont des modèles prometteurs. Lors de l'analyse des données génomiques, la fonction de localité de CNN aide à déterminer où chaque nucléotide est en corrélation avec d'autres bases à proximité. En revanche, BLSTM peut être entraîné de manière bidirectionnelle, permettant de traiter des données séquentielles dans les directions avant et arrière. Par conséquent, il peut traiter efficacement les données génomiques codées en 1D. Même si les deux méthodes ont été utilisées dans la littérature, une comparaison des performances manquait. Pour comparer des modèles sélectionnés dans des conditions similaires, nous avons créé un modèle pour une série de réseaux à cinq niveaux différents. À titre d'étude de cas, nous avons comparé les capacités d'apprentissage des modèles CNN et BLSTM en tant qu'éléments constitutifs de la prédiction des sites d'épissage d'ARN dans deux ensembles de données différents. Dans l'ensemble, CNN a obtenu de meilleurs résultats avec une précision de \(92\%\) (amélioration de \(6\%\), un score F1 de \(89\%\) (amélioration de \(8\%\)) et \(96\). %\) AUC-PR (\(4\%\) amélioration) dans la prédiction du site d'épissage humain. De même, une performance surperformante avec \(96\%\) précision (\(11\%\) amélioration), \(94\%\) score F1 (\(16\%\) amélioration) et \(99\ %\) L'AUC-PR (\(7\%\) amélioration) est obtenue dans la prédiction du site d'épissage de C. elegans. Dans l'ensemble, nos résultats ont montré que CNN apprend plus rapidement que BLSTM et BGRU. De plus, CNN réussit mieux à extraire des modèles de séquence que BLSTM et BGRU. À notre connaissance, aucun autre cadre n'est développé explicitement pour évaluer les modèles de détection d'épissure afin de décider du meilleur modèle possible de manière automatisée. Ainsi, le cadre proposé et le plan aideraient à sélectionner différents modèles d'apprentissage profond, tels que CNN vs BLSTM et BGRU, pour l'analyse des sites d'épissage ou des tâches de classification similaires et dans différents problèmes.

Les efforts d’annotation du génome humain bénéficient des progrès récents dans les études de séquençage et de transcriptomique de l’ARN, tandis que la détection des sites d’épissage est devenue une question de recherche importante. Cependant, il n’existe aucune ligne directrice permettant de sélectionner le meilleur modèle pour cette tâche. Nous présentons ici un nouveau cadre pour l'évaluation automatisée de divers détecteurs de sites d'épissage basés sur l'apprentissage profond. Le cadre élimine le développement fastidieux en fournissant des expériences automatisées pour différents modèles, architectures et configurations afin d'obtenir le meilleur modèle pour un ensemble de données de site d'épissage d'ARN donné. L'identification de l'emplacement précis constitue un défi crucial dans les annotations du génome humain. Par conséquent, la détermination des limites exon-intron des gènes est essentielle pour identifier la structure d’un gène. Les sites d'épissage déterminent les limites exon-intron et intron-exon qui régulent l'épissage de l'ARN, un processus de modification post-traductionnelle qui convertit les molécules pré-ARNm en ARNm matures.

En outre, des ARNm alternatifs peuvent être obtenus à partir de la même séquence génétique grâce au processus appelé épissage alternatif. Ainsi, une reconnaissance correcte du site d’épissage est essentielle à la formation correcte de la structure protéique. Les sites d'épissage sont généralement composés de quatre nucléotides conservés : la séquence donneuse GT (GU pour pré-ARNm) en 5' (aux limites exon-intron) et la séquence acceptrice AG à l'extrémité 3' (aux limites intron-exon). ) comme sur la figure 11. Les sites d'épissage qui contiennent des séquences GT-AG sont appelés sites d'épissage canoniques. De même, les sites d'épissage ne contiennent pas de dimères GT-AG appelés sites d'épissage non canoniques.