随着谷歌DeepMind研究团队在蛋白质三级结构预测上先后推出AlphaFold和AlphaFold2并将近50年来最优的预测性能提升翻倍,也获得了《科学》杂志评选的2020年十大科学进展。另一项生物结构——RNA二级结构,对于研究生物学调控来说具有非常重要的作用,确定RNA二级结构,对分析和理解基因遗传信息的传递机制至关重要,也对药物研发、疫苗设计等等重要生物技术的发展具有长远影响。传统的RNA二级结构预测算法主要基于通过自由能最小化的热力学模型,其先验假设强,但运行速度慢。
近日,西安交通大学自动化科学与工程学院彭勤科教授团队和美国加州大学欧文分校计算机科学谢晓辉教授团队共同合作,提出了一种基于深度学习的RNA 二级结构预测方法(UFold),其结合类似图像的 RNA 序列表示和卷积神经网络 (FCN) ,能够直接根据注释数据和碱基配对规则进行学习并预测。作者在家族内和跨家族 RNA 数据集上对 UFold 的性能进行了基准测试,发现在家族内数据集上显著优于其他方法,在不同的 RNA 家族上也达到了与传统方法相近的性能。此外,UFold还能够准确预测伪结,并且预测速度很快,每个序列的推理时间约为 160 ms,最长可达 1500 bp。同时,研究团队还提供了web线上预测服务。
科研人员首先将RNA单链结构通过独热编码将碱基转换为二进制矩阵形式,然后计算自身之间的克罗内克积重构序列,而不是使用核苷酸序列本身。使得模型能够考虑到所有长程和可能的碱基配对,然后通过语义分割网络U-net得到特征并进行预测,得到输入序列的碱基之间的预测交互分数图。最后,再将得分图转化为RNA二级结构。研究人员在多个经典以及跨家族数据集上进行评估,都取得了最优的性能提升,同时模型在预测假结上也保持了最高的伪结对预测精度,表明了 UFold 在包含伪结情况下的鲁棒性。最后在预测效能上,该模型在单条序列的平均预测时间上取得了比较其他RNA二级结构预测方法最高上百倍效能的提升,进一步证明的该工具的有效性。
上述研究成果以《UFold:一种快速准确的基于深度学习的RNA二级结构预测方法》(UFold: fast and accurate RNA secondary structureprediction with deep learning)为题在线发表在国际生物医学大数据顶级期刊《核酸研究》(NucleicAcidsResearch,简称NAR)。彭勤科课题组团队付来义是共同第一作者,西安交通大学自动化学院系统工程研究所是第一署名单位。《核酸研究》创刊于1974年,由英国牛津大学出版社出版,是发表核酸物理、化学、生物学等发表国际最前沿科学研究成果的重要学术期刊,该刊物上的文章同行认可度高,行业影响力大。该工具上线后,受到来自欧洲、美洲、澳洲以及国内等10多个研究机构的关注,目前该在线预测平台上线3个月使用人数已经超400人次。
原文链接为:https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkab1074/6430845?searchresult=1#312846774