关于我们
联系我们

北京中科晶云科技有限公司

电话:400-8100-102

E-Mail:gene@gene.ac

地址:北京市海淀区知春路盈都大厦C座4单元3A

NONCODEV5强势来袭——一款全面的ncRNAs注释数据库

更新时间:2018-05-10 14:16:34点击次数:1015次

NONCODE 数据库(www.noncode.org)是国际著名的 ncRNA (尤其是 lncRNA)及相关注释数据库。 NONCODE 数据库第一版本发布于 2004 年。 2005 年 1 月,NONCODE 数据库被 Science 杂志报道。截止到 2017 年11 月,数据库在线十四年,升级五次(相关文章SCI 引用次数达 672,据网站统计 NONCODE 点击数已经过亿,用户遍布全球各地,其中 1/4 的用户来自美国。 NONCODE 被 ISI 数据收录,已经有两大国际联盟Genecards 和 RNAcentral 主动邀请 NONCODE 数据库加入其组织,并与 NONCODE数据库建立互引机制。


NONCODE数据库自2004年上线以来,一直由中科晶云团队维护和升级,本次NONCODE数据库升级至NONCODEv5,文章于上月发表在Nucleic Acids Research(IF=10.162)。NONCODEv5收集了自2015年9月以来新鉴定的非编码RNA,并增加了猪(pig)的非编码数据;非编码转录本总数据量从527 336增长到548 640,物种总数增加到17个(物种包括人、小鼠、牛、大鼠、黑猩猩、大猩猩、红毛猩猩、恒河猴、负鼠、鸭嘴兽、鸡、猪、斑马鱼、果蝇、线虫、酵母和拟南芥),并为这些数据注释了表达谱信息,功能信息及保守性信息等内容。


除此之外,新版数据库NONCODEv5还引入了三个重要的新注释信息:


01

人lncRNA与疾病的相互关系

基因组转录的大部分转录本都是非编码RNA,只有一小部分转录本能够翻译成蛋白质。在这些非编码转录本中,有很大一部分lncRNAs参与了生物体调控过程,包括组蛋白修饰,转录调控,DNA甲基化和染色体重塑以及转录后调控等,这些调控过程与疾病的发生发展有着非常密切的关系。lncRNA 二级结构、表达水平以及绑定的蛋白发现改变都有可能导致功能障碍,甚至引发癌症和神经退行性疾病的发生。


数据库收集了四个关于lncRNAs与疾病的相关数据库:LncRNADisease, Lnc2Cancer, MNDR 和LncRNAWiki。 NONCODE从这四个数据库中整合收集了疾病相关的lncRNAs。但通过计算方法预测的与疾病相关的lncRNAs因其不确定性,没有被NONCODEv5收录。因此,NONCODEv5只包含了实验验证的lncRNAs。最终,NONCODEv5收录了32 226 lncRNA和疾病相关信息的记录。


全基因组关联研究(Genome-wide association studies, GWAS)揭示了许多与疾病相关的遗传变异。而至少三分之一的遗传变异位于非编码区域。lncRNA中SNP的发生可能会扰乱剪切和结构稳定性以影响他们结合的mRNA。因此,在研究lncRNA与疾病关系时,lncRNA SNP与疾病的关系也是需要重点研究的内容。


NONCODE从LincSNP 2.0数据库中收集了lncRNA与SNP相关关系。LincSNP 2.0数据库收录了大量疾病相关的SNPs与lincRNA的相关关系,并从八个数据库(dbGaP, GAD, GWAS Central, Johnson and O’Donnell, the NHGRI GWAS Catalog, PharmGKb GWASdb 和GRASP)总结了809 451 lncRNA snp。NONCODEv5将SNP在染色体中的位置信息与lncRNAs建立联系。最终,收录了724 724个与lncRNA相关的SNP位点。



02

描绘了人非编码RNA在外泌体中的表达情况

外泌体研究是lncRNA领域一个新颖的研究领域,提供了lncRNA与疾病关系的研究方向。最新研究表明来自肿瘤和正常细胞的外泌体对肿瘤发生,肿瘤凋亡和肿瘤耐药性都有密切的关系。


NONCODEv5从NCBI GEO数据库中收集了6个外泌体相关的RNA测序数据,外泌体来源包括6个细胞系(A431, BJ, HepG2, HUVEC, MCF7 and MDA-MB-231)和4个组织(invasive non-functional pituitary adenomas (NFPAs), non-invasive NFPAs, tuberculosis patient serum and blood from normal individuals)。在这10个测序数据中对NONCODEv5人转录本进行表达定量,并展示在网站供用户查阅,


03

预测人非编码转录本的二级结构信息

转录本除基因序列之外,还有另一个属性同样重要,那就是二级结构信息。RNA二级结构信息影响RNA生命周期的每一步,包括RNA转录,剪切,细胞定位,翻译等。RNA二级结构对RNA发挥功能与调控作用都密切相关。


NONCODE研究组与清华大学鲁志实验室合作对lncRNA二级结构进行预测。分别选择了两种代表性的测序方法PARS和DMS-seq,并挑选了两个对应的数据集。使用RME对NONCODE数据库人转录本的结构进行了预测。并使用可视化框架将预测得到的二级结构信息展示在NONCODE人转录本的页面。并可以通过切换数据集查看基于不同数据集预测的二级结构信息。