洛阳晶云信息科技有限公司
电话:400-8100-102
E-Mail:gene@gene.ac
地址:北京市海淀区知春路盈都大厦C座4单元3A
中科晶云在顶级杂志《science》增刊上发表成果
2018年2月2日,北京中科晶云科技有限公司关于精准医学大数据的综述文章《From big data to knowledge in precision medicine》,成功刊登在顶级杂志《science》的最新一期增刊《Precision medicine and cancer immunology in China》上,该增刊是Science杂志借中国新年来临之际推出,由10余位国内专家牵头撰写,详细描述了中国精准医学的发展趋势及癌症免疫治疗的过去、现在和未来。
中科晶云发表的《From big data to knowledge in precision medicine》从以下几个层次深入探讨了大数据在中国精准医学领域取得的巨大成果、当前挑战及未来发展趋势。
一、
医疗大数据和组学数据的爆炸式增长
生物医学领域正处在一个数据爆炸增长的时代。世界范围内电子病历系统的采用日益增多,使得医学领域每天在产生大量的诊疗数据,患者的数据通常需要长期保存,这些数据包括临床决策支持中的诊断和用药建议、病史记录、检测结果、医疗影像录音等多种类型数据。此外,伴随着高通量测序技术等生物技术的发展,基因组、转录组、表观组、蛋白组、代谢组、微生物组、暴露组等分子层面的数据,得以在几小时到几天内获得,多组学测序数据迅速产出并被广泛应用于精准医学的研究和临床应用,构成了生物医学领域增长最快的数据类型;同时,可穿戴设备以及智能手机正在时刻收集与个人健康体征相关的数据,由于收集简单易行,这些数据在不断的攀升。多组学数据、临床电子病例、可穿戴设备采集数据,这些庞大而复杂的数据构成了精确医学所需要的关键信息,推动了健康医疗大数据时代的到来。
二、
中国大规模人群队列研究的开展
当前,精准医学计划在多个国家陆续启动,各国科学家们正致力于收集十万、百万人群的基因组信息。2016年,中国科技部将“精准医学研究”列为重大研究计划,该计划所涉及的队列研究,不仅包括百万级自然人群国家大型健康队列研究,同时也包括心血管疾病、脑血管疾病、呼吸系统疾病、代谢性疾病、乳腺癌、食管癌以及免疫系统疾病等14个重大疾病共70万人群的专病队列研究,此外,罕见病的临床队列研究也包含在其中。中科院也于2016年启动中国人群精准医学研究计划,4年内预计完成4000志愿者的DNA样本和多种表现型数据的采集。对次,我们可以预见,随着大队列研究的开展,健康医疗大数据仍将会不断产生。
三、
从数据到知识
大数据本身并不能产生价值,其价值在于进行分析挖掘并转换为知识,才能进一步被应用于医疗及健康决策。国务院印发《“十三五”国家科技创新规划》关于精准医学关键技术中明确指出精准医学大数据平台建设的重要性,提出建立多层次精准医疗知识库体系和国家生物医学大数据共享平台。科技部精准医学重点专项启动了一系列围绕精准医学大数据的研究项目,针对精准医学大数据平台构建过程中的数据整合、存储、利用与共享等关键技术进行研究,构建大数据研究与应用的全链条技术方法体系。按照重点专项的部署计划,2016年首先启动大数据的存储和分析的基础设施建设; 2017年基于组学分析工具进行数据向信息的转化,建立涵盖表型信息和组学信息的整合数据库; 到2018年,基于前期工作基础,借助深度学习等人工智能挖掘算法,启动针对的大数据挖掘,促进大数据到知识的转化。
图1. 精准医学大数据的研究与应用体系
四、
精准医学大数据平台的建设
随着国家政策的支持,中国精准医学大数据的基础设施建设不断完善。国家卫计委牵头组建“中国健康医疗大数据股份有限公司”,确立2个省4个市作为健康医疗大数据中心与产业园建设国家试点工程第一批试点省市,致立于挖掘开发健康医疗大数据的价值。由国家发改委等四部批复创建的深圳国家基因库于2016年正式运营,将会长期储存和管理我国特有的遗传资源、生物信息和基因数据。国内的生物信息云计算平台BGI Online, 晶云等一系列平台搭建完成,提供快速准确的data到information的计算服务。IT领域的云服务商阿里、华为、百度等提供了专门面向生物医学数据的云存储计算服务,IT与BT技术紧密结合。
五、
精准医学大数据的价值
精准医学大数据向知识的转化,能辅助提升临床诊疗和健康管理的水平。精准医学大数据的价值可以描述成三个层面:1)揭示规律,精准医学大数据可以用来对已有的观测现象进行描述,从而揭示分子机制、定位分子标志物、鉴定遗传风险因素和评估诊疗效果等。2)预测未来,组学和表型的信息相互结合可以用于预测疾病的风险、肿瘤的早发、新的药物靶点以及临床预后等。3)辅助决策,通过临床采集数据和个人日常生活采集数据,基于大规模人群挖掘获得的知识,可实现智能化的辅助临床诊疗决策和健康管理。
六、
精准医学大数据面临的挑战
1)数据共享
重点专项要求所有项目产生的相关队列大数据、样本信息、临床信息等科学数据需无条件协同共享,形成国家层面的大数据中心,在重点专项之外的研究数据及一些商业构构的数据,需建立互助互利的数据联盟模式,鼓励他们进行资源共享。
2)数据安全隐私
未来大量人群的组学信息、电子病历信息、健康档案信息将会进入到大数据平台中,因此如何确保这些数据的隐私安全至关重要。个人的遗传隐私无法得到保障可能引发伦理学纠纷。国家需要出台相应的监督机制,此外还需引入类似第三方加密的保护措施等。
3)数据和分析的标准化
基于NGS数据开展临床研究过程中,尚缺乏相应的标准与规范,会导致数据质量低下、分析解读不专业等问题。为了推动实现NGS临床检测的规范化,2016年,CSCO发布了中国第一部《二代测序技术应用于临床肿瘤精准诊治的共识》,其中涉及NGS质量需求、检测内容、样本处理、样本处理、测序流程、数据分析、结果报告、知情同意、技术质量认证和验证方面的基本要求与规范。此外,2017 年由四川华西医院、北京协和医院等地专家编写和发布了《临床分子病理实验室二代基因测序检测专家共识》,该共识从实验室总体要求、NGS分析样本、基因Panel、NGS检测流程中的质量标准、生物信息分析等几个方面提出了最新的操作共识。这些共识的推出将在推动NGS规范化的道路上发挥重要的作用,对规范精准医学额大数据分析解读等方面有着重要意义。更多的行业标准需要被制订并进一步施行。
4)多维组学数据的分析整合
基因组学、转录组学和蛋白质组学等组学数据,大多来自不同的平台,需借助不同的生物信息学分析方法处理,才信实现信息化。组学之间的界限需被打破,多个组学需进行更加有效的整合分析。现有组学数据的分析多集中在编码区,对于非编码区域的分析缺乏,组学的分析范围有待进一步扩增。
5)与IT技术的紧密结合
医学大数据的巨大规模给存储和计算提出了严峻的挑战,这迫切的需要IT技术的革新。以大数据关键的知识挖掘为例,由于其依赖的深度学习技术有神经网络增长过速的问题,导致严重的速度瓶颈。寒武纪深度学习芯片等硬件定制芯片,借助硬件的支持,成数量级的提升了效率。医学大数据需借助IT最前沿技术,与软硬件深度绑定,由通用计算向专用计算发展。
七、
精准医学大数据的未来趋势
随着人工智能技术的发展,未来大数据技术会与人工智能技术紧密结合,共同推动精准医学的发展及应用。IBM waston等在临床的应用表明,人工智能通过对大数据的深度整合分析和高水平的专业学习能力,通过应用不同算法构建智能诊疗模型,会越来越接近甚至超过临床有经验的医生,能快速、准确的做出临床决策。中国现在面临“医疗资源总量不足、结构不合理、分布不均衡,基层人民群众就医难现象”的问题,正在推行医疗改革,建立分级诊疗,强化基层服务能力,推动优质医疗资源下沉。大数据与AI的技术融合,能有效的帮助中国医疗改革的进行,通过大数据+AI搭建的智能诊疗系统,可以复制并学习专家的经验,将其应用到基层医疗机构的临床决策中,解决医疗资源不足的问题,有效提升基层服务能力,推动医疗的健康发展。
关于中科晶云
此次在science增刊上发表文章,是中科晶云在精准医学领域取得的又一项硕果。中科晶云主要从事面向精准医学的研究及临床应用。在多组学测序数据分析、挖掘算法研究、基因疾病网络研究取得了突出进展。团队在国内最早将云计算技术与基因组大数据分析相结合,在遗传病领域已发布晶读TM遗传病基因组数据解读平台,实现从遗传病基因组测序数据到临床关联分析报告的一站式处理;在肿瘤领域与多家医院开展科研合作,积累近万例临床基因组数据,搭建了完备的肿瘤基因组学分析流程,晶锐TM-肿瘤NGS数据存储计算解读平台,并与卫生部临检中心共同完成全国肿瘤体细胞基因突变高通量测序检测生物信息学分析质评。