海量数据分析更快、更稳、更准!GaussDB(for MySQL) HTAP只读分析特性详解
681
2022-05-29
图片来源:Pixabay
人类拥有23对染色体,约含有30亿对碱基,某种程度上可以说这些碱基是我们每个人的“代码”,而解读基因则是实现人的“数字化”。
1975年,英国科学家Frederick Sanger发明了Sanger测序技术,由此开启了基因测序的新篇章。随后,技术更迭,以高通量测序(NGS)为主的测序方法让“基因解读”成本快速下降、速度大力提升、通量也随之扩大。
得益于此,从疾病的筛查、诊断到治疗、预后,越来越来的临床基因检测项目落地、产品商业化,例如无创产前检测、试管婴儿中的胚胎植入前检测、新生儿疾病筛查、肿瘤易感基因筛查、肿瘤个性化用药、遗传病筛查……
除了临床级、科研级应用,越来越多的人开始对消费级基因测序产品感兴趣,“祖源分析”、“运动基因”、“皮肤特性”等项目让大家重新认识基因的“奇妙”。这也预示着,基因检测正从医疗技术走向消费级技术。
从上世纪60年代“DNA双螺旋结构”被人类发现,到15年前“人类基因组计划”正式宣告完成,再到今天的“个性化医疗”,现代医学正从“经验试错、同病同治”的传统模式朝着“同病异治、循证医学”的方向升级,而基因测序也正发展成其中的重要组成部分。
据测算,一个人一生与健康相关的数据整合起来大约10TB,一百万人的数据量约为10EB。此外,还有大量动植物基因组、转录组、微生物基因组及宏基因组测序分析等科研服务项目,数据类型和数量异常庞大。
随着高通量测序的广泛应用、测序设备自动化程度的提高,测序数据正成几何增长,这无疑会对数据计算能力提出挑战。
而且,测序仪运行产生的原始数据并不能直接提供关于疾病的信息,测序企业需要依据生物信息学的方法,对海量的测序数据进行复杂的过滤、比对、拼接和处理、数据分析等重重步骤,才能获得基因组上的变异信息,再结合遗传学、病理学以及其他组学等信息共同分析,最终才能转化为人们可理解的生物学数据,为疾病的诊疗提供参考和指导。
依据现有测序技术计算,每次单人全测序可能产生1.5T数据,传统IT计算能力针对这些数据分析和解读,每次计算至少需6天时间。这对于临床应用而言,时间上无疑是耗不起的。
如何解决“算的没有测的快”?如何从海量数据中挖掘有效的信息? 这是专注于精准医疗领域的企业未来可能需要面临的难题之一。测序数据处理和分析的技术壁垒较高,是掣肘基因测序企业发展的关键因素,也是企业核心竞争力所在。
此外,数据是“敏感”的,它牵扯隐私问题。传统的基因公司在IT方向能力较弱,容易忽视大数据的安全存储、授权共享等问题。而且,样本数据库需要流通,孤立的数据无法发挥最大价值。这些问题都是测序行业亟待谨慎解决的课题。
在海量数据面前,人工智能的呼声越来越高,生命科学行业“云化发展”也成为一种趋势。它可以免去传统测序企业自建数据中心的繁琐和成本(包括购置大型计算和存储设备,日常维护等),保证轻资产运营的同时实现测序数据的存储、共享和解读。
参考华金证券股份有限公司研究所报告,目前国家基因库的原始数据量已经达到1000TB,对于这种规模的数据库,简单的数据分析就可能需要很长的时间,会碰到严重的数据输入/输出问题。本地计算机显然难以单独完成,因此目前通常采用云计算解决。
以华为云为例:在计算上,云服务器可以搭载基因测序专用算法,以最少的时间计算出结果,降低计算成本;在存储上,云平台基于分布式架构能够提供可弹性扩展的块存储服务;在传输上,测序仪产生的大量数据可以依靠专线、裸光纤网络进行共享,且可实现数据的加密。
此外,基因测序有各种复杂的工作场景,华为云非常重视资源打通,即联合各类顶尖企业共同建设整个基因技术生态。华为云专注于底层资源算力的领先,上层选择与这些企业生态伙伴合作,共同创新,形成联合解决方案满足基因行业多样化的技术诉求,并且对客户和合作企业的数据保持清晰的边界。
据悉,华为云已与武汉未来组、贝瑞基因、金橡医学等企业达成合作,为测序企业的数据运算、存储保驾护航。
“云计算的到来,使数据以及计算全部可以在云上完成,满足企业数据不下云、高效完成计算的需求。这一做法减少了企业重资产以及维护的工作,使客户更聚焦在自身的业务发展上。”华为云相关负责人总结道,“云化发展可以提供高性能、高可靠、简便安全的计算服务,满足生物医药中基因测序等需求,缩短产品上市周期,提升企业效益。选择华为云更可靠。”
中国工程院院士、北京大学医学部主任詹启敏曾说过,精准医疗的重点不在“医疗”,而在“精准”。通过基因组、蛋白质组、代谢组等组学技术和医学前沿技术,对于大样本人群与特定疾病类型进行生物标记物的分析与鉴定、验证与应用,从而精确寻找到疾病的原因和治疗的靶点,并对一种疾病不同状态和过程进行精确分类,最终实现对于疾病和特定患者进行个性化精准治疗的目的,提高疾病诊治与预防的效益。
基因数据是人类的重要资源,从其测序、存储、共享,到输出给科研、医疗机构,只有最终转变为有效的遗传解读、诊疗手段或者药物,方能显示出价值。
本文转自:生物探索
云计算
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。