阿里云携手华大基因之BGI Online云计算实践

基因测序为生命科学领域带来机遇,随着测序技术的发展和测序成本的降低,基因测序在生物信息与医疗健康等领域得到广泛应用。但同时,基因测序行业也面临着处理及分析海量数据的全新挑战。传统的硬盘已无法满足大数据的存储,而大数据处理和分析解读工作存在复杂性和不可预测性,因此需要极强的计算能力。

我们的产品生物信息分析云平台BGI Online正是为了解决这个难题而诞生。BGI Online是由华大基因开发的一款基于“云”的生物信息数据云平台。2014年,BGI Online项目启动;2015年,我们在评估了数据存储与计算的需求后,决定与阿里云合作,选择其作为我们产品的主要计算资源供应商。通过在云计算、大数据领域的长期技术积累,阿里云具备支撑这个世界最大基因中心核心业务系统的能力,满足我们在数据处理、隐私安全保护以及传输方面极为严苛的要求。

一:架构解析/优化

任何系统架构的搭建和新技术的应用都是由业务需求催生的。生物信息分析面对的基因数据动则数十G乃至上百G,大文件的传输、存储、计算对平台的IO吞吐、扩展性、伸缩性都有很高的要求。生物信息分析是对大文件的精细分析,同时属于数据密集型、计算密集型、IO密集型应用。大量基因数据的持久化和流动,要求文件管理系统的大容量、高伸缩、高通量;大量的计算需求要求计算资源的高性能、高时效、经济性。

为了满足用户基因数据的存、管、算、传,BGI Online系统设计了多个架构组件,分别为前端、后端、任务管理引擎、存储管理、文件传输五大部分。前端通过WEB服务呈现系统业务和提供用户操作,WEB请求通过SLB做负载均衡,并在阿里云提供的VPC和云盾的防护下提供高可用的服务。后端管理系统的业务数据和处理业务逻辑,后端服务部署在多台ECS上,并采用RDS服务存储业务数据。任务管理引擎接受前端请求,管理计算资源实现生物信息数据的分析,阿里云提供了海量的ECS节点,并对每个ECS节点提供了完整、详细的API文档,通过对接ECS节点实现了计算资源的弹性伸缩和强大的分布式计算能力。存储管理负责基因数据的存储和管理,运用OSS和OAS实现了基因数据的冷热存储,除了OSS和OAS本身提供的加密存储外,还对接OSS服务实现数据的去身份化,大大提高了平台的安全性。文件传输通过部署在ECS上的服务提供,庞大的基因数据上云是数据流的起始端和瓶颈,阿里云通过铺设阿里机房到华大集群的专线,显著提升了数据传输的速度。BGI Online的架构见下图:

BGI Online的架构图

BGI Online的架构图

上云前后分析对比

阿里云服务让我们从繁重的基础设施购置与维护中解放出来,从而专注于平台的开发和运营。BGI Online在阿里云上的稳定存储量已经超过400TB,阿里云提供安全、海量的存储服务保障了基因数据的安全和业务需求,促进了我们业务的发展。通过与阿里云的深度合作和研究实践,在双方的共同努力下,将生物信息分析在云上的计算时效一步步向前推进,在21小时47分12秒内完成了1000例人类全外显子组数据的分析,效率提升了400%。阿里云作为中国最大的公有云服务提供商,连接各行各业广大的用户群体,任何用户都可以通过网路享受阿里云上的服务,在保障安全的前提下最大化地连接了用户。BGI Online平台依托开放的阿里云服务提供在线协作功能,不同角色的用户可以在平台上完成数据交付、生物信息分析、项目管理、生物信息工具开发等一系列业务功能,整合了行业的多种分工,建立起了一个完整的行业生态。

2016年8月30日,BGI Online国内版正式在公司内部上线内测,此后陆续完成了十几个大型项目的流程部署与测试,如24小时内完成储存峰值超10T、计算任务超1000个的87个遗传病家系基因组分析,和成功部署由开发者自主研发的单细胞基因组分析等项目,并取得突破性成果,阿里云的云服务在这些项目中起到了关键性的作用。

总结

BGI Online平台利用阿里云的云技术服务实现了在医学研究、疾病筛查及临床医疗等不同应用场景、模式下的低成本及高效自动化的基因数据传输与存储,同时也解决了数据安全及计算资源的问题。我们团队相信,有了阿里云的核心力量支持,BGI Online平台必将不断创造生物云计算行业的“新纪录”!