广州再生医学与健康广东省实验室
作为世界经济发展以及新一轮科技产业创新的核心领域,生物医药产业正快速挺进蓬勃发展阶段。对此,被誉为国家级实验室“预备队”的生物岛实验室,应势选择了以云智一体为核心的浪潮云海科研云解决方案,为更加智能地开展科研医疗工作,投身建设生物医学大数据科研软件平台中。
为了更好整合国内外再生医学与健康领域创新资源,积极布局以再生医学前沿基础研究、临床创新研究等为代表的重要科研方向,进一步打造再生医学与健康前沿研究基地、临床应用基地与高水平人才基地,并加快推进生物医学科研创新应用向云智一体化方向发展,生物岛实验室携手浪潮云海,如火如荼地展开了生物医学大数据科研软件平台的建设工作。
遭遇平台建设“绊脚石” 部署、算力、管理、应用均有疑难
尽管平台建设意义重大,但着手之初还是不可避免“遭遇”了来自节点采集、算力支持、管理协同以及应用创新等“绊脚石”,具体来说:
「节点部署限制多 弹性稳定成刚需」为了更好助力医疗业务效率提升以及精准医疗大数据应用,高效的数据采集变得十分关键,而节点部署更是重中之重。通常,采集节点主要部署在数据源单位例如医院中,来负责本地采集、挖掘分析以及共享管理等工作,数据来源更是涉及HIS、RIS、LIS、 PACS、基因、组学等多类型系统,复杂量大,需要满足采集节点对资源弹性、扩展性、稳定性等方面的需求。
如此看来常规的物理机部署架构很难满足上述要求,采用轻量高效、高稳定性、易运维扩展的虚拟化架构来支撑采集节点部署,就显得十分重要。
「高效算力更关键 效率提升最迫切」众所周知,生物医学研究以数据量大、计算要求高等特质著称。举个例子来说,有数据显示一次人体的全基因组检测就会产生超过100G的数据量,就算做局部检测涉及到的大样本批量处理也会带来极高的计算需求。
此外针对某种疾病的研究,更是需要通过对多达几千对的基因数据进行测序工作才可完成研究第一步,而目前的医疗机构以现阶段的设备水平则需数年才可搞定。反观传统CPU的运算能力,根本无法支撑如此生物医学科研需求,所以如何通过新建更高性能的算力平台来提升科研分析训练的效率,也成为本次平台建设需要重点考量的问题。
「多分支管理难度大,资源协同是关键」过去,实验室中多个数据采集节点基本呈现分散无序的状态,对此带来的资源协同难度大、运维管理更复杂以及维护成本居高不下等问题始终困扰生物岛实验室,并对中心节点科研平台建设带来挑战,所以达成资源的统一调度、计算协同以及统一运维等后续服务迫在眉睫。
「传统架构阻创新,微服务容器助敏捷」伴随云原生、人工智能、数字计算等创新科技的快速发展,传统以资源为中心的应用部署模式很难满足高效编排、快速迭代等需求,亟需在保障数据安全的基础上建设微服务应用容器平台。基于微服务容器架构开展协同挖掘分析、模型训练、智能工具集成、知识库集成等创新应用建设,为各级科研人员及第三方大数据人工智能企业提供多维度的科研创新服务。
为更好解决生物医学在科研创新与业务应用方面的诸多问题,浪潮云海深谙其中之道,推出了以云智一体为核心的科研云解决方案。该方案基于开放、融合、敏捷、智能的原则,按照集约建设、分层解耦、云边协同的建设思路构建一套融合虚拟化、容器、人工智能和HPC的科研云平台。做到向上提供统一的服务目录,将基础设施、人工智能、边缘计算、高性能计算等资源全面云服务化,为科研创新应用提供全栈云服务,高效解决伴随平台建设诸多问题的同时,让生物医学科研“落地有声”。
云边协同让数据“少跑路”,处理效率突飞
为了更好解决科研平台数据采集节点(子节点)在数据源单位的部署运维、资源调度以及协同计算等问题,浪潮云海在项目中采用了云边协同的方案架构。 具体来说,实施该架构首先在每个数据源单位各部署一套浪潮InCloud Rail超融合平台,提供数据采集、分析挖掘所需的算力和存储支撑,优先满足数据本地化处理需求,实现数据“少跑路”。
各个子节点的超融合平台由主心节点的科研云平台统一纳管,可实现跨地域、跨中心资源的统一调度、统一监控、统一运维,实现对科研工作的数字化、智能化、一体化管控。与此同时,中心节点与各子节点形成“云边协同”架构,可开展科研协同训练,实现数据在不出子节点的情况下参与计算训练。
此外,中心节点云平台还提供了应用下发的能力,可以通过中心节点为各个子节点批量下发高效的临床组学智能分析工具,大大提升了应用交付效率,高达30%以上。即云平台中心节点承载统一的应用全局分发、管理,监控,运维及运营等工作,子节点则承担应用运行以及监控日志收集、清洗等,数据处理效率提升。
高效融合AI与HPC,计算能力猛进
为了更好支撑生物岛实验室的基因测序、医疗影像三维重构、医疗图像分析等HPC和 AI 应用,浪潮云海在本次建设的科研云平台中融合了人工智能和HPC能力,总体算力超千万亿次,可用存储空间大于 3PB,效率提速20倍之多,充分满足生物医学研究对计算分析、数据存储的刚需。 此外,本次项目依托浪潮HPC 集群管理平台ClusterEngine,打通硬件运维、业务管理和应用性能分析,大幅提升集群的资源利用率和计算效率,针对基因测序方面应用场景可以将人和类似哺乳动物的全基因组组装时间缩短到2天以内。
基于浪潮人工智能平台承载的医疗影像分析、AI辅助诊断等相关应用研究工作,高效支撑了生物实验室海量的医疗影像数据计算,数倍提升了AI模型的训练效率。
搭载微服务容器平台,科研应用创新显著
为了高效落地科研创新应用建设,本次部署的浪潮云海容器平台基于微服务架构,通过多种应用编排模式集成各类资源,包括多节点数据的协同挖掘分析和算法模型训练、智能工具集成、知识库集成等创新应用;同时整合了第三方大数据及医疗人工智能企业智能应用等,形成了生物医学大数据共享应用平台,进一步实现数据、知识、技术协同创新。
目前,生物岛实验室科研云平台已全面投入使用,已经基于该平台开展了高效的标准化生物信息分析、临床多组学数据科研挖掘和临床分子检测智能解读等工作。未来还将整合临床医学知识图谱及人工智能技术,不断覆盖基因组学、代谢组学、蛋白质组学、表观遗传学等多维度组学测序数据,构建更完整的患者闭环数据链条,全面支持精准医学大数据应用。
“浪潮云海提供的云智一体为核心的科研云解决方案,让我们亲眼见证了云智深度融合的巨大实力:不但保障了数据采集的高效稳定,还帮助我们极大提升了算力水平和处理效率,更为科研应用创新迈出了坚实的一步。”生物岛实验室方面表示。