瑞士研究所每周需要保存的生物学信息数据高达30TB。基因组学、蛋白质组学和其他生物信息学等领域中极为广泛的数据分析迫使人们必须依靠高度现代化的数据存储设备保存数据。
图1 基因组学数据应用领域的不断增加同样导致基因组数据量不断增加
独立的瑞士研究所SIB属于基因组学技术领域及蛋白质组学技术领域中领先的科研机构。该研究所每周需要保存的数据多达30 TB。由于“组学学科”逐渐向患者护理的方向发展,Stort Next横向扩展存储技术逐渐成为SIB瑞士研究所所需的开拓型数据存储技术:保存基因组数据几十年之久,供今后使用。
该科研机构于1998年成立,具有大约60个生物信息研究及服务部门,囊括了约700名瑞士领先大学、研究所科学家。瑞士研究所在基因组学领域中的培训及研究参与程度足以证明:瑞士是全球各国生物信息科学家最密集的国度。
近些年,瑞士研究所更加注重基因组学的应用。个性化医疗、群体遗传学、味觉生物背景、提高农作物产量等所有研究领域均能够帮助改善生活质量。
Vital IT集团的总经理,Ioannis Xenarios教授表示:“SIB瑞士研究所不久前开发出产前诊断检查算法语言,例如,用于唐氏综合征的诊断检查。在孕妇怀孕第11周时,我们通过抽血就能够完成子宫内胎儿的遗传基因测序。该方法创口小,比迄今为止常规羊水穿刺风险少得多。同时,该种方法也表明:在我们的日常生活中基因组学扮演着越来越重要的角色。”他所领导的企业负责SIB瑞士研究所科学家们日常工作离不开的数据处理基础设施设计及技术支持。
对数据管理的具体要求
Xenarios先生表示:“鉴于基因研究应用领域的不断增多、基因测序成本费用的不断下降及循环时间的不断缩短,目前,相关组织及机构已经能够完成更多的基因测序并产生大量高价值数据。促使我们离生物信息学的应用越近,就越觉得数据的长期保存及管理越重要。不仅数据存储容量有所扩展,同样包括工作人员、能源及保温方面成本费用。”SIB瑞士研究所同时管理六个不同的基因测序中心、组织约300个研发团队活动。基因测序需要持续几天的时间,这些团队平均每周要处理五个独立的基因测序项目。基因测序得到的原始数据得以一步步在不同分析应用中被用户调取、加工成报告及出版物的汇总表与图表。由于基因测序时每周会产生30 TB数据,使得需要保存的数据量飞速增长。
Vital-IT公司的IT经理、资深科学家Roberto Fabbretti先生解释,“过去几年中,基因测序的速度正在逐步加快,数据量呈爆炸式增长。”
图2 不同生物信息数据可视化
有价值的数据,较长的项目合作期
SIB瑞士研究所操作下的开创性尖端研究意味着:Xenarios先生与他的团队将会以某种方式在更长时间内管理基因组学项目数据。
Xenarios先生表示:“在癌症研究及免疫治疗等技术领域中,我们会从每一位患者那得到大量基因测序数据。如果每周或每月进行一次检查,科学家们需要在最短的时间内准确获取先前测试的所有数据。为了长期给数以万计患者提供支持,我们需要采取经济有效的方法完成基因组数据长达20年、30年甚至40年的保存任务——患者从出生到去世的真实写照。”
PB级储存量高性能基因组数据存储器
Vital-IT公司利用昆腾公司的Stort Net横向扩展存储支持其下属的科研机构。四套Stornest系统具有1PB主存储容量及高性价比的4PB磁带库——为科学家们提供高速访问基因测序数据、分析数据的可能性。Stort Net系统支持利用无限宽带技术的IPoIB协议高性能处理基因组数据。该系统采用的分层结构能够持续分析、读取保存在主存储器上的数据,随着数据归档年限的增加自动将“旧数据”移送至长期归档保存层次中。使得600多位用户得以访问测序的基因数据,既可以是本地用户通过SIB瑞士研究所计算中心网络也可以是外地用户通过CIFS通过互联网文件系统接口。
Xenarios先生解释说:“当我们八年前开始寻找合适的解决方案时,昆腾公司Stort Net系统能够为我们提供真正有价值的解决方案。我们现有的计算机基础设施无需做出任何改动,只需一名全职管理员就可以完成整个存储系统结构的管理任务了,对我们来讲具有极大好处:确保我们能够以最佳的方式将资金预算用于支持科研人员工作。”
Fabbretti先生表示:“如今,科学家们所能采集到并完成分析的数据已为我们提供众多重要信息、回答许多问题。在未来的数月或数年时间里,科研人员仍然能够通过对原始数据的重新分析得出全新信息。Stort Net系统能够让我们应用高性价比的方式长期保存采集到的基因数据,无论它们的预期寿命多长。”
可直接使用研究数据
一旦研究项目活动数据处理完毕,SIB瑞士研究所能自动将这些数据移交到昆腾公司的Stort Net AEL磁带归档系统中。对此,科研人员感觉不到任何变化。一旦这些数据移交至AEL磁带归档系统,它仍然会显示在文件系统之中,如同仍然保存在磁盘上。IT技术管理团队也无需“翻越许多高山”费时费力恢复存档数据。该种自助服务功能保证了科研人员不受约束、轻松访问已归档的文件,无需申请IT技术支持服务。
Xenarios先生说:“当我们正确的将工具交到科学家手中后,他们将会在短短几个月的时间之内完成1000人的基因测序,采集到800 TB数据。利用Stort Net的分层系统可以迅速完成数据归类、保存,使生物技术研究人员能够继续进行其研究工作。Stort Net系统不仅仅保证我们能够快速搜集数据,而且也促使我们将自动化、高性价比的数据分类归档,使我们能够更好扮演数据保护者的角色。坚持将数据复制到两个外部存储磁带上作为备份、单独归档存放、保管;以便在硬件或工作站上出现意外故障时能够提供额外的保险。”
重要数据的自动备份
昆腾系统中的数据辅助利用数据管理、监控、数据完整性以及数据安全等功能对数据给与可靠保护。扩展数据生命周期管理EDLM,昆腾磁带归档系统中的一个重要特点便是定期利用专门驱动器对归档系统存储数据及媒介进行检查。一旦发现存储媒介出现损伤就会自动将所存储的数据信息复制到新的磁带上,确保数据完整性。
Fabbretti先生表示,“我们的工作涉及到世界上某些最有价值的数据。Stort Net系统确保了我们能够分类归档保管文件数据容量达到几千兆位字节及长期的数据备份,同样提供轻松恢复从前版本数据的可能性,同样是我们经营战略中的关键部分。”
可扩展性保证未来数据的安全性
基因组学及蛋白质组学技术的发展十分迅速。有一点则没有发生变化:数据量迅速增加。凭借Stort Net系统性能及容量的可扩展性,SIB瑞士研究所也能够保证所有未来的创新点。
“Stort Net已伴随我们长达六个年头。只要我们需要,就可以简单增加一些磁盘,扩展数据存储容量即可。在实际工作中,我们不仅利用Stort Net系统保存我们的基因组数据而且也能够用它来保存常规的医学研究数据。因此,必要时,能够毫无问题扩展类似云存储或对象存储等存储层面非常重要。”
多年来,从基因技术研究项目合作中获得的经验使得SIB瑞士研究所同样成为生命科学合作研究伙伴在IT技术方面的领导者及咨询专家。
Xenarios先生表示,“他们可以从我们这里获得选择合适技术方案的建议。在今后的五年里,很难估计生命科学领域中的数据到底会发展到什么程度。数据的搜集速度也将越来越快,而且搜集到的数据绝不能删除。凭借Stort Net系统就可经济高效长期保存宝贵数据。”
法国Neuilly-Sur-Seine市昆腾公司
展源
何发
2021-01-11
2020-05-27
2020-05-27
2020-05-27
2020-05-27
2024-03-06
2023-03-13
2020-05-27
2021-01-12
2024-02-21
加载更多