摘要
基因组科学数据是人口健康和国家安全的重要战略资源,存好、管好和用好基因组科学数据具有重要意义。面对我国生物数据大量产出但因存储零散、缺乏系统监管而丢失和流失,以及严重依赖国际生物组学数据库的局面,亟须从国家层面建设我国自己的生物大数据管理体系。以国家基因组科学数据中心为例,阐述了基因组科学数据汇交共享体系和标准规范、数据安全管理机制,给出了数据挖掘与应用的典型案例,并从政策机制、基础设施、软件研发、学科建设、人才培养和国际合作等方面提出对策建议。
关键词: 科学数据 ; 基因组学 ; 汇交共享 ; 数据安全管理 ; 数据应用
0 引言
科学数据是国家科技创新和经济社会发展的重要基础性战略资源,做好科学数据资源的汇交共享、安全管理与挖掘利用具有重要的科学意义和价值。2019年6月10日,科学技术部和财政部联合发布了《关于国家科技资源共享服务平台优化调整名单的通知》,公布了多个学科领域的20个国家科学数据中心。其中,国家基因组科学数据中心(National Genomics Data Center,NGDC)(以下简称中心)依托中国科学院北京基因组研究所(国家生物信息中心)建设。中心面向我国人口健康和社会可持续发展的重大战略需求,建立基因组科学数据汇交存储、安全管理、开放共享与整合挖掘的研究体系,研发基因组科学大数据前沿交叉与转化应用的新方法和新技术,其目标是成为国际领先的基因组科学数据中心,支撑我国生命与健康科学创新发展。
中心自成立以来,面向人