“硬件”设施加强,“软件”设施也需要提升。
“互联网是数据流通、汇聚的平台,是数字经济时代基础设施的关键。”中国科学院院士梅宏表示,需要加快构建数联网和数据空间等新基础设施。
2021年,中国科学院发布了一款具有国际化服务能力的开放的通用型科学数据存储与发布平台——科学数据银行(ScienceDB)。
科学数据银行由中科院计算机网络信息中心自主研发,是一个论文关联数据存储平台,能够为论文关联数据的汇聚、管理、开放、共享提供高效的解决方案,为落实科研诚信、培育共享文化、加快数据流转和促进国际合作提供平台和服务保障。
科研人员可以把各自收集整理的科学数据在科学数据银行里进行储存和出版,而科学数据银行通过吸纳“数据存款”,“变小钱为大钱,变死钱为活钱”,把分散在个人和集体中的数据资源集中起来,使其更容易被发现、访问、互操作和重用。同时,学术论文投稿前,科研人员也可以将论文数据上传到科学数据银行。
截至今年2月2日,科学数据银行共收集了开放数据集820多万个,平台访问量超过7亿次。
开发大模型
开发人工智能大模型是“数据要素×科技创新”行动的另一个重要目标。
《“数据要素×”三年行动计划(2024—2026年)》中提出,以科学数据支持大模型开发,深入挖掘各类科学数据和科技文献,通过细粒度知识抽取和多来源知识融合,构建科学知识资源底座,建设高质量语料库和基础科学数据集,支持开展人工智能大模型开发和训练。
近年来,中国在大模型领域拥有良好的算力基础和广阔的市场,国产大模型频频亮相、加速迭代。工业和信息化部赛迪研究院数据显示,目前,中国已有超过19个大语言模型研发厂商,其中,15家厂商的模型产品已经通过备案。
凭借语言理解、逻辑推理、知识问答、文本生成等通用能力,这些大语言模型产品一经推出,便受到用户的欢迎。
“科技创新实现新突破。讯飞星火认知大模型处于全国领先水平。”这是写进今年安徽省《政府工作报告》中的一句话。 |