首页 - 生活 > 北京发布大模型高质量数据集

北京发布大模型高质量数据集

发布于:2023-07-06 09:22:00 来源:人民网-人民日报海外版

今天,欧洲网分享来自人民网-人民日报海外版的“北京发布大模型高质量数据集”,希望大家喜欢。

北京发布大模型高质量数据集

《 人民日报海外版 》( 2023年07月06日 第09 版)

本报电(记者贺勇)首批“北京市人工智能大模型高质量数据集”近日发布,10家单位的18个高质量训练数据集入选,包括人民日报语料数据集、国家法律法规语料数据集、两会参政议政建言数据集、“科情头条”全球科技动态数据集、中国科学引文数据库数据集、科技文献挖掘语义标注数据集等,涵盖经济、政治、文化、社会、生态等不同领域,总规模超过500T,将为通用大模型和行业大模型训练提供有力保障。

为更好把握这次通用人工智能发展的历史性机遇,近期北京市连续出台了《加快建设具有全球影响力的人工智能创新策源地实施方案》《北京市促进通用人工智能创新发展的若干措施》《北京市通用人工智能产业创新伙伴计划》等多项支持政策,释放明确信号、搭建伙伴平台、聚拢行业资源,助力人工智能技术赋能千行百业数智化转型。

目前,针对大模型训练的高质量中文语料占比较少,不利于中文语境表达及产业应用。为此,北京启动实施“通用人工智能产业创新伙伴计划”,其中一个重要领域就是针对大模型训练所需的高质量数据,发挥数据提供方海量数据资源优势,基于数据交易方搭建的流通交易平台和数据服务方的技术支撑,实现训练数据的有效供给及合规高效、安全有序的流动。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。

相关文章