中小微企业已超五千两百万户
今天,欧洲网分享来自人民网-人民日报海外版的“中小微企业已超五千两百万户”,希望大家喜欢。去年中国平均每天新设企业二点三八万户——...
2023-06-20
今天,欧洲网分享来自人民网-人民日报的“上海人工智能实验室发布多模态语料”,希望大家喜欢。
上海人工智能实验室发布多模态语料《 人民日报 》( 2023年08月16日 第12 版)
本报上海8月15日电(记者沈文敏)近日,上海人工智能实验室宣布联合语料数据联盟成员单位,共同开源发布“书生·万卷”1.0多模态预训练语料。
“书生·万卷”1.0集合了语料数据联盟成员丰富的内容积累与上海人工智能实验室的数据处理能力等优势,将为学术界及产业界提供高质量大模型多模态预训练语料。本次开源的数据总量超过2TB,具备多元融合、精细处理、价值对齐、易用高效等四大特征。
本次开源的“书生·万卷”1.0包含文本、图文、视频三部分数据集。其中文本数据来自网页、百科、书籍、专利、教材、考题等,数据总量超过5亿个文档,数据大小超过1TB,覆盖科技、文学、媒体、教育、法律等多个领域;图文数据主要来自公开网页,经处理后形成图文交错文档,总量超过2200万个,数据大小超过140GB(不含图片),覆盖新闻事件、人物、自然景观、社会生活等多个领域;视频数据主要来自中央广播电视总台和上海文广集团,包含新闻、影视等多种类型的节目影像,总计视频文件数超过1000个,数据大小超过900GB,内容覆盖军事、文艺、体育、自然、知识、影像艺术等方面。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。
相关文章
今天,欧洲网分享来自综合的“Create“智能制造赛道”全球挑战赛粤港澳赛区决赛圆满落幕”,希望大家喜欢。7月13日下午,由宁波市海曙区人...
2023-07-18
今天,欧洲网分享来自综合的“泸州老窖携手中国文物学会,共话国宝文物的活态传承与保护”,希望大家喜欢。当前“博物馆热”成为文化现象,...
2023-08-15
今天,欧洲网分享来自综合的“公平街道江安社区:让知识走出课本,跟着社区“趣”研学”,希望大家喜欢。在行走的课堂中,读懂更大的世界。...
2023-08-09
今天,欧洲网分享来自综合的“青岛市城阳街道大力推动婴幼儿托育服务提高人口高质量发展”,希望大家喜欢。 本网讯(汪鹏、李晓君)青...
2023-07-10
热门文章
Create“智能制造赛道”全球挑战赛粤港澳赛区决赛圆满落幕
民间根雕艺人彭勇——精雕细琢工蕴于材
洪水无情人有情保定市康檀医药捐赠抗洪救灾物资驰援涿州
第二届全国工艺美术作品展开幕
当代名家郑忠水墨画邀请展即将在香港开幕