上海人工智能實驗室發布多模態語料

【大中小】【打印】

	上海人工智能實驗室發布多模態語料
	http://www.CRNTT.com 2023-08-17 16:29:19

　　中評社北京8月17日電／據人民日報海外版報導，近日，上海人工智能實驗室宣布聯合語料數據聯盟成員單位，共同開源發布“書生·萬卷”1.0多模態預訓練語料。

　　“書生·萬卷”1.0集合了語料數據聯盟成員豐富的內容積累與上海人工智能實驗室的數據處理能力等優勢，將為學術界及產業界提供高質量大模型多模態預訓練語料。本次開源的數據總量超過2TB，具備多元融合、精細處理、價值對齊、易用高效等四大特徵。

　　本次開源的“書生·萬卷”1.0包含文本、圖文、視頻三部分數據集。其中文本數據來自網頁、百科、書籍、專利、教材、考題等，數據總量超過5億個文檔，數據大小超過1TB，覆蓋科技、文學、媒體、教育、法律等多個領域；圖文數據主要來自公開網頁，經處理後形成圖文交錯文檔，總量超過2200萬個，數據大小超過140GB（不含圖片），覆蓋新聞事件、人物、自然景觀、社會生活等多個領域；視頻數據主要來自中央廣播電視總台和上海文廣集團，包含新聞、影視等多種類型的節目影像，總計視頻文件數超過1000個，數據大小超過900GB，內容覆蓋軍事、文藝、體育、自然、知識、影像藝術等方面。

【大中小】【打印】掃描二維碼訪問中評社微信

相關新聞：

上海：萬場宣講走進青年 (2023-08-17 16:26:40)
中評關注：蔣萬安未鬆口赴上海　主要在看這 (2023-08-16 11:24:46)
上海浦東探索大型車輛右轉控速緩行 (2023-08-15 17:53:16)
蔣萬安未證實赴上海雙城論壇　稱細節待討論 (2023-08-15 11:55:14)
雙城論壇將登場　台北市府協助媒體隨行 (2023-08-15 00:47:09)
從人口特徵看上海住房需求變化趨勢及對策 (2023-08-12 08:33:34)
上海書展助力受災圖書發行企業重建 (2023-08-11 17:55:17)
上海推進社區就業服務站點建設 (2023-08-10 15:01:44)
北市府未鬆口雙城論壇日期　稱面對面有意義 (2023-08-10 14:18:42)
雙城論壇拍板29日？北市府：等上海方回覆 (2023-08-08 14:54:00)