上海人工知能実験室、マルチモーダル言語データを発表
人民網(wǎng)日本語版 2023年08月16日13:33
上海人工知能実験室はこのほど、言語データ連盟の會員機関と共同で、オープンソースの「書生?萬巻」1.0マルチモーダルプレトレーニング言語データを公開した。人民日報が伝えた。
「書生?萬巻」1.0は言語データ連盟の會員機関の豊富なコンテンツの蓄積と上海人工知能実験室のデータ処理力などの優(yōu)位性を集約し、學(xué)術(shù)界及び産業(yè)界に質(zhì)の高い基盤モデルマルチモーダルプレトレーニング言語データを提供することになる。
今回公開されたデータの総量は2TBを超えており、テキスト、畫像?文字、動畫の3つのデータ集が含まれる。うちテキストデータはウェブサイト、百科事典、書籍、特許、教材、試験問題などから得られたもので、データ総量はファイル5億個以上、データサイズは1TBを超え、科學(xué)技術(shù)、文學(xué)、メディア、教育、法律など複數(shù)の分野を網(wǎng)羅。畫像?文字データは主にオープンなウェブサイトから得られたもので、処理された後に畫像とテキストが混在したファイルを形成し、総量は2200萬個以上で、データサイズは140GB(畫像を除く)を超え、ニュース、人物、自然景観、社會生活など複數(shù)の分野を網(wǎng)羅。動畫データは主に中央広播電視総臺と上海文広集団から得られたもので、ニュースや映畫?テレビなど複數(shù)種類の番組?映像が含まれ、動畫ファイルは計1000個以上で、データサイズは900GBを超え、內(nèi)容的には軍事、文蕓、スポーツ、自然、知識、映像蕓術(shù)などが含まれる。(編集YF)
「人民網(wǎng)日本語版」2023年8月16日
注目フォトニュース
関連記事
- データセンターの冷卻に大量の水が必要 中國専門家「技術(shù)革新で水道水の節(jié)約を」
- 世界人工知能大會2023、重要産業(yè)プロジェクト32件を推進 投資総額288億元
- 瀋陽AIスマート計算センター、中國のAI計算力戦略システムに組み入れられる
- 世界人工知能大會2023、7月に上海で開催へ
- 第7回世界知能大會が天津で開幕
- 中國のストレージ能力の全體規(guī)模が1000EB以上
- 「2022年中國基盤モデル発展白書」が発表 AIの新たな競爭の場に
- ChatGPTがSNSで大きな話題に 新たな課題にいかに対応すべきか?
- 中國―ASEAN人工知能計算センター、南寧市で発表へ
- 世界人工知能大會2022が開幕、メタバース技術(shù)が集結(jié)
このウェブサイトの著作権は人民網(wǎng)にあります。
掲載された記事、寫真の無斷転載を禁じます。
Tel:日本(03)3449-8257 Mail:japan@people.cn
掲載された記事、寫真の無斷転載を禁じます。
Tel:日本(03)3449-8257 Mail:japan@people.cn