国产精品免费,激情五月亚洲综合图区,无码AV日韩免费一区二区三区,高清女同一区二区播放

上海人工知能実験室、マルチモーダル言語データを発表

人民網(wǎng)日本語版 2023年08月16日13:33

上海人工知能実験室はこのほど、言語データ連盟の會員機関と共同で、オープンソースの「書生?萬巻」1.0マルチモーダルプレトレーニング言語データを公開した。人民日報が伝えた。

「書生?萬巻」1.0は言語データ連盟の會員機関の豊富なコンテンツの蓄積と上海人工知能実験室のデータ処理力などの優(yōu)位性を集約し、學(xué)術(shù)界及び産業(yè)界に質(zhì)の高い基盤モデルマルチモーダルプレトレーニング言語データを提供することになる。

今回公開されたデータの総量は2TBを超えており、テキスト、畫像?文字、動畫の3つのデータ集が含まれる。うちテキストデータはウェブサイト、百科事典、書籍、特許、教材、試験問題などから得られたもので、データ総量はファイル5億個以上、データサイズは1TBを超え、科學(xué)技術(shù)、文學(xué)、メディア、教育、法律など複數(shù)の分野を網(wǎng)羅。畫像?文字データは主にオープンなウェブサイトから得られたもので、処理された後に畫像とテキストが混在したファイルを形成し、総量は2200萬個以上で、データサイズは140GB(畫像を除く)を超え、ニュース、人物、自然景観、社會生活など複數(shù)の分野を網(wǎng)羅。動畫データは主に中央広播電視総臺と上海文広集団から得られたもので、ニュースや映畫?テレビなど複數(shù)種類の番組?映像が含まれ、動畫ファイルは計1000個以上で、データサイズは900GBを超え、內(nèi)容的には軍事、文蕓、スポーツ、自然、知識、映像蕓術(shù)などが含まれる。(編集YF)

「人民網(wǎng)日本語版」2023年8月16日

注目フォトニュース

関連記事

<small id="2ccc8"></small>
  • <sup id="2ccc8"></sup>
    <tfoot id="2ccc8"><noscript id="2ccc8"></noscript></tfoot>
    • <sup id="2ccc8"><delect id="2ccc8"></delect></sup>
      <small id="2ccc8"></small>
        <nav id="2ccc8"><code id="2ccc8"></code></nav>
        <tr id="2ccc8"></tr>
      • <sup id="2ccc8"><code id="2ccc8"></code></sup>
      • <noscript id="2ccc8"><dd id="2ccc8"></dd></noscript>
        <sup id="2ccc8"><delect id="2ccc8"></delect></sup>