AI導入でけた違いに高くなる古書籍の修復と整理

人民網(wǎng)日本語版　2022年04月11日15:04

北京大學デジタル人文研究センター、北京大學?字節(jié)跳動（バイトダンス）デジタル人文開放実験室、北京大學人工知能（AI）研究院が共催する「古書籍スマート情報処理」シリーズシンポジウムがこのほど、オンライン開催された。光明日報が伝えた。

シンポジウムでは、北京大學デジタル人文研究センターの王軍センター長が、次のように計算した。中國に現(xiàn)存する古書籍は約20萬種で、1949年から2019年の間に3萬8000種近くが修復?整理?出版された。このペースでいくと、現(xiàn)存する古書籍をすべて修復?整理するのに300年かかる可能性がある。しかしAI技術で修復?整理をアシストすれば、およそ20?30年で完了するだろうという。

王氏が語る「AI技術による古書籍の修復」は未來の科學的構想ではなく、現(xiàn)実における生き生きとした現(xiàn)実になろうとしている。バイトダンスは北京大學教育基金會に寄贈し、北京大學?バイトダンスデジタル人文開放実験室による「古書籍デジタル化プラットフォーム」の研究開発を支援し、スマート技術により中華古書籍資源のデジタル化建設を急ぐとした。3年內に厳選された1萬種の古書籍のスマート化修復?整理が行われる見込みだという。

古書籍の保護は長期的に、原始的な保護方式が採用されてきた。これはつまり古書籍が「文化財」として保護されることだ。その後は再生的保護方法が登場し、古書籍の影印と畫像の保存が行われた。古書籍が紙またはマイクロフィルムとして存在できるようになった?，F(xiàn)在のデジタル化古書籍の多くがマイクロフィルムから変換されたもので、解像度が低く、白黒が中心的だ。

すべての古書籍をデジタル化の手段で影印?出版するとしても、その古書籍は融通がきかず、便利に利用できない。北京大學中國語學部の楊海崢教授は、次の分かりやすい例を挙げた。影印された古書籍には句読點がなく、非常に読みにくい。また古書籍の內容の検索ができず、ある內容を読もうとするならば原文を最初から読む必要があり、スピーディに必要な知識が得られない。そのため伝統(tǒng)的な古書籍の利用率を高めるためには、古書籍の內容をデジタルテキストに変換しなければならない。かつてこの変換は主に専門家が自ら行い、時間的コストが極めて高かった。

王氏によると、近年は北京大學を含む多くの大學及び科學研究機関が、古書籍のデジタル化をめぐり畫期的な取り組みを進めている。OCR（光學文字認識）、AI句読、実體識別などの成熟した技術と経験を蓄積している。OCRの応用を例にすると、電子設備で紙の古書籍をスキャンすることで、その內容がコンピューター內に入力され、相応するデジタルファイルが生成される。その効率は人の手による入力よりけた違いに高い。

北京大學デジタル人文研究センターはAIとビッグデータ技術を利用し、先秦から明清の時代を跨ぐ大規(guī)模古書籍テキストを整理し、すでに古書籍の自動句読を実現(xiàn)している。平均正解率は94％。同時に人名、地名、時代名、官職名、書名の自動識別を実現(xiàn)しており、その中古史料における正確度は98％近くにのぼっている。（編集YF）

「人民網(wǎng)日本語版」2022年4月11日

国产精品免费,激情五月亚洲综合图区,无码AV日韩免费一区二区三区,高清女同一区二区播放

AI導入でけた違いに高くなる古書籍の修復と整理

最新ニュース

注目フォトニュース

コメント

ランキング

企畫

おすすめ動畫