免费一级片在线观看_国产一级高清视频_99riav视频_91av视频导航

首頁 > 專題匯 > 正文
分享到:

當人工智能遇上“之乎者也”:AI如何讀懂四書五經?

時間:2022-10-12 14:32:42 來源:新京報 評論:0 點擊:0
  人工智能如何讀懂四書五經?

  人工智能改變古籍存續形式

  “整理國故,再造文明”,胡適在一百年前說。國故也即是古籍,古代的書,一般指1911年之前歷朝寫本、刻本、稿本、拓本等。這些紙質文獻在悠悠歷史長河中其命運可謂顛沛流離。紙質古籍損毀是不可逆轉的。如明代《永樂大典》,永樂時期的原本已經完全湮滅不見,嘉靖重抄本11000冊現存不到5%。這樣的損失難以估量。

  哲學家羅素曾說:“中華文明是唯一的歷史文化從未間斷的文明。”古籍作為中華文化的一支重要血脈,便是文明未斷的依據之一,今年,國家圖書館藏清宮“天祿琳瑯”歷時8年修復成功,在標準的存藏條件下,能保存200年。

  盡管古籍原生性保護有很大改善,但依然改變不了“紙”的脆弱。2015年年初,位于莫斯科西南部的俄羅斯科學院社會科學信息研究所圖書館突發火災,約有200萬冊文獻資料遭到損毀。俄羅斯科學院院長稱“這是俄羅斯科學界的切爾諾貝利事件”。

  在很多人的印象里,古籍文本往往艱澀難懂,而且接觸機會不多。但在數字時代,這種情況正在發生轉變,目前數字化、平臺化、智能化成為古籍“再生性”保護的方向。在國外,哈佛燕京圖書館和美國國會圖書館,已經將他們收藏的中華古籍掃描完成,并對外公開。但它們僅僅是圖片掃描版,并未利用智能技術實現文本化,無法復制粘貼,只能服務于少數研究者。

  國內較為有名的古籍智能平臺,如“漢典重光”古籍平臺,讓一批珍藏于加州大學伯克利分校的中文古籍善本,以數字化的形式回歸,該平臺涵蓋的古籍數量為20萬頁。再如浙江大學的“古籍智慧平臺”,其利用OCR光學字符識別技術,將圖片中的文字換成文本格式,它的識別準確率在90%以上。

  這些平臺有著各自的優勢,但也各有各的局限性,如網速慢、智能化程度低。比如“書同文古籍數據庫”收費較高,“中國哲學書”電子化計劃目前囊括了超過三萬部著作,用戶卻常常無法正常訪問。

  今年3月,字節跳動與北京大學聯合成立“北大——字節數字人文開放實驗室”,雙方協作研發推出古籍數字化平臺——識典古籍。10月,識典古籍測試版已上線,目前,已整理上傳390本古籍經典(均為四部叢刊書目),3000卷,3000多萬字,預計在3年內將整理10000種古籍,基本覆蓋儒家、道家和佛家的經典書目,對用戶免費開放。

識典古籍平臺主頁面截圖

  古籍是如何實現數字化的?

  識典古籍有何技術特點?項目負責人介紹,識典古籍主要運用了三種技術,文字識別、自動標點、命名實體識別。

  文字識別技術,即使用OCR技術對古籍的影印版文字進行單個切分、文字識別、順序識別。所謂文字切分,是指古籍掃描件中的單字檢測技術,能夠獲取每個字符的具體位置;文字識別,將切分的圖片送入文字識別模型,獲取每個文字的具體編碼;順序識別,結合文字內容和文字位置,獲取整張古籍掃描件的閱讀順序。

  OCR的應用流程,是用電子設備對紙本古籍進行掃描,內容轉錄到計算機中,并生成相應的數字文檔,效率與人工錄入不可同日而語。目前行業內OCR識別準確率平均為93%至94%,識典古籍的準確率為96%至97%。

  自動標點技術,是通過序列標注的方式對古籍自動進行標點劃分,支持“,。?!、:;”七種常用標點。舉例來說,“學而時習之不亦說乎”,自動標點后的結果是“學而時習之,不亦說乎?”命名實體識別,則是通過序列標注識別古籍文本中的命名實體,支持識別人名、地名、書籍、時間、官職這五種類型的實體。

  人工智能識別的工作完成后,為了方便用戶閱讀,整理平臺要進一步對成型的文本進行整理。

  首先,是對3%和4%錯誤率進行人工修改,分出段落和標題,然后再賦予不同的格式。而對于不同質量的古籍文獻,整理標準不一,人力承擔著不同的職能,大致流程為制定整理標準、人工整理、審核、上架,相關管理者是有古籍知識經驗的北大團隊。

  其次,是對用戶訪問數據進行統計。然后是資源管理的功能,用戶可以更清晰地看到每本書的基礎信息,具體內容,以及當前所處的整理狀態。

  最后,將古籍劃分等級,如經典書目、常讀書目、基礎書目,像《論語》這種經典書目,對正確率、標點和注釋的要求都較高。負責人介紹,目前這些功能有的已經成型,有的還需要進一步增強,古籍數字化并非易事。

  古籍數字化的現實困境

  中國是全球擁有古籍最多的國家,國內現存漢文古籍300萬部,散居在海外的古籍超過40萬部,它們依然面臨著衰朽,而已完成數字化的古籍為7.4萬部,數字化進程仍處于初步階段。

  其中面臨幾大難點。首先是部分古籍在數字化之前要先完成修復,但古籍修復工序復雜,難以完全用科技手段,且培養古籍修復人員需要極高的時間成本。其次,花費高昂,有專家估算,如果將全國尚未數字化的古籍全部數字化,采集、組織、加工、存儲、管理等費用大約需要60億元。第三,技術難度高,現有的數字化很多是由縮微膠片轉換而成,呈黑白影像且分辨率較低,難以切實滿足讀者的需求。

  過去,古籍內容轉化為數字文本主要依靠專家人工錄入,耗時費力。北京大學數字人文研究中心主任王軍算過一筆賬:我國現存古籍約有20萬種,從1949年到2019年,共修復整理出版了近38000種,要將現存古籍全部修復整理出來,可能需要三百年的時間。若利用人工智能技術輔助修復整理,大概二三十年就能完成。

  相關負責人介紹說,目前古籍的使用人數眾多,一些高校斥資買古籍數據庫,但是訪問不是很方便。建立數字化平臺,各類學科的專業人士能更容易查看古籍文獻。一些潛在的古籍愛好者,數字化平臺可將這部分用戶迅速連接起來。

  目前,識典古籍測試版的句讀錯誤率在3%到4%,文字識別也有一定的錯誤率存在,影響閱讀體驗。在人工智能機器學習一段時間后,準確率將會提升到98%左右。

古籍修復師在工作

  作為北京大學-字節跳動數字人文開放實驗室的成員,王軍有著豐富的古籍數字化經驗,他曾研發過“《宋元學案》知識圖譜可視化系統”,對240萬字的《宋元學案》進行了文本處理和分析,將2000多位宋元理學學者、近100個學術流派所涉及的人物、時間、地點、著作等提取出來構造成知識圖譜。

  據他介紹,對于識典古籍的開發和應用,北京大學主要從三方面入手,第一,聯絡國內的圖書館尋求公版資源,保障版本的正當性;第二,聯系北師大、復旦、南大、陜西師大等高校的學者和文獻專家,進行人工審核與校對,彌補人工智能有識別錯誤率的短板;第三,北大利用自有的學術平臺,鏈接學術界和高校的年輕用戶,對識典古籍進行推廣。

  古籍保護的更多可能

  字節跳動旗下有多個信息分發平臺,沉淀著大量關于內容平臺的經驗和技術,這些技術可以逐漸向古籍智能數字化的方向上遷移。過去半年,識典古籍技術開發團隊整合了包括字節跳動人工智能實驗室、今日頭條的設計團隊和抖音的開發、測試團隊成員加入,其中有不少是古文獻專業和文史哲專業的成員。

  識典古籍在使用性上強調用戶體驗,網頁打開流暢。主頁有檢索欄,用戶可直接搜索書目;右上方是書庫,點進去可看到經、史、子、集四個欄目;下方是古籍書樣,如《周易》、《荀子》、《左傳》,主頁下方是“儒家經典”“道家經典”“文學經典”三個欄目。點開一本書,左邊是目錄,右邊是正文,上方有四個功能項,依次點擊可看到古籍原本的影像、注疏、繁簡字體切換以及書庫,且每部古籍都有精校和粗校的標簽提示。

點開古籍呈現出的界面

  目前識典古籍只有網頁版,相關技術負責人預測,今年11月份識典古籍將會推出移動端,到時會鏈接到抖音和今日頭條,活化更多的古籍內容。

  在數字化之外,一年多來,字節跳動在古籍修復和活化上也有所進展。現在,字節跳動資助國家圖書館定向修復的珍貴古籍104冊件,現已完成50多冊件,包括一批稀有的樣式雷圖檔。在活化方面,抖音平臺推出“尋找古籍守護人”計劃,四大名著、二十四史、四書五經相關的視頻播放量超過600億次,涵蓋漫畫、影視、美食、音樂等多種內容體裁。

  古籍承載著中華文明,它的傳播是需要大眾參與。未來,通過識典古籍,向全社會開放古籍閱讀檢索研究能力,還將實現全自動整理校對,更高效地實現存量古籍全部數字化。同時,鼓勵擁有文獻的學者自行上傳文獻,豐富平臺內容,用戶甚至可參與再創作和再闡釋,與平臺形成一種良性互動,助力古籍文化傳承和研究。

  校對 劉軍

免费一级片在线观看_国产一级高清视频_99riav视频_91av视频导航

    <em id="5xgjh"></em>
    <nav id="5xgjh"><code id="5xgjh"></code></nav>
  1. <sub id="5xgjh"><address id="5xgjh"></address></sub>
    <form id="5xgjh"></form>
    <sub id="5xgjh"><address id="5xgjh"></address></sub>
      <sub id="5xgjh"></sub>
    1. <nav id="5xgjh"></nav>

        亚洲一区二区在线免费观看| 亚洲一区二区三区在线观看视频| 久久综合亚洲社区| 亚洲成人在线观看视频| 久久久久亚洲综合| 久久精品一区中文字幕| 亚洲精品一区二区网址| 这里只有精品视频在线| 亚洲午夜影视影院在线观看| 老司机凹凸av亚洲导航| 亚洲特黄一级片| 欧美日韩亚洲高清| 久久久999精品| 欧美中文字幕在线视频| 好看不卡的中文字幕| 午夜精品av| 国产日本精品| 国内在线观看一区二区三区| 亚洲大胆美女视频| 亚洲激精日韩激精欧美精品| 亚洲一二三区视频在线观看| 一区二区亚洲| 欧美区日韩区| 日韩视频一区二区| 亚洲性视频h| 欧美午夜电影在线| 欧美激情一区二区三级高清视频| 乱人伦精品视频在线观看| 亚洲国产成人一区| 亚洲欧美一区二区原创| 亚洲精品欧美极品| 在线一区二区三区四区| 欧美伊人久久久久久久久影院| 久久日韩粉嫩一区二区三区| 国产精自产拍久久久久久| 亚洲久色影视| 国产精品亚洲成人| 国产精品国产一区二区| 亚洲日本中文字幕| 久久亚洲色图| 久久综合色8888| 亚洲日产国产精品| 亚洲免费视频观看| 亚洲欧洲精品一区| 欧美日韩免费在线| 国产在线播精品第三| 久久青草久久| 99天天综合性| 久久久久久高潮国产精品视| 国产亚洲精品bv在线观看| 久久精品国产2020观看福利| 久久综合给合久久狠狠狠97色69| 91久久香蕉国产日韩欧美9色| 国产精品欧美日韩久久| 日韩视频免费看| 亚洲视频在线一区| 亚洲欧美经典视频| 国产区欧美区日韩区| 欧美视频免费在线观看| 免费人成网站在线观看欧美高清| 国产精品综合不卡av| 久久视频在线看| 亚洲天堂视频在线观看| 午夜精品久久久久久久| 香蕉久久夜色精品国产使用方法| 亚洲国产综合视频在线观看| 欧美人牲a欧美精品| 精品白丝av| 国产精品啊啊啊| 欧美了一区在线观看| 亚洲综合视频一区| 亚洲日本理论电影| 欧美一区国产二区| 久久av红桃一区二区小说| 久久精品国产一区二区三区免费看| 欧美日韩福利在线观看| 国产亚洲欧美一区二区| 久久综合久久综合这里只有精品| 国产精品第一页第二页第三页| 国产午夜精品全部视频在线播放| 小黄鸭视频精品导航| 日韩午夜在线电影| 欧美精品二区三区四区免费看视频| 国产精品v一区二区三区| 久久久av毛片精品| 一色屋精品视频免费看| 国产精品乱人伦一区二区| 午夜精品久久久久久久蜜桃app| 欧美大片在线观看一区二区| 亚洲午夜三级在线| 欧美三级午夜理伦三级中视频| 欧美日韩午夜精品| 欧美三级视频在线观看| 欧美日韩aaaaa| 艳女tv在线观看国产一区| 久久久久一区二区三区四区| 欧美国产日韩xxxxx| 国产乱码精品1区2区3区| 亚洲一区二区视频| 亚洲电影免费在线观看| 亚洲欧美日韩精品一区二区| 一区二区三区免费观看| 136国产福利精品导航网址应用| 欧美日韩精品一二三区| 亚洲国产日韩欧美综合久久| 欧美gay视频激情| 玖玖精品视频| 欧美午夜三级| 伊人狠狠色j香婷婷综合| 久久不射中文字幕| 亚洲日本成人| 国产精品欧美日韩一区二区| 精品91免费| 一本久久综合亚洲鲁鲁| 欧美一级片久久久久久久| 国产精品亚洲视频| 亚洲一区二区三区免费观看| 欧美午夜电影一区| 久久五月婷婷丁香社区| 欧美国产国产综合| 一区二区三区久久久| 国产日本欧美一区二区三区在线| 国产丝袜一区二区| 亚洲欧美综合另类中字| 亚洲精品国产无天堂网2021| 亚洲福利久久| 欧美高清视频免费观看| 欧美成人免费播放| 亚洲尤物精选| 久久久www成人免费无遮挡大片| 激情久久婷婷| 免费在线看成人av| 国产伦精品一区二区三区在线观看| 欧美成人午夜激情在线| 亚洲在线播放电影| 欧美日韩一区免费| 国产精品igao视频网网址不卡日韩| 欧美专区亚洲专区| 在线亚洲一区观看| 一区二区三区黄色| 欧美日韩国产影院| 国产精品国产三级国产aⅴ浪潮| 中文日韩欧美| 国产精品高潮粉嫩av| 雨宫琴音一区二区在线| 欧美激情视频在线播放| 老司机67194精品线观看| 亚洲国产日韩精品| 欧美高清视频一二三区| 亚洲人精品午夜| 久久精精品视频| 欧美插天视频在线播放| 国内外成人在线视频| 国产一区导航| 国产精品久久久久久久一区探花| 最新日韩在线| 一区二区在线视频播放| 亚洲精品美女免费| 欧美刺激性大交免费视频| 国产精品久久久爽爽爽麻豆色哟哟| 玖玖国产精品视频| 欧美激情视频一区二区三区免费| 亚洲精品视频在线| 国产精品久久久久秋霞鲁丝|