“識(shí)典古籍”平臺(tái)—— 數(shù)字化,,讓古籍觸手可及

  來(lái)源:人民網(wǎng)-人民日?qǐng)?bào)吳 丹2024-01-10
打印本文
核心提示:以上圖片均為“識(shí)典古籍”平臺(tái)網(wǎng)頁(yè)截圖。 制圖:張芳曼核心閱讀我國(guó)現(xiàn)存古籍約有20萬(wàn)種,,修復(fù)整理現(xiàn)存的全部古籍,,可能需要300余年。古籍?dāng)?shù)字化迫在眉睫,。一本古籍,,如何從

我國(guó)現(xiàn)存古籍約有20萬(wàn)種,修復(fù)整理現(xiàn)存的全部古籍,,可能需要300余年,。古籍?dāng)?shù)字化迫在眉睫,。一本古籍,,如何從紙頁(yè)“搬”到網(wǎng)頁(yè),?廣泛收集圖像資料、利用現(xiàn)代技術(shù)精細(xì)化處理……自2022年10月上線以來(lái),,“識(shí)典古籍”平臺(tái)已陸續(xù)匯集經(jīng)、史,、子、集等2200余部古籍,,免費(fèi)面向公眾開(kāi)放,,為解決古籍保護(hù)和利用矛盾進(jìn)行了有益嘗試,。

“青蒿一握,,以水二升漬,絞取汁,,盡服之”,屠呦呦從古籍中獲得靈感,,由此發(fā)現(xiàn)青蒿素,;在浩瀚古籍中尋幽入微,竺可楨繪制出一條物候變遷的曲線——“竺可楨曲線”,,濃縮出五千年中華大地的冷暖變化圖景,。

卷帙浩繁的中華古籍,凝結(jié)著先人的智慧,,記載著璀璨的文化,,訴說(shuō)著綿延不絕的中華文明。歲月不居,,書(shū)闕有間,,部分古籍正慢慢“老去”,褪色,、脆化,、腐蝕,甚至稍一翻閱就會(huì)損毀。

當(dāng)古老典籍遇到現(xiàn)代技術(shù),,會(huì)產(chǎn)生什么 奇妙反應(yīng),?

一種“打開(kāi)”古籍的全新方式

“初見(jiàn)”“流光”“驚鴻”“珠聯(lián)”“綴玉”……點(diǎn)擊網(wǎng)頁(yè)上的標(biāo)簽,,《永樂(lè)大典》的前世今生、編纂方法,、歷史價(jià)值等信息,,伴隨著動(dòng)畫(huà)音效,呈現(xiàn)于眼前,。

點(diǎn)擊頁(yè)面右上角“閱讀大典”,,進(jìn)入文本閱讀平臺(tái)?!队罉?lè)大典》原本影像與數(shù)字化文本相互對(duì)照,,繁簡(jiǎn)體文字隨時(shí)切換。遇生僻詞句,,可選中文本,,點(diǎn)擊“查看引用”,出處清晰可考,。

《永樂(lè)大典》是我國(guó)古代規(guī)模最大的類(lèi)書(shū),,匯集先秦至明初各類(lèi)典籍,被譽(yù)為“世界有史以來(lái)最大的百科全書(shū)”,。但幾經(jīng)散佚,,副本存世不及原書(shū)的4%。對(duì)學(xué)者而言,,《永樂(lè)大典》是進(jìn)行學(xué)術(shù)研究的重要資料,;對(duì)普通讀者來(lái)說(shuō),古籍文本往往艱澀難懂,,且接觸機(jī)會(huì)不多,。

如今,《永樂(lè)大典》高清影像數(shù)據(jù)庫(kù)(第一輯)在古籍?dāng)?shù)字化平臺(tái)“識(shí)典古籍”正式上線,,免費(fèi)面向公眾開(kāi)放,。借助現(xiàn)代數(shù)字技術(shù),厚重典籍濃縮在方寸之間,,塵封已久的歷史畫(huà)卷徐徐展開(kāi),,成為觸手可及的文化資源。

“互動(dòng)化,、可視化的呈現(xiàn)方式更加符合當(dāng)代人的閱讀習(xí)慣,,沉浸式閱讀體驗(yàn)拉近了古籍與普通讀者之間的距離?!薄白R(shí)典古籍”平臺(tái)項(xiàng)目負(fù)責(zé)人之一,、北京大學(xué)信息管理系助理教授位通說(shuō)。

自2022年10月上線以來(lái),“識(shí)典古籍”平臺(tái)已陸續(xù)匯集經(jīng),、史,、子、集等2200余部古籍,,面向海內(nèi)外讀者免費(fèi)開(kāi)放,。該平臺(tái)由北京大學(xué)與抖音合作共建,致力于為用戶提供免費(fèi),、公開(kāi),、穩(wěn)定、快速,、方便的檢索和閱讀古籍服務(wù),。

“識(shí)典古籍”平臺(tái)項(xiàng)目負(fù)責(zé)人、北京大學(xué)數(shù)字人文研究中心主任王軍希望,,“識(shí)典古籍”平臺(tái)能推動(dòng)散落海外的中華古籍回流,,促成古籍的開(kāi)放共享。

一次解決保護(hù)和利用矛盾的嘗試

古籍?dāng)?shù)字化為何迫切,?

王軍算過(guò)一筆賬:我國(guó)現(xiàn)存古籍約有20萬(wàn)種,,從1949年到2019年,共修復(fù)整理出版了近3.8萬(wàn)種,,修復(fù)整理現(xiàn)存的全部古籍,,可能需要300余年??梢哉f(shuō),,古籍修復(fù)速度趕不上老化速度。

修復(fù)整理,,只是數(shù)字化的第一步,。古籍具有文物和文獻(xiàn)的雙重屬性,修復(fù)好的古籍若只被束之高閣,,后續(xù)研究就無(wú)法開(kāi)展,,更無(wú)法發(fā)揮其文化傳承的價(jià)值。

因此,,數(shù)字化是一場(chǎng)生產(chǎn)效率的變革,,也是一次解決古籍保護(hù)和利用矛盾的嘗試。

一本古籍,,如何從紙頁(yè)“搬”到網(wǎng)頁(yè),?

進(jìn)入“識(shí)典古籍”平臺(tái),平臺(tái)設(shè)計(jì)者,、北京大學(xué)人工智能研究院副研究員楊浩開(kāi)始演示:“古籍的數(shù)字化分為兩步,。一是圖像化,我們與海內(nèi)外古籍收藏單位合作,廣泛收集古籍?dāng)?shù)字化圖像資料,。二是文本化,,利用人工智能技術(shù)對(duì)古籍文字進(jìn)行識(shí)別,、排序,、校對(duì)、結(jié)構(gòu)整理,、標(biāo)點(diǎn),、實(shí)體識(shí)別等,對(duì)內(nèi)容作精細(xì)化處理,?!?

楊浩上傳了一頁(yè)古籍圖像,不一會(huì)兒,,文字自動(dòng)識(shí)別處理完成,。古籍圖像上顯現(xiàn)出不同顏色的小方框,“每個(gè)方框?qū)?yīng)一個(gè)文字,,先切分再調(diào)整順序,。紅色方框是提醒此處需要人工介入,來(lái)進(jìn)一步判斷和處理,?!?

與此同時(shí),古籍圖像旁已自動(dòng)識(shí)別出一段文字,,并可比照原圖像進(jìn)行修改調(diào)整,。楊浩繼續(xù)解釋?zhuān)骸斑@個(gè)過(guò)程中,主要使用了文字識(shí)別,、自動(dòng)標(biāo)點(diǎn)和命名實(shí)體識(shí)別等人工智能技術(shù),。文字識(shí)別技術(shù),是對(duì)古籍?dāng)?shù)字圖像中的文字進(jìn)行單個(gè)切分,,再進(jìn)行文字識(shí)別和順序讀出,;自動(dòng)標(biāo)點(diǎn)技術(shù),是通過(guò)序列標(biāo)注的方式對(duì)古籍自動(dòng)進(jìn)行現(xiàn)代標(biāo)點(diǎn),;命名實(shí)體識(shí)別技術(shù),,則是通過(guò)序列標(biāo)注方法識(shí)別出文本中的人名、地名,、書(shū)名,、時(shí)間、官職等信息,?!蓖瑫r(shí),在機(jī)器自動(dòng)識(shí)別后,會(huì)有專(zhuān)人復(fù)查結(jié)果,,進(jìn)一步提升準(zhǔn)確率,。

據(jù)悉,“識(shí)典古籍”平臺(tái)文字識(shí)別的準(zhǔn)確率達(dá)到96%以上,,自動(dòng)句讀的準(zhǔn)確率達(dá)到94%,,命名實(shí)體識(shí)別在中古史料上的準(zhǔn)確率接近98%。

“大部分古籍閱讀平臺(tái)或只提供掃描文稿,,或只提供文本內(nèi)容,,有些商業(yè)數(shù)據(jù)庫(kù)收費(fèi)高昂,獲取資源十分不便,?!北本┐髮W(xué)歷史學(xué)系學(xué)生劉沐含說(shuō),“識(shí)典古籍”平臺(tái)有著豐富的檢索功能以及分類(lèi)與年代篩選功能,,可以輔助開(kāi)展學(xué)術(shù)研究,。

一個(gè)全流程的智能化整理平臺(tái)

集納展示古籍?dāng)?shù)字版本,不是“識(shí)典古籍”平臺(tái)的全部,。團(tuán)隊(duì)有著更大的設(shè)想——在一個(gè)平臺(tái)實(shí)現(xiàn)古籍智能整理的全部環(huán)節(jié),。

“‘識(shí)典古籍’平臺(tái)由兩部分組成,前端是閱讀平臺(tái),,后端是古籍整理平臺(tái),。”王軍作了一個(gè)比喻,,“就像是餐廳的前廳和后廚,。”

目前,,作為“后廚”的古籍整理平臺(tái),,已經(jīng)設(shè)定了團(tuán)隊(duì)管理員、書(shū)目管理員,、審訂員,、整理員等各種用戶角色。下一步,,將吸引各行各業(yè)的古籍愛(ài)好者,、研究者,以眾包校對(duì),、協(xié)同審核等形式,,推進(jìn)古籍整理項(xiàng)目和數(shù)據(jù)庫(kù)建設(shè),打造“古籍圖像上傳—文本校對(duì)整理—高質(zhì)量標(biāo)記—文本輸出”的全流程系統(tǒng),。

哈爾濱師范大學(xué)歷史文化學(xué)院學(xué)生劉鈺昕,,提前體驗(yàn)了一回“整理員”角色,。

“希望能為損毀嚴(yán)重的古籍做點(diǎn)力所能及的事情?!?022年4月,,看到北大數(shù)字人文研究中心的招募信息,劉鈺昕第一時(shí)間報(bào)名,,成為“識(shí)典古籍”平臺(tái)的一名志愿者,。

“我參與了《春秋左傳注》《史記》《漢書(shū)》等古籍的校對(duì)工作?!闭劶爸驹腹ぷ?,劉鈺昕的熱愛(ài)之情溢于言表,,“印象最深的就是,,為了制定魏晉南北朝官職標(biāo)注規(guī)則,我查閱了大量的文獻(xiàn),,還詳細(xì)翻閱了《文獻(xiàn)通考》的‘職官考’二十一考,。”

“新時(shí)代古籍事業(yè)發(fā)展,,需要一批對(duì)古典文獻(xiàn)學(xué),、古籍保護(hù)、信息技術(shù)以及數(shù)字化流程都比較熟悉,,又能將各方面有機(jī)融合的復(fù)合型人才,。”北京大學(xué)中文系教授楊海崢建議,,應(yīng)加強(qiáng)古籍學(xué)科理論構(gòu)建和課程體系建設(shè),,編寫(xiě)適合新時(shí)代古籍工作需要的專(zhuān)業(yè)教材,并多為學(xué)生提供實(shí)踐機(jī)會(huì),,以推進(jìn)新時(shí)代古籍人才隊(duì)伍建設(shè),。

“古籍是中華文明延續(xù)數(shù)千年未曾中斷的有力證明,希望通過(guò)‘識(shí)典古籍’平臺(tái)以及暑期工作坊,、學(xué)術(shù)研討等活動(dòng),,推動(dòng)中華文明傳承發(fā)展,向世界展示和傳播我們的文化之美,?!蓖踯娬f(shuō)。

新年伊始,,楊浩寫(xiě)下了新的展望:

“泱泱中華,,歷史何其悠久,文明何其博大,。2024年,,希望能收集更多古籍,、提升整理質(zhì)量,更好守護(hù)古籍這個(gè)文明之根,!”(厲  燁參與采寫(xiě))《 人民日?qǐng)?bào) 》( 2024年01月10日 12 版)

編輯:映雪


“識(shí)典古籍”平臺(tái)—— 數(shù)字化,,讓古籍觸手可及

 

免責(zé)聲明:

1、本網(wǎng)內(nèi)容凡注明"來(lái)源:315記者攝影家網(wǎng)"的所有文字,、圖片和音視頻資料,,版權(quán)均屬315記者攝影家網(wǎng)所有,轉(zhuǎn)載,、下載須通知本網(wǎng)授權(quán),,不得商用,在轉(zhuǎn)載時(shí)必須注明"稿件來(lái)源:315記者攝影家網(wǎng)",,違者本網(wǎng)將依法追究責(zé)任,。
2、本文系本網(wǎng)編輯轉(zhuǎn)載,,轉(zhuǎn)載出于研究學(xué)習(xí)之目的,,為北京正念正心國(guó)學(xué)文化研究院藝術(shù)學(xué)研究、宗教學(xué)研究,、教育學(xué)研究,、文學(xué)研究、新聞學(xué)與傳播學(xué)研究,、考古學(xué)研究的研究員研究學(xué)習(xí),,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3,、如涉及作品,、圖片等內(nèi)容、版權(quán)和其它問(wèn)題,,請(qǐng)作者看到后一周內(nèi)來(lái)電或來(lái)函聯(lián)系刪除,。