新華每日電訊:跨越“歷史天塹”,攻克古籍?dāng)?shù)字化瓶頸
新華社北京11月24日電(記者張選杰 李宣良)中華古籍浩如煙海,數(shù)字化時(shí)代如何讓這些承載中華文化的古籍更好地走近普通大眾、走向世界舞臺(tái)?
轉(zhuǎn)業(yè)軍人尹小林歷經(jīng)10多年研發(fā)成功古籍“自動(dòng)標(biāo)點(diǎn)、自動(dòng)比對(duì)、自動(dòng)排印”三大核心技術(shù),取得中華古籍?dāng)?shù)字化整理與傳播的歷史性突破,破解了國(guó)學(xué)文化走向世界的數(shù)字化“瓶頸”。
“三大核心技術(shù)”攻克古籍?dāng)?shù)字化“瓶頸”
2002年,精通古代漢語(yǔ)與計(jì)算機(jī)軟件的尹小林從第二炮兵轉(zhuǎn)業(yè)后,創(chuàng)立北京國(guó)學(xué)時(shí)代文化傳播股份有限公司,啟動(dòng)國(guó)學(xué)文獻(xiàn)數(shù)字化工程。
嘗試、失敗,再嘗試、再失敗……經(jīng)過(guò)無(wú)數(shù)次挫折,尹小林終于研發(fā)成功“自動(dòng)標(biāo)點(diǎn)、自動(dòng)比對(duì)、自動(dòng)排印”三大核心技術(shù),不僅改變了古籍整理、研究的傳統(tǒng)模式,更重要的是為古籍?dāng)?shù)字化打開(kāi)了一個(gè)新的大格局。
“自動(dòng)為古籍加注標(biāo)點(diǎn),是古籍整理工作者多年的夢(mèng)想。”中國(guó)社會(huì)科學(xué)院語(yǔ)言所研究員楊成凱說(shuō),自動(dòng)標(biāo)點(diǎn)技術(shù)基于對(duì)大規(guī)模帶標(biāo)點(diǎn)文本的分析統(tǒng)計(jì),以句型為基礎(chǔ),輔以語(yǔ)法分析和字詞切分技術(shù),對(duì)無(wú)標(biāo)點(diǎn)的古籍文獻(xiàn)自動(dòng)加上合適的標(biāo)點(diǎn)符號(hào),使大規(guī)模古籍?dāng)?shù)據(jù)整理成為可能。
校比異文,同樣是古籍整理最基礎(chǔ)也是最繁瑣的工作,不僅耗費(fèi)大量人力,而且很難杜絕謬誤。自動(dòng)比對(duì)技術(shù)能自動(dòng)進(jìn)行多種版本古籍的逐字比對(duì),顯示出文字和符號(hào)差異。其利用計(jì)算機(jī)能對(duì)海量文本進(jìn)行快速查找、匹配,可以顯著提升比對(duì)的效率。
自動(dòng)排印技術(shù)可將大型古籍?dāng)?shù)據(jù)庫(kù)迅速轉(zhuǎn)換為書(shū)版文件,解決了古籍生僻字造字、簡(jiǎn)繁體轉(zhuǎn)換、橫豎版式、自動(dòng)生成索引等多項(xiàng)技術(shù)難點(diǎn),可實(shí)現(xiàn)排版、出片、打樣、印刷“一條龍”,極大地提高出版效率。
《四庫(kù)全書(shū)》是中國(guó)歷史上規(guī)模最大的文化寶庫(kù),總字?jǐn)?shù)達(dá)10億,用傳統(tǒng)方式對(duì)其進(jìn)行標(biāo)點(diǎn)整理,需500人連續(xù)工作100年才能完成。“如果運(yùn)用‘三大核心技術(shù)’,同樣的人力,5至8年即可完成這項(xiàng)宏偉的數(shù)字化整理工程。”尹小林自信地說(shuō)。
跨越從傳統(tǒng)到現(xiàn)代的“歷史天塹”
“古籍是中國(guó)的,是古老的;數(shù)字化是世界的,是年輕的。”尹小林說(shuō),“我所做的古籍?dāng)?shù)字化是在跨越一條從傳統(tǒng)到現(xiàn)代、從實(shí)體書(shū)到虛擬網(wǎng)絡(luò)的‘歷史天塹’。”
尹小林從關(guān)注國(guó)學(xué)文化伊始,就注重對(duì)傳統(tǒng)文化傳播方式的研究。1993年,他利用業(yè)余時(shí)間借助計(jì)算機(jī)技術(shù)編纂的《漢字?jǐn)?shù)目詞辭典》出版后,引起學(xué)術(shù)界的關(guān)注。進(jìn)入國(guó)學(xué)研究前沿領(lǐng)域后,他相繼開(kāi)發(fā)出《全唐詩(shī)》等大型數(shù)據(jù)庫(kù)。2003年,他被首都師范大學(xué)作為優(yōu)秀高端專業(yè)人才破格引進(jìn),擔(dān)任首都師范大學(xué)電子文獻(xiàn)研究所所長(zhǎng)。
在新的起點(diǎn)上,尹小林開(kāi)發(fā)出大型中華古籍全文檢索數(shù)據(jù)庫(kù)《國(guó)學(xué)寶典》,收錄了上起先秦、下至清末的中文古籍文獻(xiàn),收書(shū)種類6000余種、總字?jǐn)?shù)近20億,目前仍以每年新增數(shù)億字的速度擴(kuò)充。《國(guó)學(xué)寶典》是迄今唯一經(jīng)標(biāo)點(diǎn)整理、適用于互聯(lián)網(wǎng)的大型古籍全文數(shù)據(jù)庫(kù),涵蓋了單機(jī)版、網(wǎng)絡(luò)版、鏡像版和手機(jī)版等多種形式。
為了推出普通群眾讀得懂的國(guó)學(xué)書(shū)籍,尹小林研發(fā)出《國(guó)學(xué)備覽》等普及型電子讀物,使古代經(jīng)典走進(jìn)了尋常百姓家。他還帶領(lǐng)團(tuán)隊(duì)成功研發(fā)出《十三經(jīng)注疏》《古代小說(shuō)典》等一批“國(guó)學(xué)智能書(shū)庫(kù)”,讀者總數(shù)超過(guò)千萬(wàn)。
2000年,國(guó)內(nèi)第一個(gè)以弘揚(yáng)中國(guó)傳統(tǒng)文化為宗旨的公益網(wǎng)站“國(guó)學(xué)網(wǎng)”正式上線。由尹小林創(chuàng)辦的這一網(wǎng)站,目前已發(fā)展成為專業(yè)水平最高、影響最大的中國(guó)傳統(tǒng)文化學(xué)術(shù)型公益網(wǎng)站,為傳統(tǒng)文化走向現(xiàn)代架起了一座跨地域、超時(shí)空的橋梁。
加快推動(dòng)中華文化走向國(guó)際舞臺(tái)
“傳統(tǒng)文化是中國(guó)發(fā)展的堅(jiān)實(shí)基礎(chǔ),也是作為大國(guó)的重要標(biāo)志。”尹小林認(rèn)為,“中國(guó)要成為真正的文化強(qiáng)國(guó),離不開(kāi)國(guó)際社會(huì)對(duì)中華傳統(tǒng)文化的了解和接受。”
2005年,尹小林接受邀請(qǐng),前往美國(guó)推介傳播中國(guó)的傳統(tǒng)文化。在哈佛大學(xué)圖書(shū)館,尹小林帶來(lái)的《國(guó)學(xué)寶典》以資料翔實(shí)、內(nèi)容可靠、功能強(qiáng)大、前景廣闊等優(yōu)點(diǎn)得到校方的高度認(rèn)可。隨后,他又?jǐn)y《國(guó)學(xué)寶典》走進(jìn)耶魯大學(xué)、普林斯頓大學(xué)等名校,每到一處都刮起了中國(guó)傳統(tǒng)文化的“旋風(fēng)”。
2009年,美國(guó)國(guó)會(huì)圖書(shū)館和“國(guó)學(xué)網(wǎng)”正式簽約,成為《國(guó)學(xué)寶典》的授權(quán)用戶。隨后,日本早稻田大學(xué)、韓國(guó)仁川大學(xué)、德國(guó)國(guó)立圖書(shū)館等機(jī)構(gòu)也慕名而來(lái),《國(guó)學(xué)寶典》的用戶范圍日益擴(kuò)大……尹小林乘勝追擊,在推出網(wǎng)絡(luò)版的基礎(chǔ)上,相繼開(kāi)發(fā)出IPAD版、安卓版的《國(guó)學(xué)寶典》,將國(guó)學(xué)文化傳播陣地拓展到移動(dòng)終端上。
在尹小林的積極推動(dòng)下,北京市重點(diǎn)交叉學(xué)科——數(shù)字文獻(xiàn)學(xué)今年正式招收研究生,標(biāo)志著古籍?dāng)?shù)字化人才培養(yǎng)走上了健康發(fā)展的軌道。以電子文獻(xiàn)研究所為平臺(tái),首都師范大學(xué)已連續(xù)主辦召開(kāi)了4屆中國(guó)古籍?dāng)?shù)字化國(guó)際學(xué)術(shù)研討會(huì),不僅取得了令人矚目的學(xué)術(shù)成果,還大大加快了國(guó)學(xué)文化走向世界舞臺(tái)的步伐。