新華每日電訊:跨越“歷史天塹”,攻克古籍數字化瓶頸
新華社北京11月24日電(記者張選杰 李宣良)中華古籍浩如煙海,數字化時代如何讓這些承載中華文化的古籍更好地走近普通大眾、走向世界舞臺?
轉業軍人尹小林歷經10多年研發成功古籍“自動標點、自動比對、自動排印”三大核心技術,取得中華古籍數字化整理與傳播的歷史性突破,破解了國學文化走向世界的數字化“瓶頸”。
“三大核心技術”攻克古籍數字化“瓶頸”
2002年,精通古代漢語與計算機軟件的尹小林從第二炮兵轉業后,創立北京國學時代文化傳播股份有限公司,啟動國學文獻數字化工程。
嘗試、失敗,再嘗試、再失敗……經過無數次挫折,尹小林終于研發成功“自動標點、自動比對、自動排印”三大核心技術,不僅改變了古籍整理、研究的傳統模式,更重要的是為古籍數字化打開了一個新的大格局。
“自動為古籍加注標點,是古籍整理工作者多年的夢想。”中國社會科學院語言所研究員楊成凱說,自動標點技術基于對大規模帶標點文本的分析統計,以句型為基礎,輔以語法分析和字詞切分技術,對無標點的古籍文獻自動加上合適的標點符號,使大規模古籍數據整理成為可能。
校比異文,同樣是古籍整理最基礎也是最繁瑣的工作,不僅耗費大量人力,而且很難杜絕謬誤。自動比對技術能自動進行多種版本古籍的逐字比對,顯示出文字和符號差異。其利用計算機能對海量文本進行快速查找、匹配,可以顯著提升比對的效率。
自動排印技術可將大型古籍數據庫迅速轉換為書版文件,解決了古籍生僻字造字、簡繁體轉換、橫豎版式、自動生成索引等多項技術難點,可實現排版、出片、打樣、印刷“一條龍”,極大地提高出版效率。
《四庫全書》是中國歷史上規模最大的文化寶庫,總字數達10億,用傳統方式對其進行標點整理,需500人連續工作100年才能完成。“如果運用‘三大核心技術’,同樣的人力,5至8年即可完成這項宏偉的數字化整理工程。”尹小林自信地說。
跨越從傳統到現代的“歷史天塹”
“古籍是中國的,是古老的;數字化是世界的,是年輕的。”尹小林說,“我所做的古籍數字化是在跨越一條從傳統到現代、從實體書到虛擬網絡的‘歷史天塹’。”
尹小林從關注國學文化伊始,就注重對傳統文化傳播方式的研究。1993年,他利用業余時間借助計算機技術編纂的《漢字數目詞辭典》出版后,引起學術界的關注。進入國學研究前沿領域后,他相繼開發出《全唐詩》等大型數據庫。2003年,他被首都師范大學作為優秀高端專業人才破格引進,擔任首都師范大學電子文獻研究所所長。
在新的起點上,尹小林開發出大型中華古籍全文檢索數據庫《國學寶典》,收錄了上起先秦、下至清末的中文古籍文獻,收書種類6000余種、總字數近20億,目前仍以每年新增數億字的速度擴充。《國學寶典》是迄今唯一經標點整理、適用于互聯網的大型古籍全文數據庫,涵蓋了單機版、網絡版、鏡像版和手機版等多種形式。
為了推出普通群眾讀得懂的國學書籍,尹小林研發出《國學備覽》等普及型電子讀物,使古代經典走進了尋常百姓家。他還帶領團隊成功研發出《十三經注疏》《古代小說典》等一批“國學智能書庫”,讀者總數超過千萬。
2000年,國內第一個以弘揚中國傳統文化為宗旨的公益網站“國學網”正式上線。由尹小林創辦的這一網站,目前已發展成為專業水平最高、影響最大的中國傳統文化學術型公益網站,為傳統文化走向現代架起了一座跨地域、超時空的橋梁。
加快推動中華文化走向國際舞臺
“傳統文化是中國發展的堅實基礎,也是作為大國的重要標志。”尹小林認為,“中國要成為真正的文化強國,離不開國際社會對中華傳統文化的了解和接受。”
2005年,尹小林接受邀請,前往美國推介傳播中國的傳統文化。在哈佛大學圖書館,尹小林帶來的《國學寶典》以資料翔實、內容可靠、功能強大、前景廣闊等優點得到校方的高度認可。隨后,他又攜《國學寶典》走進耶魯大學、普林斯頓大學等名校,每到一處都刮起了中國傳統文化的“旋風”。
2009年,美國國會圖書館和“國學網”正式簽約,成為《國學寶典》的授權用戶。隨后,日本早稻田大學、韓國仁川大學、德國國立圖書館等機構也慕名而來,《國學寶典》的用戶范圍日益擴大……尹小林乘勝追擊,在推出網絡版的基礎上,相繼開發出IPAD版、安卓版的《國學寶典》,將國學文化傳播陣地拓展到移動終端上。
在尹小林的積極推動下,北京市重點交叉學科——數字文獻學今年正式招收研究生,標志著古籍數字化人才培養走上了健康發展的軌道。以電子文獻研究所為平臺,首都師范大學已連續主辦召開了4屆中國古籍數字化國際學術研討會,不僅取得了令人矚目的學術成果,還大大加快了國學文化走向世界舞臺的步伐。