顧青:真正的古籍?dāng)?shù)字化是建立一套綜合的知識服務(wù)體系
【編按】2013年中文數(shù)字出版與數(shù)字圖書館國際研討會上,中華書局副總編輯顧青指出:理所當(dāng)然的文物性善本不一定是文本性的善本。古籍?dāng)?shù)字化,依據(jù)的主要是文字,而不是文物。設(shè)想中的真正的古籍?dāng)?shù)字化,應(yīng)該是將古籍文獻和出土文獻以及學(xué)術(shù)研究成果有機關(guān)聯(lián)而建立的一套綜合知識服務(wù)體系,能夠提供檢索、類聚、信息鏈接、知識提示、乃至跨學(xué)科跨領(lǐng)域的知識比對的服務(wù)功能。
中文古籍?dāng)?shù)字化建設(shè),自上個世紀80年代開始,至今超過了30年,業(yè)界經(jīng)過多年的努力,有不少產(chǎn)品面世并進入商業(yè)化應(yīng)用,有許多機構(gòu)和企業(yè)準備投入其中,成績顯而易見。但也存在不少問題,比如內(nèi)容重復(fù)建設(shè)嚴重,知識產(chǎn)權(quán)侵權(quán)多見,數(shù)字化產(chǎn)品內(nèi)容錯誤很多,質(zhì)量明顯低于紙質(zhì)產(chǎn)品,技術(shù)更新緩慢等等。
中華書局從事古籍整理工作持續(xù)了近百年。1958年成為古籍整理專業(yè)出版社。2003年起,開始進行中文古籍?dāng)?shù)字化工作,至今也已經(jīng)10年了,期間實施了一系列實驗性的數(shù)字化工程:“中華古籍語料庫”,“二十四史分析系統(tǒng)”,“國家數(shù)字圖書館漢字信息標準”等,目前正參與“中華字庫”工程。由此,我們積累了較為豐富的中文古籍?dāng)?shù)字化建設(shè)的經(jīng)驗教訓(xùn),也逐步形成了中華書局對中文古籍?dāng)?shù)字化建設(shè)的一些基本理念。
一、中文古籍?dāng)?shù)字化必須以古籍整理為基礎(chǔ)。
目前不少古籍?dāng)?shù)字化產(chǎn)品,致力于數(shù)據(jù)量的累積,或所謂技術(shù)的更新,但往往都存在一個致命傷:質(zhì)量。學(xué)者用來檢索可以,但不敢直接引用,寫論文時,還需要直接核對紙質(zhì)整理本,出處也只能依據(jù)紙質(zhì)整理本。原因就是錯誤太多。
這就涉及到幾個久為業(yè)界和學(xué)界忽略的常識:
常識一:幾千年流傳下來的古籍造成大量遺失、訛誤、錯亂,時代和語言的變化,使得古籍未經(jīng)認真整理,當(dāng)代人是很難直接閱讀使用的。
比如善本問題。
現(xiàn)在很多人迷信善本。似乎善本就一定好,未必!
善本有兩個概念:一個是文物性的“善”,越早(宋元本),越稀見(孤本稿本)、越值錢(拍賣),就越“善”。現(xiàn)在普遍通行的使用的是這個概念。
另一個概念是文本性的“善”,內(nèi)容完整準確,精校精刻,經(jīng)過認真的整理。比如“二十四史”整理本,就比百衲本、殿本要“善”得多。
越早的版本未必是內(nèi)容最好的本子。一個宋元的殘本,是理所當(dāng)然的文物性善本,但一定不是文本性的善本。古籍?dāng)?shù)字化,依據(jù)的主要是文字,而不是文物。除非我們是為文獻學(xué)家提供版本影像。
常識二:近百年來的古籍整理實踐,整理了數(shù)千種古籍,數(shù)百種精品,其內(nèi)容質(zhì)量遠超前代;并且形成了一系列成熟的古籍整理規(guī)范。
這套古籍整理規(guī)范,總結(jié)幾千年文獻學(xué)、傳統(tǒng)小學(xué)的成果,符合當(dāng)代學(xué)術(shù)的需求,從選擇版本、標點、校勘、定字,到輯佚、匯編、影印等,包括古籍整理的完整程序和各個細節(jié),涵蓋從出土文獻到抄本時代和刻本時代的各種文獻,涉及古代文化的各個學(xué)術(shù)領(lǐng)域和學(xué)科。符合古籍整理規(guī)范進行整理,質(zhì)量就有基本保證。否則,必然錯誤百出。
常識三:古籍整理作品是有知識產(chǎn)權(quán)的,是受到著作權(quán)法的確認和保護的,也是被司法實踐所證明的。
所謂古籍整理作品沒有著作權(quán)的觀點,是錯誤的。
基于以上的常識,我們可以說,古籍?dāng)?shù)字化建設(shè),必須以古籍整理為基礎(chǔ),需要有懂得古籍整理的專業(yè)人士來參與,必須充分利用已有的古籍整理的成果,必須尊重整理者的著作權(quán),獲得法律的保護。離開了古籍整理基礎(chǔ)的古籍?dāng)?shù)字化,必然是先天不足,難以健康地成長。
二、中文古籍?dāng)?shù)字化建設(shè)必須依托一系列符合古代漢語文字特點和傳統(tǒng)知識體系的行業(yè)標準。
當(dāng)我們把大量的文本數(shù)據(jù)匯集之后,如果簡單地進行字符串的檢索,一方面會出現(xiàn)大量的冗余數(shù)據(jù),另一方面又會丟失大量的有效數(shù)據(jù),其原因就在于沒有建立健全的數(shù)據(jù)處理標準。沒有經(jīng)過處理(清洗,標注,關(guān)聯(lián)等)的數(shù)據(jù)是不合格的。這些標準,包括古籍及傳統(tǒng)文獻數(shù)字化用字標準(規(guī)范漢字字表),整理本古籍元數(shù)據(jù)標準及標注標準,整理本古籍主題詞標準(規(guī)范主題詞詞表)等等。
比如,目前業(yè)界普遍使用的七萬多字的Unicode字符集,在古籍?dāng)?shù)字化中顯然不夠用。在我們的古籍整理實踐中,還涉及大量漢字的本字未收入,大量的異體字、通假字、避諱字,也包括繁簡字和日、韓的漢字,都需要做清晰準確的規(guī)范。沒有一個符合古代漢字使用規(guī)范的漢字字表,顯然不行。
又比如,人名曹操,還有很多稱謂:孟德、吉利、阿瞞、曹東郡、曹使君、武平侯、魏王、魏武帝、魏太祖等等,僅《三國志》一書中就另有25個,更不要說歷代文獻的各種稱謂了,會更多。最熟悉曹操的專家在檢索“曹操”時,大概也不會把幾十個不同稱謂都輸入一次。如果有了主題詞表,輸入一次“曹操”,不僅讀者所有不同的稱謂所在的文獻都檢索出來,而且系統(tǒng)還能提示和曹操有關(guān)聯(lián)的主題。主題詞表的建設(shè)具有很強的專業(yè)性,應(yīng)該包括時間、地點、人物、書目、職官、名物、語詞等等各類專題詞匯,并且有規(guī)范準確的歸類。
建立標準,需要對這個行業(yè)的深刻理解,需要經(jīng)歷古籍整理和學(xué)術(shù)研究的長期積累,需要經(jīng)過古籍?dāng)?shù)字化產(chǎn)品的檢驗校正,并在使用中不斷完善。這是一項基于現(xiàn)代信息技術(shù)的、嚴謹而艱苦的學(xué)術(shù)工作。
三、真正的古籍?dāng)?shù)字化產(chǎn)品,不僅僅是古籍文本的數(shù)字化,更應(yīng)該是中華文化知識貢獻的數(shù)字化,其本質(zhì)是基于現(xiàn)代信息技術(shù)的對各類不同用戶的服務(wù)。
目前很多古籍?dāng)?shù)字化產(chǎn)品,還僅僅停留在數(shù)據(jù)倉庫和字符串檢索的層面,既沒有充分利用現(xiàn)代古籍整理成果和研究成果,也沒有充分發(fā)揮當(dāng)代信息技術(shù)的優(yōu)勢,應(yīng)該說,還處于探索階段。
我們設(shè)想中的真正的古籍?dāng)?shù)字化,應(yīng)該是將古籍文獻和出土文獻以及學(xué)術(shù)研究成果有機關(guān)聯(lián)而建立的一套綜合知識服務(wù)體系,能夠提供檢索、類聚、信息鏈接、知識提示、乃至跨學(xué)科跨領(lǐng)域的知識比對的服務(wù)功能,讓專家學(xué)者和普通大眾都能夠共享中華文化的偉大貢獻。
中華書局目前正在做的古籍?dāng)?shù)字化工作:一方面,基于和紙質(zhì)圖書同步開發(fā)的電子書,我們采取與各個優(yōu)質(zhì)平臺和渠道合作的方式,即將推出。另一方面,我們正在做的,有兩個數(shù)據(jù)庫產(chǎn)品:
一是“中華經(jīng)典古籍庫”,精選近300種中國文化基本典籍,包括十二五史、通鑒系列、諸子集成、史料筆記叢刊等諸多經(jīng)典系列,全部解決版權(quán)問題,全都經(jīng)過高水平的古籍整理,質(zhì)量與中華版紙質(zhì)版本一樣,是可供征引的,質(zhì)量是可以信任的。數(shù)據(jù)進行了文本標引處理,對書中的正文、注釋、校勘、專名、書名等都做了標注,可以分類檢索。同時,還附加原書的版面圖像,并將文字與圖像按頁碼一一對應(yīng),為核查和引用提供了方便。在收錄數(shù)據(jù)的基礎(chǔ)上,該產(chǎn)品還添加了電子字典、歷史年表、箋注書簽等工具,極大地增強了古籍閱讀服務(wù)。
二是“中華基本史籍知識庫”,是利用先進的信息技術(shù)手段,通過傳統(tǒng)文化知識元的關(guān)聯(lián),將古籍文獻、學(xué)術(shù)著作、知識條目有機結(jié)合而建立的立體化知識系統(tǒng)。作為知識分析的先導(dǎo)性成果,中華書局已經(jīng)在“二十四史”上建立了基于本體的知識檢索模型,不僅能夠?qū)崿F(xiàn)時間、地點、人物的知識關(guān)聯(lián)檢索,還可以通過可視化的形式展示,反映人物、時間、地點和事件之間的語義關(guān)系。“中華基本史籍知識庫”能夠提供傳統(tǒng)紙質(zhì)圖書無法實現(xiàn)的知識檢索、類聚、鏈接以及知識提示等服務(wù)功能,比目前已有的古籍?dāng)?shù)字化系統(tǒng)有進一步的加強和創(chuàng)新,呈現(xiàn)了古籍文獻知識線索,破除了信息孤島現(xiàn)象,打通了書的界限,建立了圖書之間的聯(lián)系。同時“中華基本史籍知識庫”打破專家與廣大讀者之間的知識與信息壁壘,讀者不再是單純的使用者,他們與系統(tǒng)能夠形成互動,貢獻自己的知識。
這是中華書局同仁的一個理想,是中華書局從事古籍?dāng)?shù)字化的夢想,需要大家的共同努力。
來源:百道網(wǎng)