《宋遼夏金元史數據庫》建設構想
河北大學宋史研究中心
史料是歷史研究的基礎,而古籍的全文檢索是文史研究電子化應用最為直接和最為有效的手段。河北大學宋史研究中心的創立者漆俠先生十分重視古籍整理中的新技術應用,自1989年開始,與河北大學電子信息工程學院的漢字信息處理研究室聯合開發《宋代文獻資料微機檢索系統》,采用自己研制的“漢字識別系統D-OCR”進行錄入,完成《續資治通鑒長編》(520卷,720萬字)的錄入工作,后經河北省教委主持鑒定,1995年在河北省第六屆發明展覽會上獲金獎。該成果受到國內外同行專家的重視,曾有多位海內外宋史界學者前來參觀試用,并被評價為“中國大陸第一個有組織地利用現代化手段進行的宋代文獻資料檢索系統?!?/p>
新世紀以來,中國古籍數字化的研究和實踐已經摒棄了手工作坊式的簡單錄入形態,河北大學宋史研究中心中止了此后《夷堅志》以及數十種宋人筆記小說的錄入工作,逐步提出建設斷代宋史數據庫的計劃。2006年10月,我中心為早日啟動在“宋遼夏金元史數據庫”建設工作,當年在北京召開了有宋遼夏金元史專家、文獻學專家和文獻數字化專家參加的咨詢會議,明確了建設該專業數據庫的初步構想和功能要求。2007年我中心成立了數據庫建設工作工作領導小組,向河北大學申請了“宋遼夏金元史數據庫”的專項建設經費。2007年底在原有工作的基礎上召開了第三次數據庫工作會議,討論了賈文龍、肖愛民起草的《<宋遼夏金元數據庫>建設的幾個重要問題》的報告。我們認為建設斷代數據庫,首先要處理好以下問題:
1、斷代數據庫的學術價值定位
在研制“宋遼夏金元史數據庫”之時,通史類古籍全文軟件已有相當高的成就,其中迪志公司開發的《文淵閣四庫全書》和北京書同文數字化技術有限公司開發的《四部叢刊》已經成為學者檢索史料的優先選擇,另外還有廣西金海灣電子音像出版社和廣西師范大學出版社出版的《古今圖書集成》對通史史料的檢索也有相當幫助。2002年以來,北京愛如生公司研發、劉俊文先生主持了《中國基本古籍庫》項目,這是古籍全文數字化的重大工程,并于2005年10月完成。
我們提出建立斷代史料庫是建立在宋代古籍存世特點的基礎上的。宋代發明了活字印刷,雕版印刷技術臻于完善,宋體字作為印刷業重要字體開始成型,所以胡應麟說:“雕本肇自隋,行于唐世,擴于五代,精于宋人?!彼未婆e制度的發達也促進了個人文集的大量出現,據四川大學古籍整理研究所編纂的《現存宋人別集版本目錄》,現在宋人文集計739部,作者631人。而書籍的大量印行使許多文集和規模較大的著作都能經印刷而得以存世。同時宋朝滅亡時圖書典籍未遭受太大損失,元初編寫宋史能參考的圖書資料相當豐富。因此宋朝雖存在時間約300年,但保存下來的資料超過了先秦至隋唐的史料之總和。漆俠先生講:“對宋代文獻,一個用功的學者,一輩子才可以讀完?!蹦壳斑€有相當數量的宋代史籍沒有數據化,僅《續修四庫全書》中就存在相當數量的未經數據化的宋代文獻。此外大而全的數據庫開發進程緩慢,校對不容易精準,影響了其檢索的可靠性。大于數據庫對各個朝代文獻都擇有重要的書籍,而并非各個時期全部文獻的集合,如《中國基本古籍庫》只收錄10000種古籍。目前宋代以前的古代文獻因為存世數量不大,其全文數字化工作已經接近完成,而明清文獻的全部數字化可能還要持續上百年。因此以宋夏金元(916——1367)約五百年的存世文獻為主建立斷代數據庫既有相當高的難度,又有相當大的價值。
2、簡體與繁體的選擇問題
馬克思說,生產工具促進生產力。馬克思在經典著作中論述人類歷史發展階段劃分時指出:歷史發展階段是以人類采用什么生產工具及相應的生產方法來劃分的,所以分成石器時代、鐵器時代等。推動歷史發展,生產工具的變革是最積極、最首要的因素。人類的生產工具由手動發展到具備動力,馬克思認為這是一次人類生產工具的大革命。現在計算機技術的發展,使人類的生產工具具有一定智能性,這是人類生產工具新的又一具有劃時代意義的發展。
對古籍數字化而言,檢索手段是這個智能性的主要體現,通過史料的查詢可以把原來枯燥的史料翻檢工作變為技術性操作。因此衡量古籍數字化成果的重要標準是文獻檢索的精度與準度,檢索結果的精準性下降,就會給學術研究帶來片面性。
目前在古籍數字化過程中,繁簡轉化過程出現了很多問題,眾多專家因此認為繁體優于簡體。但是我們認為應該首先考慮簡體與繁體是否能達到檢索的精度與準度。古籍數字化工作是對文獻的又一次整理過程,而整理過程就會有所修正,如中華書局作為國內最主要的古籍整理單位,其總編室在其《古籍校點釋例》中就說:“古書中的古今字、通假字、異體字、俗體字等,一律不出校。宋代以前的古書及有關語言文字學的著作,異體字一般不改。元明以後的書,不常見的異體字及不合規範的俗體字,如「島」作「」,「沿」作「
」、「惡」作「悪」、「船」作「舡」、「銜」作「啣」之類,可根據實際情況改成通行的繁體字,改了也不出校。版刻中的錯字,如「焰」刻作「熖」、「祇」(只)刻作「秖」、「千」刻作「
」、「餐」刻作「飱」,「寤寐」刻作「窹
」之類,應改成規範的繁體字。一本書內的用字應力求統一。用簡體字排印的書可另作規定?!笨梢娫S多古籍中的異體字與俗體字已經舍棄,讀者所見已非古籍原貌。古籍數字化過程中,這些異體字與俗體字都是可能舍棄的。我國目前實行的簡化字方案中,多是一一對應關系,此外則是多個繁體合成一個簡體,如“里程”的“里”和“里面”的“里”合并,“面孔”的“面”和“面條”的“面”合并,“皇后”的“后”和“以后”的“后”合并,“憂郁”的“郁”和“郁郁蔥蔥”的“郁”合并。在古籍檢索中,關鍵詞檢索是最常用的手段,關鍵詞中包含簡體字基本不會影響對史料的檢索。如果需要單字檢索,諸如字頻統計一類,簡體檢索的結果可能多于繁體,但是對檢索結果可以設定條件進行再處理。
如果將檢索詞整理成工具書,并附在史料庫前,可說明整理凡例,作為使用者的參考,那么用簡體進行古籍數字化整理也是可行的。
3、文字與圖像的關聯問題
探討文字與圖像的關系,我們從高校教學的需要與實踐出發,認為應要充分考慮檢索與閱讀的關系問題。閱讀是學術研究的常態活動,其與檢索的關系應該是主輔關系。無庸置疑,數字化后的古籍也具有可閱讀功能,高質量的數字化成果可以達到萬分之一左右的差錯率,完全可以用以滿足一般性的閱讀要求。但是數字化后的古籍常常是純文字史料,如電子版《四庫全書》則連標點也沒有,并不便于學者閱讀。此外古籍數字化過程中還會產生錄入錯誤,又不具有原始性質,因而不能成為閱讀信本,也不能成為真正的版本。
對數字化古籍加上現代標點,對方便學者閱讀古籍的作用是顯而易見的,但是也容易引起版權問題。我們認為數字化古籍將來的出路可能在于實現電子標點,北京大學李鐸博士曾設想將來可以利用計算機智能化特點,讓計算機自主學習,標點《四庫全書》。標點數字化過古籍,并不需要象點校紙本一樣嚴謹無誤,能實現基本的句讀,即使標點的長一些,也是可以接受的。因為使用者復制史料后,還會有再標點與史料核對的過程。隨著數據庫技術的進步,計算機對史料進行“粗標點”是可能實現的。當然最好的情況是專家學者抽出時間與精力,對數字化古籍進行點校,則是造福學林之舉。
因為數字化后的古籍不能成為閱讀信本,筆者感到在實際學術研究過程中文本閱讀(包含文獻掃描的圖像版)與電子閱讀并不是同步的。常見的情況是先讀了史料,然后再根據需要檢索史料;其次是先檢索史料,再去核對文本。一邊閱讀圖像,一邊檢索復制,在文字與圖像間往返切換的情況并不多。
古籍數字化工作應該考慮如何與前人整理版本的銜接。古籍不同于近現代文本,其中知識與觀念的時代差異,是需要專家學者去辨析注釋的。從古至今,各個時期都有學者對前人著述進行整理?!端膸烊珪肥乔宕∧觊g官修的規模龐大的百科叢書,共收書3400余種,實際也可以看作是一次大規模的版本整理的文化盛事。目前大型數據庫都是以圖文對照的形式解決這個問題的,即原文與文字是可以顯示的,當然是最為完美的解決途徑。但是圖文對照的成本很高,每個頁面都要單獨處理,如《四庫全書》有79000多卷,頁面又數倍于此數,因此對財力提出很高的要求。
鑒于學術研究過程中閱讀與檢索可以前后進行,古籍數字化中文字與圖像也可以分開,又要借助于一定手段而建立聯系。這一點尤其適于高等院校的教學與科研工作。
從以上考慮出發,我們提出一些《宋遼夏金元史數據庫》的建設思路,希望數據庫既有資料性,又有學術性;不僅可以用于科研,還要利于教學工作;含有動態建設過程,而在相當時段內保持一定的先進性。下面提出這些思路,借這次大會的機會,以求教于方家。
一、以時人詩文為數據庫主體
新技術革命的浪潮深刻地消解了歷史、文學、哲學等學科間的材料隔膜,古籍數字化更是突破了傳統的經、史、子、集的古籍分類方式。而歷史學研究對象涉及面廣的特性決定了歷史學者必須從其他學科查尋資料。歷史學者在檢索文獻時使用綜合性數據庫,利用計算機所具有模糊查詢識別能力,可以通過簡單的檢索便在自己不熟悉的斷代和領域找到相關的資料。因此斷代史古籍數字化可以以散漫的古籍分類方式構建數據庫,可以以檢索詞的方式回到以古人個體中心構建文獻的模式。而古人的個體創作,基本上只有詩與文兩種。因些《宋遼夏金元史數據庫》以《全宋詩文數據庫》、《全遼詩文數據庫》、《全金詩文數據庫》、《全元詩文數據庫》為主體。
二、以篇目章節檢索為圖文對照間的聯系
古籍數字化的最理想的成果形式是能直接引用,圖文對照是能達到直接引用的最有效途徑?!端芜|夏金元史數據庫》計劃建立《古籍書影數據庫》,首先實現書名章目的檢索,并以對照原文制作資料專題的方式,基本達到直接引用的要求。
三、以工具書庫作為檢索詞的延伸
史料是歷史研究的基礎。學術上的突破,往往依賴于新材料的發現。古代典籍浩如煙海,傳統的史學研究在某種程度上,就是發掘史料功夫的較量。而數據庫能夠把原來枯燥的史料翻檢工作變為技術性操作,就某種意義而言,數據庫建設將引發傳統史學研究的革命。為方便史料查詢,就要豐富檢索詞,所以第一屆古籍數字化國際會議外,李偉國等多位專家提出建立同位語數據庫的倡議。《宋遼夏金元史數據庫》似建立《宋人存世著述書目》、《全宋人名資料庫》(姓名、字號、籍貫、事跡、生卒、著述)、《宋遼夏金元史地名資料庫》、《宋遼夏金元史官名資料庫》,以為使用者豐富檢索詞,并提供查詢幫助工具。
四、以影像資料為文本古籍的補充
史料包括歷史文獻與史跡遺存,《宋遼夏金元史數據庫》還計劃建立《宋遼夏金元史文物考古圖片庫》和《宋遼夏金元史文物教學資料庫》,主要包括這一時期的書法、繪畫、書影、兵器、建筑、雕塑、印章、壁畫、瓷器、金銀器、服飾、車舟等各方面文物考古圖片。王國維先生兩重證據法之一即為“取地下之實物與紙上之遺書辨證”,進行古史新證?!犊脊艌D片庫》是影像時代二重史證在教學方面的努力。
五、以論著索引為學術前沿的反映
《宋遼夏金元史數據庫》計劃集資料性與信息性為一體,包含20世紀至今宋遼金史百年論著索引,反映了海內外宋遼夏金元史的最新研究成果,希望成為最全、最新的宋元時期的古籍及研究前沿的數字化成果。目前我們與方建新先生、劉浦江先生已合作完成《二十世紀宋史研究百年論文索引》、《二十世紀遼金史研究百年論文索引》;宋遼夏金元史博士、碩士學位論文索引已有一定成績。中國宋史研究會秘書處設在河北大學宋史研究中心,會員刊物《宋史研究通訊》每年都要收集當年度的論著索引。
六、以網絡化豐富發展
作為斷代史料數據庫,其數字化過程盡量避免畢其功于一役式建設,而應該不斷向精細化發展。如果停留在史料錄入的初級階段,必然會被大量通史類數據庫所取代,從而失去存在價值,成為重復建設?!端芜|夏金元史數據庫》項目設立之初,就是作為教育部省屬高校人文社科重點研究基地的標志性成果而開展的,所以承擔著為宋史學界提供信息資料中心的責任。因此《宋遼夏金元史數據庫》還要與中國宋史研究會的網站相結合,應用系統架構上也要從“C/S”(“客戶端——服務器”模式)向“B/S”(“瀏覽器——服務器”模式)轉變,以便于學者通過網頁瀏覽器直接訪問數據庫,使《宋遼夏金元史數據庫》成為治宋史研究者的學術公器。
小結
2008年7月,河北大學宋史研究中心與北京國學時代公司簽署協議,決定共同投資300萬元研制《宋遼夏金元史數據庫》。河北大學宋史研究中心與北京國學時代文化傳播有限公司雙方優勢互補、強強合作,《宋遼夏金元史數據庫》可以完成對宋遼夏金元時期基本的重要的古籍、碑刻及文物考古圖片的數字化使命。《宋遼夏金元史數據庫》既注重資料性,也注重工具性和信息性,我們相信《宋遼夏金元史數據庫》可以最終建設成具有良好的應用性與專業性、達到國際先進水準的宋遼夏金元史學術研究平臺。
?。接洠骸端芜|夏金元史電子數據庫》后期稱為《宋遼夏金元史電子館》。2010年8月6日,“《宋遼夏金元史電子館》成果鑒定會”在北京順利舉行,來自中國社會科學院、清華大學、北京大學、中國人民大學、河南大學、首都師范大學、中華書局等單位的多位著名學者,認為本項目成果是教育部重點研究基地與專業古籍數字化公司聯合攻關的結晶,該成果的完成和投入使用,對于中國古代史教學科研手段現代化具有重要意義。}
基金項目:本文為教育部基地項目《宋代地方法制研究》(10JJD770009)、國家社會科學青年項目《宋朝地方司法結構變革與治理效能研究》(11CFX010)的階段研究成果。