午夜精品免费视频,亚洲区欧美区,久久成人精品视频,成人免费网站观看

    

古籍數字化與文獻利用

吳夏平

內容提要】古籍數字化成果顯著,但其應用也存在不少問題。數字化本身的障礙、研究性質的差異、數字化導致思維方式的轉變等因素,都影響到學術研究。因此,在利用時應具審慎態度。只有堅持現代信息技術工具本位,創建個性化的數據庫,才能更好地利用數字化文獻推進科研的發展。

關鍵詞】古籍數字化;文獻利用;工具本位;個性化數據庫

 

一、古籍數字化現狀

  一般來說,古籍數字化指的是利用現代信息技術手段,將傳統紙質文獻典籍轉換成為可在計算機上進行操作的過程。這個過程包含兩個層級:將印刷、抄寫或其他形式的文獻用數字方式來表達,屬于第一層級;第二層級指的是能夠比較客觀、完整地反映對象內容與思想的文獻,這是數字技術與文獻內容的完美結合,數字型的文獻能夠真實、完整地再現實體型文獻的內容。[1]從目前進程來看,第一階段發展得較好。

  總體來看,古籍數字化的進程有幾個特點:其一,臺灣地區中文古籍數字化建設起步較早。臺灣地區的中文古籍數字化工作從1984年開始,臺灣“中央研究院”就著手進行古籍數字化工作。目前,已開發的古籍檢索系統有漢籍電子文獻瀚典全文檢索系統,文物圖像研究室資料庫檢索系統,歷史語言研究所藏內閣大庫檔案。臺灣大學中華電子佛典線上藏經閣大正藏全文檢索系統,臺灣元智大學“網路展書讀”等。基本涵蓋了唐代以前絕大部分傳世文獻。其二,香港地區古籍數字化建設成果豐碩。從20世紀80年代末開始,香港中文大學中國文化研究所下屬的“漢達古文獻數據庫中心”所開發的全文數據庫資料包括甲骨文數據庫、竹簡帛書出土文獻電腦數據庫、金文全文計算機化數據庫、先秦兩漢一切傳世文獻計算機化數據庫、魏晉南北朝傳世文獻數據庫,中國類書數據庫等等。其三,大陸古籍數字化建設奮起直追。從20世紀90年代開始,大陸一些圖書館進行了古籍數字化建設的嘗試。1996年,上海圖書館與長江計算機集團合作,建立了古籍影像光盤制作及檢索系統,到1999年4月,該系統已經完成古籍善本1000多種60萬頁的掃描和標引工作。一些有前瞻意識的公司先后研制推出大型古籍數字化成果,如迪志公司、書同文公司研制的《文淵閣四庫全書》、《四部叢刊》電子檢索系統。國學公司研制的包括二十四史、《全唐詩》、《全唐文》等在內的大型古籍文獻數據庫《國學寶典》等。其四、中文古籍的數字化建設不僅在國內開展,在國外也有一定的研究,如美國的普林斯頓大學建設了中文古籍善本書目數據庫,挪威的奧斯陸大學建設了先秦諸子百家全文檢索系統,這些都豐富了中文古籍數字化建設的內涵.[2]另外,各地方圖書館也紛紛整理開發地方文獻,特別是很有特色的地方志數據庫,許多地區已經做得非常好。

  數字化古籍最大的特點是具有檢索功能。以《國學寶典》為例,《國學寶典》大型古籍文獻數據庫全文檢索系統,含二千多部重要古籍文獻,具有全文逐字索引、字詞頻統計、智能模糊查詢、自動卡片生成等功能,基本上能滿足學術研究和科研開發的需要,在辭書編纂、主題查找、統計分析、古書輯佚等方面具有極大的輔助作用。

  古籍數字化工作不斷進展,最新的成果是由北京大學李鐸博士等研發的《全宋詩電子分析系統》。這個系統名稱以智能“分析”替代全文“檢索”,因為“它是由計算機提供經過分析篩選的條理化的信息,已經帶有智能化的特點,可以直接完成一些人力無法完成而又是十分重要的課題,如‘字頻分析'、‘格律分析'、‘用韻分析'、‘重出詩提取'、‘話語系統分析'等等。”[3]據李鐸博士介紹,將來可以利用計算機智能化特點,讓計算機自主學習,標點《四庫全書》。我們深切地期望此嘉惠學林之舉能進一步深入。

二、數字化古籍利用應注意的問題

  毫無疑問,數字化古籍對科研工作帶來便利。古籍數字化是前無古人的,我們甚至可以設想,傳統私人藏書在不久的將來會消失,一臺計算機甚至一個智能U盤,就是可以隨身攜帶的圖書館,而且這個圖書館具有強大的全文檢索功能。所有這些都將改變整個學術結構。但是,問題也隨之而來。我們所思考的是,在古籍數字化時代,如何最大限度地利用古代文獻,盡可能地避免因信息技術與傳統的矛盾而產生的消極影響。我們的擔憂不是毫無理由,具體表現在以下幾個方面。

  (一)數字化本身的障礙

  作為一般科研人員,在使用現有數字化成果時,恐怕最多的還是它的全文檢索功能。但是,檢索功能因數字化本身的技術障礙而產生許多問題。國家圖書館副館長陳力先生曾對這個問題進行了深刻的分析,指出古籍數字化漢字處理中的問題:(1)異形字處理;(2)避諱字處理;(3)通假字處理;(4)Unicode中的漢字編碼及其相關問題。其結論是目前全文檢索功能并不完善。如《四庫全書》電子版,檢索時容易產生“噪音”。例如,檢索乾清宮之“乾清”二字,將同時檢索“軋”、“乾”、“干”、“”和“清”、“氵乾”、“請”,其中“氵乾”就是“清”的變體字。查詢結果如下:除了“乾清”二字被查到外,還有“干請”與“干清”被查到。又如,檢索“分類”,將同時檢索“分”、“兮”、“匪”和“類”、“”,其結果是,查“分類”與查“匪類”是一樣的結果,都是相同的1304條。其中“分”與“兮”根本就是兩個不同的字。[1]筆者在使用時,也發現類似問題。比如《四庫全書》中有不少因避諱產生的字體,如“玄”字最后一點的缺筆。在檢索的時候沒有問題,可是復制時由于字體識別技術問題,難以顯示出來,在windows系統中,往往只是出現字符“□”。

  另外,由于古籍的裝幀與排版形式給數字化工作帶來困難,古籍特殊的材料構成和文物價值間接地阻礙了數字化工作的進展,古籍在流傳過程中出現亡佚現象等方面的原因,數字化工程還存在很大的拓展空間。因此,從絕對數量上來看,數字化古籍并不能解決所有問題,這也使它的檢索功能大打折扣。

  (二)研究性質差異

  全文檢索功能無疑有助于類似于辭書編纂、古籍整理以及一些需要量化數據的研究工作。但是,全文檢索只能提供基本數據,依賴檢索并不能完成所有工作。其原因是多方面的,比如對檢索內容的理解,各學科研究性質的差異等等,都導致文獻利用方面問題的產生。

  如果對檢索內容理解出現偏差,其結果不全面。舉例來說,比如唐太宗貞觀年間將史館獨立出來,對中國史學產生十分重要的影響。如果研究唐代史館與史官,對監修制度的考察不可或缺。僅僅利用檢索系統查詢相關文獻,那是完全不夠的。原因是文獻中“監修國史”的使用較為混亂,有監修國史、兼修國史、修國史等多種稱謂,而其內涵則不完全相同。[4]40-44如果僅輸入“監修”或“國史”來查詢,其結論因缺漏過多而不可信。

  上述偏差還屬于淺層次的。進一步來說,古代文獻因古漢語特性,往往簡略,事物之間的聯系隱藏于字面背后,需要大力爬梳剔抉,厘清頭緒,方可還其本來面目。比如考察中唐詩人孟簡生平,兩《唐書》均只言進士第,登宏詞科,累官倉部員外郎,而登第時間及登第后任職都沒有記載。要弄清楚這些,恐怕很難依靠檢索來完成。考《全唐詩》卷379孟郊《送從叔校書簡南歸》及同卷《感別送從叔校書簡再登科東歸》:“長安車馬道,高槐結浮陰。……菱唱忽生聽,蕓書回望深”,知孟簡為秘書省校書郎。據《舊唐書·孟簡傳》:“擢進士第,登宏詞科”,知孟簡再登宏詞,孟郊在長安送別。又據《全唐詩》卷372孟郊《貧女詞寄從叔先輩簡》,知簡登第先于郊。再據《登科記考》卷十三,郊貞元十二年登第,貞元十六年選為溧陽尉,離開長安。則知孟簡仕進之初期經歷是:約在貞元十二年前進士及第,及第后除授秘書省校書郎,最遲在十六年參加博學宏詞科考試。這個結論,當然可以借助檢索系統,但其內在聯系的推理,則不是全文檢索能夠完成的。

  孟簡初期任職經歷的考察,還可以部分借助檢索系統。但對于“隱性材料”,則無法檢索。比如李清照《武陵春》詞作年的考訂,就無法利用全文檢索。《武陵春》作于金華沒有爭議,但創作時間不能確定。有關李清照去金華次數的材料僅有兩則,一是《打馬圖序》所說的紹興四年十月,一是《金石錄后序》記載的紹興元年春由衢赴越。人們一般根據前一則材料認為此詞作于紹興五年(1135)。可是卻忽略了后一則隱性材料,原因是《金石錄后序》“庚戌十二月,放散百官,遂之衢,紹興辛亥(即紹興元年)春三月復赴越”這一段,隱藏了從衢州到越州,婺州(州治在金華)是必經之地這一事實。如果缺乏相關地理知識,又不能合情合理地去理解《武陵春》的內容,就很難得出這首詞寫于紹興元年(1131)的結論。雖然此結論并不一定完全確立,但亦可備一說。[5]由此可見,要真正還原歷史,光依靠檢索查詢的方式相當困難。

  上述三個例子,由淺入深地討論了全文檢索的價值。旨在說明:中國古代文獻,由于漢語的模糊性和不確定性,容易產生歧義,字面所反映的并不一定就是事物的真實意義,如果要了解事物的全部內容,則必須從字里行間去尋找“言外之意”或者“微言大義”。這警示我們,在利用數字化古籍時必須格外的小心謹慎。

  (三)數字化引起思維方式的改變

  古籍數字化對學術研究產生積極作用,極大地推進了學術活動的深入,給科研注入了創新活力,這些都是業已存在的事實。我們認為,學術研究中最基本的素養就是要善于反思。反思的重要性在于利用檢討的手段達到改進和完善的目的。事物具有兩面性的真理告知我們,古籍數字化也是一柄“雙刃劍”,看到“利”的同時不能忽略其“弊”。因此,我們應認真對待數字化時代因閱讀和寫作方式的變化所導致的思維方式的改變。

  閱讀方式傅斯年先生曾主張,上窮碧落下黃泉,動手動腳找資料。重視第一手材料的學術傳統,影響到學者的閱讀方式。在前計算機時代,邊讀書邊作卡片,幾乎是所有先生對弟子的最基本的要求。眾所周知,錢鍾書先生著述《談藝錄》、《管錐編》是在幾大麻袋筆記的基礎上完成的。任半塘先生當年在四川大學,用以作筆記的紙片竟然大多是舊報紙和廢日歷。在這樣艱苦的條件下,任先生完成了《唐聲詩》和《敦煌歌辭總編》等著作。除卡片式記錄之外,另一種重要的閱讀方式是邊讀邊作批注,這個傳統由來已久,明代李贄、金圣嘆,清代脂硯齋都是著例。馬茂元先生講到祖父抱潤公手批韓集時十分動情,說:“曩余于家中藏書得先大父抱潤公批校東雅堂本《韓集》一部,朱筆細字,遍布書中,手澤所存,珍護靡已。”[6](敘例)

  傳統閱讀的筆記和批注,數字化古籍基本上也可以做到,在形式上它們沒有截然的分別,但是兩者的本質并不相同。紙質書籍無論是裝幀排版還是具體內容,其直觀性都和電子版圖書不一樣。紙質圖書閱讀過程中的翻頁動作,以及油墨香味都是電子圖書所沒有的。這些看似表面的變化,實質上能引起思維方式的改變。蘇東坡在《又答王庠書》里說:“書富如海,百貨皆有。人之精力,不能兼收盡取,但得其所欲求者爾。故愿學者每次作一意求之。如欲求古今興亡治亂,圣賢作用,但作此意求之,勿生余念。又別作一次,求事跡故實;典章文物之類,亦如此。他皆仿之。”后人視之為“八面讀書”或“一意求之”讀書法。東坡讀書之法,實際上告訴人們,傳統閱讀的筆記和卡片中已暗含著讀者的思考,隱藏著讀者對事物的認識態度和分類意識。每次求一物,勿作它想,這與電子檢索查詢之間的差異何止十萬八千里。

  寫作方式前計算機時代的寫作和古籍數字化時代的寫作相較,表面形式的不同是前者不具備后者超強的剪切和拷貝功能,其實質區別是由功能引起的構思的變化。紙筆書寫和鍵盤敲打到對文章構思的影響是不一樣的,主要因為前者調整難度較大,而后者則隨著寫作進度隨意調整。即就是拼湊文章而言,前者必須具備剪刀和糨糊兩種實物,而后者則只需要“Ctrl+X”、“Ctrl+C”、“Ctrl+V”幾個鍵盤就可以任意拼湊了。打個不完全恰當的比方,好比建房子,紙筆時代要通盤考慮,先打好基礎,畫好圖樣,準備充足的材料才能開工。而數字化時代某些“大膽的建筑商”只要有構思就可以開工,沒有材料,邊建邊找,所缺材料只要利用數字化古籍的全文檢索基本上都能找到。以這種方式建筑的房子,其質量可想而知。

  (四)正確利用

  分析古籍數字化利用應注意的問題,還應指出解決方法。我們認為,只有正確的觀念才能引導正確的利用。根據以上分析,在學術研究過程中,電腦和人工智能永遠只是一種輔助工具,而不能成為學術本身。學術研究中問題意識非常重要,而自覺的問題意識表現在“善于從大量原始文獻中發現問題和解決問題,尤能從無疑處質疑,廓清許多積非成‘是'之點。”[7]序章原始文獻、質疑精神、廓清是非等都是培養問題意識的基礎,決不是依賴電腦檢索系統所能解決的。

  以解決問題為核心的學術研究,計算機和人之間的權界其實是不存在的。因為“人類智能的本質特征和最高表現形式是創造。計算機人工智能模擬人的智能,其難點不在于人腦所進行的各種必然性的演繹推理,而是最能體現人的智能特征的創造性思維,是那些具有某種不確定性的歸納、類比以及模糊推理等,包括學習、修正、推理、復雜條件下的判斷等。”[8]也就是說,計算機雖然在一定程度上能夠模擬人的思考,甚至在某些方面要比人強得多,但是它不具備人類最本質的創造性思維。舉例來說,比如校勘工作,在辨別不同版本文字異同方面,可能計算機要比人完成得更好。但一般的校勘,在比較文字異同之外,判斷是非更為重要。這種判斷是非的能力決不是設計某種電腦語言程序所具備的,因為這需要深厚的學術涵養和學術積累。

  學術研究在某種程度上來說,就是對歷史信息的處理。歷史信息基本上有三種形態:原初形態、歷時性形態、個性化形態。我們很贊成這樣的觀點:有深度的分析研究,其實應該是在這三者相互滲透和互動的基礎上形成的,在這種相互滲透和互動的過程中,電腦及其分析能力和方法可能永遠只是一種工具而不可能成為這種互動關系的組織結構本身。[3]

  在觀念修正之外,還要積極借鑒古籍數字化所體現出來的方法、理論和手段。這就是筆者曾經一再強調的創建個性化、私人化,具有特色的數據庫。拙文《數據庫與古代文學研究》就借鑒古人編纂類書的方法建立數據庫展開討論,認為“可以在電腦中依據個人的需要創建各種文件夾,這相當于《北堂書鈔》所分的‘部',也相當于白居易(《六帖》)的七層架子。在文件夾之中又可以根據需要創建許多文檔,這些文檔相當于《書鈔》的‘類'和白居易的‘陶家瓶'。在每類之下我們可以精括摘錄內容標出小標題,所摘錄之內容注明出處。”[9]依據這種方法建立起來的數據庫,同樣具有檢索功能。當然,這種方法對于經常使用電腦的人來說并不是難事。

  筆者想強調的是,現代學術研究應該從古籍數字化過程中得到方法和理論上的啟發,并為我所用。我們以戴偉華先生《地域文化與唐代詩歌》為例來說明。唐代文學研究中地域文化視角得到了應有的重視,歸納起來大致有六個層面:(1)以本貫、占籍為切入點;(2)以隸屬階層為切入點;(3)以南北劃分為切入點;(4)以文人的移動路線為切入點;(5)以詩人群和流派為切入點;(6)以文化景觀為切入點,等等。那么,面對這樣豐碩的成果,要從詩歌自身來討論地域文化問題有相當的困難。如果以詩歌創作為本位切入地域文化與唐代詩歌研究,可能會更貼近唐詩的實際。正是基于這樣的考慮,戴先生從唐詩創作地點切入,花費大量時間創建兩個必備的數據庫,一是《唐文人籍貫數據庫》,一是《唐詩創作地點考數據庫》。在此基礎上,戴先生將過去主要以詩人籍貫為主的分析,轉換為以詩歌創作地點為主的地域文化與文學的研究。[10]

  因此,對數字化古籍正確利用必須注意兩點:一是觀念上的工具本位意識,一是借鑒其理論方法,創建個性化數據庫。我們認為,只有在這樣的前提下才可能更有效地將古籍數字化成果與學術研究緊密結合起來,推動學術發展。

 

  綜上所述,我們得出這樣一個結論:古籍數字化發展到今天,雖然時間不長,但成果顯著。這意味著現代學術研究獲得新的生命起點,在古籍數字化時代,學術轉型是無可逆轉的大趨勢。我們最為關注的是現代信息技術與學術研究之間互通互動的問題。根據分析,由于數字化本身的障礙、研究性質的差異,數字化引起思維方式的變化諸方面的因素,在文獻利用時不得不具審慎的態度。一方面,我們期待更好更多的數字化成果;另一方面,我們認為應堅持現代信息技術工具本位,同時積極借鑒數字化的方法理論,創建能為我所用的獨具特色的數據庫。

參考文獻

[1]陳力.中文古籍數字化的再思考[J].國家圖書館學刊,2006(2).

[2]龔婭君、劉春金.中文古籍數字化建設[J].浙江大學學報(人文社會科學版),2006(1).

[3]李鐸、王毅.關于古代文獻信息化工程與古典文學研究之間互動關系的對話[J].文學遺產,2005(1).

[4]吳夏平.唐代中央文館制度與文學研究[M].濟南:齊魯書社,2007.

[5]戴偉華.李清照〈武陵春〉詞應作于紹興元年考——兼說‘隱性'材料的價值和利用[J].學術研究,2003(3).

[6]馬其昶.韓昌黎文集校注[M].上海:上海古籍出版社,1987.

[7]李浩.唐代三大地域文學士族研究[M].北京:中華書局,2002.

[8]鄭永曉.古籍數字化與古典文學研究的未來.[J].文學遺產,2005(5).

[9]吳夏平.數據庫與古代文學研究[N].光明日報,2004-09-29.

[10]戴偉華.地域文化與唐代詩歌[M].中華書局,2006.

注釋

Unicode給每個字符提供了一個唯一的數字,不論是什么平臺,不論是什么程序,不論什么語言。比如,簡體中文(GB)、繁體中文(BIG5)、日文中,“趙”都是一個字,但是編碼不同。在不同的編碼下,BIG5的趙是0xBBAF,而0xBBAF在GB里面就被顯示為“化”,這就是亂碼。而Unicode采用統一的編碼,“趙”只有一個,不必管他在哪種文字里。

 

作者簡介】吳夏平,1976年生,男,江西都昌人,貴州師范大學文學院副教授,博士。研究方向:中國古代文學與文化。

 
主站蜘蛛池模板: 龙江县| 浦城县| 哈巴河县| 宜宾县| 海伦市| 孟连| 张家港市| 泉州市| 柯坪县| 哈尔滨市| 金沙县| 佳木斯市| 建水县| 永定县| 房产| 英山县| 凭祥市| 长宁区| 营口市| 西宁市| 无锡市| 溆浦县| 姚安县| 大港区| 原阳县| 宜都市| 石林| 蚌埠市| 察哈| 石柱| 兴安县| 彭州市| 济源市| 弋阳县| 珲春市| 彝良县| 太谷县| 巴林左旗| 修水县| 义乌市| 化德县|