午夜精品免费视频,亚洲区欧美区,久久成人精品视频,成人免费网站观看

中文古籍數字化方法之檢討

陳力
（研究館員國家圖書館副館長）

　　【內容提要】自上世紀八十年代古籍數字化開始出現到今天，成績斐然，但也存在不少問題，如缺乏整體規劃與協調，相關技術標準與規范不統一，對古籍數字化工作的特點認識不足，對古籍數字化工作的定位不夠明確。古籍類型多樣，形式與內容有非常密切的關系。根據不同古籍的不同特征選擇適當的技術，知識組織模式進行數字化以完整，準確地反映不同類型古籍中所蘊含的信息是提高古籍數字化水平的關鍵。同時，古籍數字化工作是數字圖書館建設的重要組成部分，因此應該遵循數字圖書館建設的一般規則，古籍的特殊性應該在統一標準規范的框架下進行細化，應該采用開放式的，分層次的，結構化的數據庫來組織和揭示資源，應該特別注意在古籍與古籍之間，古籍與現代普通圖書之間建立起有機的聯系，以為讀者提供一個完整的知識體系。

　　【關鍵詞】古籍；數字化；數字圖書館

　　從上一世紀八十年代中文古籍數字化開始出現到今天，已經有二十多年歷史了。在臺灣地區，從八十年代開始，一些學者和研究機構就已經著手研發以古籍為主的資源庫，如羅鳳珠先生的“《紅樓夢》網絡教學研究數據中心”，《全唐詩》，《全宋詞》，《宋代名家詩》網絡版等。在機構方面，臺灣中央研究院研發的“翰典全文檢索系統”[1]，它不僅收錄了不少重要的典籍，同時其強大的文本檢索功能也給讀者利用古籍帶來了全新的感受。臺灣漢學研究中心制作的“善本叢刊影像先導系統”等也已陸續提供服務[2]。CBETA中華電子佛典協會的“在線藏經閣”，已經完成了《大正新修大藏經》，《續藏經》以及一些佛教參考文獻和工具書的數字化，并提供免費下載服務[3]。近年，臺灣有關機構提出了一個龐大的“數位典藏計劃”，其制作單位涵蓋圖書館，博物館，研究機構等，與古籍有關的內容包括：善本古籍典藏數字化，金石拓片典藏數字化，古籍附圖典藏數字化以及“臺灣地區地方文獻典藏數位化”和“期刊報紙典藏數位化”等等[4]。

　　在香港地區，香港中文大學中國文化研究所先后推出了先秦兩漢，魏晉南北朝古籍數據庫以及竹簡帛書和甲骨文數據庫，成績也相當可觀。

　　在國外，日本，美國，英國等也都在中文古籍數字化方面作了大量工作，如國際敦煌學項目作為一個國際合作性質的中文（包括一些中國古代少數民族文字）古籍數字化項目[5]，目前已經取得令人矚目的成果。

　　大陸地區的古籍數字化工作也開始于八十年代，到八十年代末，也取得了一些成績，但當時大部分的工作主要還是在學者的書齋中進行的，并沒有對社會產生太大的影響。進入九十年代以后，隨著計算機的普及及網絡技術的發展，古籍作為一種重要的民族文化遺產，受到了高度重視，因此在一些讀書網站中，如“黃金書屋”，“新語絲”等就已經有了相當數量的古籍，內容包括古典小說，歷代史籍，儒家經典和諸子等等，數字化的形式主要是人工輸入的一般電子文本。

　　九十年代中期以后，一些大的出版機構，學術機構和商業公司介入了古籍的數字化工作，古籍數字化的規模迅速擴大，例如中國國家圖書館制訂了一個龐大的古籍特藏文獻的數字化計劃[6]，包括：“碑帖菁華”[7]，“西夏碎金”[8]，“敦煌遺珍”[9]，“數字方志”[10]以及甲骨文，《永樂大典》等，其中有些項目已經完成，其成果可以通過網絡為讀者提供服務，有的項目正在進行中。北京大學正在進行的《中國基本古籍光盤庫》，計劃收錄古籍一萬種。北京大學圖書館推出了“秘籍琳瑯”項目[11]，中華書局正在進行中華古籍語料庫的建設，上海人民出版社與迪志文化出版有限公司合作推出了文淵閣《四庫全書》全文檢索版，書同文數字化技術有限公司推出了《四部叢刊》的全文檢索版[12]，國學公司推出了《國學寶典》等系列產品[13]。

　　在上述的古籍數字化項目中，或以文獻特色勝，或以數量勝，或以使用功能勝。可以這樣說，在公開的中文文獻數據庫中，無論是數量還是采用的技術手段，古籍數字化工作所取得的成就都是最為耀眼的。

　　中文古籍數字化工作如何在現有的基礎上繼續向前發展這需要對以往的工作進行一番總結，特別是通過對存在的問題的分析，找到解決問題的方法，找到繼續向前發展的方向與突破點。下面，我們重點就大陸地區古籍數字化的現狀和存在的問題稍作檢討。

　　目前，中國大陸古籍數字化工作除古籍愛好者和研究者零星進行的古籍數字化工作以外，成規模的數字化工作基本上是由三種類型的機構來進行：一種類型為教學和研究機構，一種類型為圖書館，還有一種類型則是商業機構。這三種類型的機構在進行古籍數字化時是各有其特點的：

　　教學和研究機構對數字化對象選擇目的性強，數字化的目標及方法主要是根據教學和研究工作需要來決定，例如中國社會科學院的數字化項目包括：《全唐詩》，《先秦魏晉南北朝詩》，《全上古三代秦漢三國六朝文》，《十三經》，《全唐文》，《諸子集成》等等，北京大學的《全宋詩》等皆是如此。

　　圖書館所進行的古籍數字化，則主要是根據其館藏特色來進行，如中國國家圖書館，北京大學圖書館的古籍數字化項目基本上是按這個原則來規劃的。

　　至于商業機構，其古籍數字化的內容主要是根據市場來決定的，哪一類文獻有市場，就進行哪一類文獻的數字化。考慮到市場的運作，常常會選擇大型類書，叢書，如《古今圖書集成》，《四庫全書》，《四部叢刊》等等。

　　不同類型的機構根據自己的情況進行有特色的數字化對于推進古籍數字化的工作無疑是必要的，但是，其中所存在的一些問題也不可忽視，有些問題已經引起了人們的注意[14]，而有些問題還沒有引起足夠的重視。

　　中國古籍的數字化是一項中華文化遺產的保護和弘揚工作，具有強烈的公益性色彩，需要各方面加強協調，有一個整體的規劃。整體規劃不僅包括數字化對象的內容確定和合作分工，同時包括相關標準，規范的統一，而恰好這兩方面的問題在目前古籍數字化工作中表現最為突出。

　　就協作方面的問題而言，主要是關注焦點過于集中，重復建設。

　　中國古籍的數字化目前是各自為陣，雖然數量已經不少，但關注的焦點過于集中，并且多數都帶有商業色彩或者追求規模與宣傳效應，致使古籍的數字化集中于"少數"常用特別是叢書類的古籍，而一些學術界需要的古籍鮮有顧及。例如文淵閣《四庫全書》先后已有三家進行過影像的數字化（上海人民出版社與迪志文化出版有限公司的光盤版，武漢大學出版社的光盤版，“中美百萬冊書數字圖書館”的網絡版等），一家進行了影像，全文文本的數字化（上海人民出版社與迪志文化出版有限公司的網絡版），此外還有一些機構曾經也進行過相同的工作，只是由于各種原因最后沒能面世。至于像二十五史這類規模稍小但更常用的文獻，其數字版本就更多了。

　　就標準，規范方面的問題而言，由于制作單位不同，各自的利益不同，所制作的古籍數據庫常常是封閉的，在技術上很難與其他數據庫融為一體，造成知識體系的割裂。同時，出于保護各自的知識產權或有利于產品占領市場，不少機構并不采用通行的工業標準，而是自行設定相關的數字化加工與組織標準。

　　上面所提到的問題，無論是協作還是標準與規范，都是屬于表面層次的問題，是比較容易發現的，而另外一些問題常常被人忽略，但就其性質而言，更應引起我們的重視：

　　第一，對古籍數字化工作的特點認識不夠。古籍較之其他類型文獻有什么特點如何在數字化時體現這些特點

　　第二，對古籍數字化工作的定位不夠明確。古籍數字化與其他文獻的數字化是什么關系它在整個數字圖書館建設中處于什么樣的地位作為文獻的一種類型，古籍的數字化與其他文獻的數字化相比，有其共性，但也有其個性，為了體現這些個性，需要我們采取一些特殊的加工手段和技術措施。因此，根據古籍的特點來進行數字化是提高古籍數字化水平最主要的途徑。

　　如何進行古籍的數字化海內外已有不少學者對此進行過專門研究，不過討論主要集中在漢字字符集，OCR識別及版面還原和全文檢索等方面。隨著計算機技術的發展，上述問題已經不再是什么大問題了，因此，已有學者開始從更廣的角度提出了對古籍數字化更新的功能需求。北京大學李國新教授提出：第一是必須實現文本字符的數字化，第二是具有基于超鏈接的瀏覽閱讀環境，第三是具有強大的檢索功能，第四是具有研究支持功能。

　　李國新教授所列前三項是一般文獻數字化都應該具有的，也就是說，并非古籍的特性。關于第四項，李國新教授提出的具體內容是：“所謂'研究支持功能'是指能夠提供有關古籍內容本身科學，準確的統計與計量信息，提供與古籍內容相關的參考數據，輔助工具。這些信息，數據或工具都是古籍內容的增值或補充。比如古籍字數，字頻，詞頻的統計資料，異體字的匯聚顯示，讀音的自動標注和朗讀，行文風格特點的概率統計，必要的背景知識，參考數據的匯聚，在線標點斷句工具的配備，不同版本比勘校對接口的設置，字典詞典，歷史年表，歷史地圖等研究工具的載入，等等。”[15]的確，近年來不少機構在進行古籍數字化時，都將注意力逐漸集中到了李國新教授所提到這些方面，在進行數字化時比較注意相關工具的開發。

　　除了對相關工具的研發以外，在古籍數字化方面我們還能作些什么也有人提出希望建立古籍整理的專家系統，以實現古籍版本的自動校勘，自動查錯，自動斷句標點，自動注釋，自動翻譯為白話[16]等等。數字技術能否取代人腦進行上述有些明顯屬于思想層次的工作，目前我們并不敢抱太多的幻想[17]，不過，今天數字化技術的進步的確已經為我們從更廣的領域，更深的層次進行文獻加工整理從而向讀者提供全新的服務提供了可能。

　　在紙本時代，我們對文獻的認識與管理主要是針對其物理形態進行的，至多我們能夠對其主要內容進行一些抽象的描述。在數字化時代，我們對文獻的管理，已經突破了文獻的物理形態深入到了它所包含的信息單元，并且能根據我們對這些信息單元的理解與把握將之進行分合，重組，以向讀者提供針對性更強，內容更豐富的信息服務，而在進行信息單元的分合，重組時，首先面臨的就是對加工對象特點的正確把握與處理。

較之其他類型的文獻，古籍有什么特點

　　古籍的特點，首先是版本的問題，包括古籍版本的選擇問題，古籍版本的比較問題，已有古籍研究成果的利用問題以及一些因古籍的特殊性而產生的全文檢索與規范控制等問題。

　　關于古籍的版本選擇，這是古籍整理與數字化首先要遇到的問題。在傳統的古籍整理，研究工作中，它就是學者們普遍遵循的原則之一。就目前的古籍數字化現狀而言，由于種種原因，一些機構在進行古籍數字化工作時，通常喜歡選擇叢書或易于獲得的文獻，而不是根據版本的優劣來選擇，其造成的后果就是已經數字化的古籍并不是最好的版本，這自然會極大的影響質量。因此，今后的古籍數字化應該聘請專家對古籍的版本進行篩選，盡量選擇好的版本進行數字化。

　　與古籍版本選擇直接相關的就是古籍版本的比較問題。許多古籍都不止一個版本，雖然我們可以勉強說某種古籍的某個版本比較好，但這并非絕對的，因為不同版本之間的異同也許互有短長。同時，根據對不同版本異同的分析我們也許能從中了解更多，更重要的信息。因此，版本的比較在古籍的整理工作中是非常重要的。在利用紙質文獻時，我們常常會搜集不同的版本進行比勘。在數字化時代，直接采用掃描的數字化影像文獻由于閱讀不便，因此即使我們有了不同版本的數字化影像文獻，但使用起來會非常困難，遠不如紙質文獻。如何利用現代信息處理技術來處理不同版本的比較問題將是我們今后必須考慮的[18]。

　　全文檢索是古籍數字化進程中最先受到重視的技術。簡單的全文檢索在幾乎所有的文本編輯和對象數據庫中都能實現，但從目前國內幾種使用最普遍的古籍數據庫的情況來看，一個比較大的問題就是如何處理古籍的繁簡字，異體（形）字，俗字的識別與檢索問題。由于在進行大規模的古籍漢字識別時，需要高水平的專家對文字把關，但在實際工作中做起來是非常困難的，一些大型古籍數據庫在制作時，操作人員限于水平，不能識別古籍中的異體（形）字，俗字，不得不“依樣畫葫蘆”，其結果就是大量生造Unicode表外字，不僅在檢索時一個字列出一大堆繁簡字，異體（形）字，俗字，生造字，增加了檢索"噪音";同時，由于大量生造的Unicode表外字，也增加了數據庫在開放，共享方面的困難。

　　在中文數字化工作中，為了提高檢索效率，防止過多的“噪音”，因此人們非常重視漢字的標引特別是詞典切分標引。詞典切分標引對于現代文獻可能相對較易，但由于古籍及古代漢語的復雜性，在實際工作中做起來是非常困難的，它不僅要解決防止“噪音”過多的問題，還要解決字，詞在特定的語境中含義不同的問題，這已經屬于人工智能的范疇了。此外，還有一些問題需要解決，如同書異名，同名異書，同一作者有不同的稱謂，其他如職官，地名，事件名等都與現代很不相同，例如“李世民”=“唐太宗”，“南京”=“天京”（太平天國），“太平天國起義”=“洪楊之亂”等，非常復雜，這是一個尚待研究的課題。這些問題有的在傳統的文獻整序時已經有了解決的辦法，也就是我們在文獻編目時經常要提到的"名稱及主題規范"，"權威檔"（Authority），通過對文獻進行規范控制，我們可以基本上解決一般性的異名問題。但是，由于古籍的數字化同現代文獻編目不同，它主要是對文獻內容的數字化處理，而不是對文獻某些特征的抽象性描述，有些問題可能需要建立一些知識性的支撐數據庫（或工具庫）來解決，如對古籍中地名，職官名的處理。以地名為例，古籍中的地名與今天的地名很不相同，一地有數名，一地的四至（范圍）在不同時代各不相同等等，這使得古籍中的地名規范處理起來非常困難，因此，建立一個以現代地理信息系統（GIS）的方式構建的古代地理信息系統就非常必要了，作為全國乃至全世界同行在進行古籍數字化時通用的知識性支撐系統，這個系統并不是簡單附上一個電子地圖，而應該根據文化的或行政的區劃變遷繪制不同的地圖，以正確地反映不同時代文化，政治地理的變遷情況，同時輔以古代地名規范數據庫。這將是一項極為浩大的工程，需要各方協作。目前，大陸，臺灣以及美國的一些學術研究機構已經開始了中國古代地理信息系統的研制，中國國家圖書館也開始了古籍地名，人名等規范數據庫的制作。

　　關于古籍數字化工作的定位，所涉及的問題更為復雜。就目前的情況而言，中文古籍數字化的成果，無論其制作機構是什么，讀者大多是通過圖書館或其他一些文獻收藏或傳播機構來利用的。由于不同古籍數字化制作機構各有其考慮，各有其利益，因此在標準與規范方面難以統一，獨立成庫，互不開放，不僅難于與其他古籍數字化項目共享資源，也很難納入各圖書館整個的文獻資源體系之中。

　　我們認為，古籍是人類整個知識體系中的一個組成部分，古籍不應該與現代普通文獻割裂開來。數字化文獻只是我們對文獻的一種處理方式，數字化的文獻也不應該與非數字化的文獻割裂開來。因為，至少在可以預見的將來，我們不可能將所有文獻數字化，一個完整的文獻信息體系將同時涵蓋數字化和非數字化的文獻。我們可以通過數字化的手段，如現在一般圖書館都已廣泛應用的計算機機讀目錄將數字化與非數字化的文獻連接起來，從而構成一個完整的知識體系。因此，我們希望在一個通用的平臺上，讀者既可以進行一般性的書目包括現代圖書與古籍的查詢，同時根據需要可以直接切換到古籍甚至相關的現代研究性著作的全文上，如果再加上一些相關的知識性輔助工具，將使讀者對古籍的利用進入一個新的境界。

　　古籍數字化工作是數字圖書館建設的重要組成部分，因此應該按數字圖書館的模式去組織，加工，發布。古籍數字化應該是以開放式的，分層次的，結構化的數據庫來組織與揭示，在進行數字化加工時應遵循與現代圖書統一的標準規范，古籍的特殊性應該在統一標準規范的框架下進行細化。各機構之間或同一機構不同的數字化項目之間，可以通過某種形式的共享協議或技術，使所有的資源能夠在同一平臺上使用并互相調用。同時，在大多數情況下，古籍與現代圖書的知識庫應該是可以共享的，如字典，歷史年表，紀年換算，歷法換算，各類規范數據庫，地理信息系統等等。

　　如前所述，版本問題是古籍數字化工作中一個非常重要的問題，除了選擇好的版本以外，如何讓讀者能夠方便地了解和使用該書的其他版本，或者雖然不同書，但卻有相同，相近，相關內容的文獻，這也是我們在進行數字化時應該考慮到的。我們當然可以在進行數字化時就將一部書的不同版本一起數字化，但在實際的操作中，這卻是很難辦到的，在很多情況下，也是不必要的。要解決這個問題，應該將單種的古籍置于一個更龐大的古籍資源體系中來考慮，如果我們在進行數字化時遵循一定的標準，規范，遵循開放性原則，相信可以通過一定的檢索手段與內容關聯方法給讀者提供版本和內容比勘的方便。

　　從2002年開始，由科技部委托國家科技圖書文獻中心協調，中國科學院文獻情報中心，中國科學技術信息研究所，國家圖書館，CALIS管理中心，北京大學圖書館，上海圖書館等21家單位聯合

　　進行了數字圖書館的相關標準規范研究[19]，其中直接與中文古籍有關的包括：《輿圖描述元數據著錄規則》，《輿圖描述元數據規范》，《拓片描述元數據著錄規則》，《拓片描述元數據規范》，《家譜描述元數據著錄規則》，《家譜描述元數據規范》，《古籍描述元數據著錄規則》，《古籍描述元數據規范》，《地方志描述元數據著錄規則》，《地方志描述元數據規范》等等。此外，還制訂了不同類型數字資源的加工標準和規范，如對古籍，拓片，輿圖，字畫，手稿，文牘，契約以及甲骨，金石，竹簡，陶器等實物的三維造型等等。目前，這些標準，規范正在測試之中。我們相信，如果在古籍數字化工作中遵循一定的標準規范，不僅會有利于古籍數字資源的共享，同時，對于古籍內容深層次的揭示，版本的比勘等等都具有重要的意義。

　　古籍數字化工作是一項系統工程，無論是從項目規劃還是到社會資源的共建共享，都需要以協作和開放的精神來開展工作，不僅在標準與規范上需要協作與開放，在古籍數字化的體系結構上需要協作與開放，在項目的規劃與實施上更需要協作與開放。只有集中各方面的智慧與資源，才能使中華民族的文化遺產得到全面的繼承與弘揚。

【注釋】

[1]http://www.sinica.edu.tw/ftms-bin/ftmsw3，查詢于2005年5月12日。

[2]http://www.ncl.edu.tw/f89.htm，查詢于2005年5月12日。

[3]http://ccbs.ntu.edu.tw/cbeta/result/index.htm，查詢于2005年5月12日。

[4]http://www.ndap.org.tw/，查詢于2005年5月12日。

[5]http://idp.bl.uk/，查詢于2005年5月12日。

[6]http://www.nlc.gov.cn/nav/insite.htm，查詢于2005年6月7日。

[7]http://202.96.31.42:9080/ros/index.htm，查詢于2005年5月12日。

[8]http://202.96.31.42:9080/wenxian，查詢于2005年5月12日。

[9]http://idp.nlc.gov.cn，查詢于2005年5月12日。

[10]http://202.96.31.42/chronic/index.htm，查詢于2005年5月12日。

[11]http://rbdl.calis.edu.cn/index.htm，查詢于2005年5月12日。

[12]http://www.unihan.com.cn/html/index.htm，查詢于2005年5月12日。

[13]http://www.ffhyjd.com/cp/cpfront.htm，查詢于2005年5月12日。

[14]吳宣德：《古籍數字化：現狀，問題與趨勢——從一個使用者的角度看》，http://myqf.nease.net/gengyusuoji/guji.htm，查詢于2005年5月12日。

[15]李國新：《中國古籍資源數字化的進展與任務》，《大學圖書館學報》，2002年第1期。

[16]潘德利：《中國古籍數字化進程和展望》，《圖書情報工作》，2002年7期。

[17]關于這方面的問題，羅鳳珠先生曾有專文討論，參見《在因特網建立漢學研究環境的重要性及可行性——就中國文學而論》，《漢學研究通訊》，第16卷第1期，1997年2月；《臺灣地區中國古籍文獻資料數字化的過程與未來的發展方向》，《五十年來臺灣人文學術研究叢書——文獻學與圖書資訊學》，學生書局，2000年11月。

[18]高大威先生曾就此問題有專論，并提出了四種解決的方法，但其所謂最佳的二種解決辦法皆欲某一文獻的所有版本納入一個樹狀結構的數據庫之中，雖高先生也曾設想“在各古籍，各版本之間研發一套‘整合檢索'，‘交叉瀏覽'與‘原文比對'，‘隨選打印'等功能”，甚至“可另外研發古籍影像系統，兩相連結”，但其設計的思路仍是以封閉式的封裝數據庫結構為基礎，較之現代數字圖書館資源組織模式仍有較大差距，不過高氏的觀點仍是值得注意的。參見高大威：《漢籍電子數據庫建構方式之基本分析》，《文傳論叢——2002“第二屆漢文化數據庫國際學術研討會”論文集》，http://www.hanculture.com/file/20040421161330_05.pdf，查詢于2005年5月12日。

[19]http://cdls.nstl.gov.cn/cdls2/w3c/，查詢于2005年5月12日。

原載《國家圖書館學刊》2005年第3期

午夜精品免费视频,亚洲区欧美区,久久成人精品视频,成人免费网站观看