午夜精品免费视频,亚洲区欧美区,久久成人精品视频,成人免费网站观看

中文古籍?dāng)?shù)字化的成果與存在問(wèn)題

陳陽(yáng)
（作者單位：北京大學(xué)新聞與傳播學(xué)院）

　　摘　要：我國(guó)古籍?dāng)?shù)字化的發(fā)展過(guò)程依次經(jīng)歷了數(shù)據(jù)庫(kù)檢索系統(tǒng)、光盤(pán)版古籍、古籍網(wǎng)絡(luò)化三個(gè)階段，取得了豐碩的成果。數(shù)字化古籍具有檢索、輸出方便，有利校勘，功能多樣等優(yōu)勢(shì)，其制作技術(shù)也日臻完善，但問(wèn)題仍然存在。

　　關(guān)鍵詞：古籍　數(shù)字化　數(shù)據(jù)庫(kù)

　　浩如煙海的古籍資源是中華文明特有的存留，也是祖先留下的寶貴財(cái)富。據(jù)楊家駱先生1946年統(tǒng)計(jì)，僅西漢前至清末的古籍就有181755部。傳統(tǒng)的古籍整理主要依賴(lài)手工進(jìn)行，不但操作費(fèi)力、效率不高，而且成果的利用也存在種種困難。電腦和網(wǎng)絡(luò)的出現(xiàn)與普及，不僅為古籍資源整理提供了工具，而且為其成果的傳播提供了有效的媒介。有學(xué)者認(rèn)為，數(shù)字化將成為保存、整理和利用古籍資源的趨勢(shì)。

　　所謂古籍?dāng)?shù)字化，是利用現(xiàn)代信息技術(shù)將古代文獻(xiàn)轉(zhuǎn)化為電子媒體的形式，通過(guò)光盤(pán)、網(wǎng)絡(luò)等介質(zhì)保存和傳播。我國(guó)古籍?dāng)?shù)字化的發(fā)展經(jīng)歷了古籍?dāng)?shù)據(jù)庫(kù)檢索系統(tǒng)、光盤(pán)版古籍、古籍網(wǎng)絡(luò)化三個(gè)階段。

一、中文古籍?dāng)?shù)據(jù)庫(kù)

　　古籍?dāng)?shù)據(jù)庫(kù)檢索系統(tǒng)的開(kāi)發(fā)始于20世紀(jì)80年代初，主要是以數(shù)據(jù)庫(kù)的形式儲(chǔ)存古籍文獻(xiàn)的相關(guān)資料，作為古籍研究的輔助工具。它可以利用計(jì)算機(jī)在資料的儲(chǔ)存、整理、檢索、數(shù)據(jù)統(tǒng)計(jì)以及索引編制等方面的優(yōu)越性，改進(jìn)古籍文獻(xiàn)檢索方式，對(duì)古籍資源的研究和開(kāi)發(fā)非常有利。

　　最初的古籍?dāng)?shù)據(jù)庫(kù)主要是書(shū)目數(shù)據(jù)庫(kù)，它始于南京圖書(shū)館、遼寧圖書(shū)館、浙江圖書(shū)館等省市級(jí)大型圖書(shū)館，為方便讀者相繼建立了館藏古籍書(shū)目數(shù)據(jù)庫(kù)。目前，南京圖書(shū)館的古籍書(shū)目數(shù)據(jù)庫(kù)已經(jīng)建立了40萬(wàn)條中文古籍書(shū)目數(shù)據(jù)。該數(shù)據(jù)庫(kù)設(shè)有書(shū)名目錄、著者目錄、分類(lèi)目錄等，可以通過(guò)輸入古籍名稱(chēng)檢索該古籍的全部版本，也可以通過(guò)輸入著者名稱(chēng)檢索館藏全部相關(guān)書(shū)目。

　　比書(shū)目數(shù)據(jù)庫(kù)在技術(shù)上更進(jìn)一步的是全文數(shù)據(jù)庫(kù)，它將古籍資源全文錄入，轉(zhuǎn)化為電子文本，供用戶(hù)查閱，提供了一種以字符為主要處理對(duì)象，根據(jù)資料內(nèi)容而不是外在特征來(lái)實(shí)現(xiàn)檢索的先進(jìn)查詢(xún)手段。

　　在書(shū)目數(shù)據(jù)庫(kù)與全文數(shù)據(jù)庫(kù)檢索功能的基礎(chǔ)上，出現(xiàn)了綜合檢索系統(tǒng)。此類(lèi)系統(tǒng)在檢索性能上有了很大改進(jìn)，不僅實(shí)現(xiàn)了任意字、詞和字符串的檢索，還實(shí)現(xiàn)了按條件檢索。檢索的范圍不再局限于書(shū)目和文本，而是對(duì)古籍的標(biāo)題、詞句、注解等實(shí)際內(nèi)容進(jìn)行全面檢索。此外，綜合檢索系統(tǒng)還往往具有多種特色檢索功能和特定的輔助功能。例如，中國(guó)社科院的《全唐詩(shī)》數(shù)據(jù)庫(kù)檢索系統(tǒng)，不僅可供快速查檢《全唐詩(shī)》中任何作品的字、句、標(biāo)題、注解，還可以查找該作品在《全唐詩(shī)》中的冊(cè)、頁(yè)、行數(shù)。

表1　現(xiàn)有的部分中文古籍?dāng)?shù)據(jù)庫(kù)

數(shù)據(jù)庫(kù)名稱(chēng)	研發(fā)單位
《全唐詩(shī)》《先秦魏晉南北朝詩(shī)》《全上古三代秦漢三國(guó)六朝文》《十三經(jīng)》《全唐文》《諸子集成》數(shù)據(jù)庫(kù)檢索系統(tǒng)	中國(guó)社會(huì)科學(xué)院
《紅樓夢(mèng)》數(shù)據(jù)庫(kù)	深圳大學(xué)
《全宋詩(shī)》等古詩(shī)研究系統(tǒng)	北京大學(xué)
《全唐五代宋詞》檢索系統(tǒng)	南京師范大學(xué)
《全宋文》資料檢索系統(tǒng)	四川大學(xué)
宋人筆記檢索系統(tǒng)南宋主要?dú)v史文獻(xiàn)全文數(shù)據(jù)庫(kù)	河南大學(xué)
《古今圖書(shū)集成》索引續(xù)編	廣西大學(xué)
宋詞別集索引三種	湘潭大學(xué)
《史記》全文檢索系統(tǒng)	哈爾濱師范大學(xué)
《貞觀政要》綜合檢索系統(tǒng)	東北師范大學(xué)古籍整理研究所
漢及以前全部傳世文獻(xiàn)電腦化資料庫(kù) 魏晉南北朝全部傳世文獻(xiàn)電腦化資料庫(kù) 竹簡(jiǎn)帛書(shū)出土文獻(xiàn)電腦人資料庫(kù)	香港中文大學(xué)
古文書(shū)數(shù)據(jù)檢索系統(tǒng)	臺(tái)灣大學(xué)
漢籍全文資料庫(kù)《二十五史》《十三經(jīng)》和諸子數(shù)據(jù)庫(kù)	臺(tái)灣“中央研究院”歷史語(yǔ)言研究所
中文古籍善本書(shū)目數(shù)據(jù)庫(kù)	美國(guó)普林斯頓大學(xué)
先秦諸子百家全文檢索系統(tǒng)	挪威奧斯陸大學(xué)

二、光盤(pán)版古籍

　　所謂光盤(pán)版古籍，其實(shí)就是以光盤(pán)為載體的古籍文獻(xiàn)或古籍?dāng)?shù)據(jù)庫(kù)。前期的古籍?dāng)?shù)據(jù)庫(kù)往往只是某些單位或個(gè)人出于輔助研究工作或方便用戶(hù)考慮，自行開(kāi)發(fā)設(shè)計(jì)且僅在一定范圍內(nèi)使用的。隨著古籍?dāng)?shù)據(jù)庫(kù)優(yōu)越性的逐步展現(xiàn)和影響擴(kuò)大，出于保存、推廣古籍的愿望或者商業(yè)目的，光盤(pán)版古籍紛紛推出，成為當(dāng)前古籍?dāng)?shù)字化的主導(dǎo)方向。

　　現(xiàn)有的光盤(pán)版古籍一般有三種類(lèi)型：一是圖像版，它將古籍直接以圖像格式掃描存儲(chǔ)，有簡(jiǎn)單的標(biāo)題和分類(lèi)，但缺少檢索手段；二是全文版，它存儲(chǔ)的不再是圖像，而是數(shù)字化的古籍文本，是真正意義上的數(shù)字化圖書(shū)，可實(shí)現(xiàn)全文檢索與查找；三是圖文版，它在古籍書(shū)頁(yè)圖像存儲(chǔ)的基礎(chǔ)上，將書(shū)中具有檢索意義的內(nèi)容數(shù)字化，并輔以數(shù)字化的電子工具書(shū)，為讀者提供快捷有效的檢索、統(tǒng)計(jì)、整理和編輯功能。

　　圖像版是利用掃描技術(shù)將古籍以圖像方式存入光盤(pán)，技術(shù)簡(jiǎn)單、容易操作，而且可以保存古籍原貌，因而成為國(guó)內(nèi)采用較多的一種方式。1997年，武漢大學(xué)出版社推出的“四庫(kù)全書(shū)光盤(pán)版”就采用了這種技術(shù)。它以文淵閣本《四庫(kù)全書(shū)》為底本，將全書(shū)200余萬(wàn)頁(yè)逐頁(yè)掃描，并將“總目”手工錄入，壓縮到150張光盤(pán)中。

　　全文版以文本形式將古籍存儲(chǔ)于光盤(pán)上，并在全文檢索系統(tǒng)的支持下，對(duì)文本實(shí)行逐字逐詞檢索。它雖然不能像圖像版那樣保持古籍原貌，而且文字錄入的難度也相當(dāng)大，但由于具備方便快捷的檢索功能，且占據(jù)的存儲(chǔ)空間要遠(yuǎn)遠(yuǎn)小于圖像版，所以仍有較大優(yōu)勢(shì)。

　　圖文版的優(yōu)勢(shì)較之前兩類(lèi)更加明顯。其一，它既具備方便快捷的檢索功能，又能讓用戶(hù)得覽古籍原貌，這對(duì)研究者而言非常重要，因?yàn)楣偶脑济婷餐芴峁┖芏嘤杏玫男畔ⅲ黄涠谋句浫氩还苋绾涡?duì)都難免存在誤差，用戶(hù)可以對(duì)比圖像進(jìn)行查證；其三，當(dāng)前各計(jì)算機(jī)系統(tǒng)漢字字庫(kù)容量有限，出版者在錄入古籍文本時(shí)往往將異寫(xiě)、通假、避諱等生僻字用常見(jiàn)字進(jìn)行替換，研究者需要根據(jù)圖像來(lái)查看古籍原貌。香港中文大學(xué)的漢達(dá)古籍資料庫(kù)光盤(pán)便采用了圖文對(duì)照形式，它不僅收錄了140多萬(wàn)字的竹簡(jiǎn)帛書(shū)出土文獻(xiàn)，還可以在視窗系統(tǒng)上直接顯示簡(jiǎn)帛圖片和對(duì)照文本。

三、古籍網(wǎng)絡(luò)化

　　隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展和普及，古籍資源的網(wǎng)絡(luò)化也成為一種趨勢(shì)。它主要是將數(shù)字化的古籍資源在網(wǎng)絡(luò)上有償或無(wú)償發(fā)布，供互聯(lián)網(wǎng)用戶(hù)使用。例如，國(guó)學(xué)網(wǎng)就擁有《十三經(jīng)》《資治通鑒》《續(xù)資治通鑒》《楚辭》《全唐詩(shī)》《全宋詞》《人間詞話(huà)》《文心雕龍》《韓非子》《淮南子》等大量古籍的電子版。

　　網(wǎng)絡(luò)化是古籍?dāng)?shù)字化未來(lái)的發(fā)展趨勢(shì)。當(dāng)全國(guó)各主要圖書(shū)館實(shí)現(xiàn)古籍?dāng)?shù)字化以后，就可以建立以網(wǎng)絡(luò)為紐帶的古籍?dāng)?shù)字化地區(qū)聯(lián)合數(shù)據(jù)庫(kù)和全國(guó)性數(shù)據(jù)庫(kù)，甚至在全世界范圍內(nèi)實(shí)現(xiàn)共享。網(wǎng)絡(luò)化也能夠使更多人方便地閱讀和使用古籍，為古籍資源的研究和傳統(tǒng)文化的弘揚(yáng)提供一條嶄新的渠道。

表2　中文古籍資源相關(guān)網(wǎng)站

網(wǎng)站名稱(chēng)	網(wǎng)址
國(guó)學(xué)網(wǎng)	http：//www．guoxue．com
中國(guó)數(shù)圖網(wǎng)	http：//www．d-library．com．cn
超星數(shù)字圖書(shū)館	http：//www．ssreader．com．cn
北京大學(xué)圖書(shū)館古籍?dāng)?shù)字特藏	http：//www．lib．pku．edu．cn
清華大學(xué)網(wǎng)上圖書(shū)館	http：//net．lib．tsinthua．edu．cn/tushu．a(chǎn)sp
天津數(shù)字圖書(shū)館	http：//159．226．177．56/gszc/gjcx．a(chǎn)sp
上海數(shù)字圖書(shū)館	http：//dllib．digilib．sh．cn/index．htm
臺(tái)灣“中央研究院”歷史語(yǔ)言所資料庫(kù)	http：//www．ihp．sinica．cdu．tw
臺(tái)灣漢學(xué)研究中收資料庫(kù)	http：//www．ccs．ncl．edu．tw/data．html

四、現(xiàn)存的主要問(wèn)題

　　1．技術(shù)問(wèn)題。古籍文本輸入的主要方法目前有兩個(gè)：鍵盤(pán)輸入與光學(xué)字符識(shí)別（OCR）掃描輸入。鍵盤(pán)輸入屬于手工作業(yè)，效率低，成本高。OCR則是一種較為先進(jìn)的自動(dòng)化信息資源輸入技術(shù)，但也存在一些諸如圖像質(zhì)量不高，掃描速度低，單位成本高，識(shí)別率低等技術(shù)性問(wèn)題。并且，現(xiàn)有的漢字識(shí)別系統(tǒng)多數(shù)是針對(duì)簡(jiǎn)體的，識(shí)別字?jǐn)?shù)一般只有4000左右，識(shí)別豎排繁體古籍效果非常不理想。即使是能識(shí)別繁體漢字的系統(tǒng)，也由于古籍漢字的頻度與現(xiàn)代漢語(yǔ)差異較大，使得識(shí)別效果一般較差。

　　計(jì)算機(jī)對(duì)文字的處理要通過(guò)編碼來(lái)完成，國(guó)標(biāo)字庫(kù)（GB）僅收字6763個(gè)，國(guó)標(biāo)擴(kuò)展?jié)h字字庫(kù)（GBK）收字也只有20902個(gè)。與此相對(duì)的是龐大的漢字?jǐn)?shù)量，《漢語(yǔ)大字典》收字近6萬(wàn)，《中華字海》收字達(dá)8萬(wàn)，古籍通用字約有4萬(wàn)，常用異體字約為2萬(wàn)。相對(duì)古籍中眾多的繁體字、異體字、通假字、避諱字而言，計(jì)算機(jī)的文字編碼不敷應(yīng)用，缺字一直是古籍電子化的瓶頸。

　　2．人才問(wèn)題。在古籍?dāng)?shù)字化過(guò)程中，最重要的工作是要在錄入文本前對(duì)古籍進(jìn)行整理。因?yàn)楣偶径际秦Q排繁體字，還包含大量的異體字、通假字等，且沒(méi)有標(biāo)點(diǎn)符號(hào)，行文格式繁瑣，必須先進(jìn)行整理，而古籍整理工作只能依賴(lài)于專(zhuān)業(yè)人員。所以，古籍資源數(shù)字化是傳統(tǒng)學(xué)術(shù)方法與現(xiàn)代科學(xué)技術(shù)的結(jié)合，它需要一批既懂得古籍整理又精通計(jì)算機(jī)技術(shù)的人才。現(xiàn)狀卻是古籍整理專(zhuān)業(yè)人員不懂電子技術(shù)，計(jì)算機(jī)技術(shù)人員缺少古籍知識(shí)。古籍資源數(shù)字化專(zhuān)門(mén)人才的培養(yǎng)亟待提上日程。

　　3．統(tǒng)籌問(wèn)題。我國(guó)古籍?dāng)?shù)量龐大，且往往分散各地，僅由一個(gè)單位或組織來(lái)負(fù)責(zé)完成某一專(zhuān)業(yè)領(lǐng)域內(nèi)的古籍書(shū)目數(shù)據(jù)庫(kù)建設(shè)是非常困難的，需要多方合作才能進(jìn)行。而國(guó)內(nèi)的古籍?dāng)?shù)字化工作缺乏一個(gè)全國(guó)性的權(quán)威機(jī)構(gòu)的統(tǒng)一指導(dǎo)和協(xié)調(diào)，開(kāi)發(fā)單位各自為政，熱點(diǎn)項(xiàng)目重復(fù)建設(shè)，冷門(mén)項(xiàng)目少有問(wèn)津。1998年一年至少出現(xiàn)了3種光盤(pán)版的四庫(kù)全書(shū)，投資額驚人，造成了人力、物力的極大浪費(fèi)。長(zhǎng)期以來(lái)，很多單位都做了古籍書(shū)目數(shù)據(jù)庫(kù)或古文獻(xiàn)資料數(shù)據(jù)庫(kù)，并自造了相當(dāng)數(shù)量的字庫(kù)，浪費(fèi)了資源。另外，個(gè)別單位僅考慮自身利益，拒絕資源共享，致使一些數(shù)據(jù)庫(kù)涵蓋的文獻(xiàn)資料頗為有限，遠(yuǎn)未能實(shí)現(xiàn)對(duì)全國(guó)范圍內(nèi)的整體檢索。

　　4．標(biāo)準(zhǔn)問(wèn)題。規(guī)范、統(tǒng)一的數(shù)據(jù)庫(kù)形式是數(shù)據(jù)庫(kù)的生命所在。要建立全國(guó)統(tǒng)一的古籍書(shū)目數(shù)據(jù)庫(kù)，必須有統(tǒng)一的數(shù)據(jù)格式要求。如果沒(méi)有規(guī)范的機(jī)讀目錄格式，數(shù)據(jù)庫(kù)就無(wú)法進(jìn)行交換，無(wú)法真正實(shí)現(xiàn)國(guó)家乃至世界范圍內(nèi)的資源共享。許多單位設(shè)計(jì)數(shù)據(jù)庫(kù)時(shí)采用的標(biāo)準(zhǔn)不一致，導(dǎo)致難以共享使用。此外，還必須對(duì)古籍原本進(jìn)行鑒別和統(tǒng)一著錄，執(zhí)行統(tǒng)一的分類(lèi)表和分類(lèi)原則，否則就會(huì)出現(xiàn)書(shū)目數(shù)據(jù)不準(zhǔn)確，造成不同的書(shū)被著錄成一種書(shū)，或者是一種書(shū)被著錄為多種書(shū)的狀況，給讀者的使用和研究帶來(lái)極大不便。

　　如果相關(guān)部門(mén)能夠聯(lián)合從事古籍?dāng)?shù)字化的主要單位，制訂古籍?dāng)?shù)字化的統(tǒng)一標(biāo)準(zhǔn)，實(shí)現(xiàn)標(biāo)準(zhǔn)化、規(guī)范化，在此基礎(chǔ)上進(jìn)行分工合作，建立可共享的資源體系，必定能夠促進(jìn)國(guó)內(nèi)數(shù)字化古籍的開(kāi)發(fā)與利用。

　　5．經(jīng)費(fèi)問(wèn)題。現(xiàn)在擁有古籍文獻(xiàn)資料最多的是公共圖書(shū)館。它們雖擁有豐富的文獻(xiàn)資料和文獻(xiàn)處理經(jīng)驗(yàn)，但因?yàn)槿鄙俳?jīng)費(fèi)，無(wú)法購(gòu)置必需的設(shè)備和軟件，也缺乏足夠的人力和相關(guān)的計(jì)算機(jī)技術(shù)人才，不少已經(jīng)規(guī)劃好的項(xiàng)目無(wú)法開(kāi)展。只有投入足夠的經(jīng)費(fèi)，才能夠解決設(shè)備、軟件短缺問(wèn)題，引進(jìn)技術(shù)人員，正常開(kāi)展古籍?dāng)?shù)字化工作。

參考文獻(xiàn):

[1]王純．古籍?dāng)?shù)字化之趨勢(shì)．圖書(shū)館理論與實(shí)踐，2000（3）

[2]厲莉．古籍?dāng)?shù)字化的現(xiàn)狀及對(duì)策．江西圖書(shū)館學(xué)刊，2002（1）

[3]王桂平．我國(guó)古籍?dāng)?shù)字化的現(xiàn)狀及展望．圖書(shū)情報(bào)知識(shí)，2000（4）

[4]李為實(shí)．關(guān)于古籍?dāng)?shù)字化的思考．四川圖書(shū)館學(xué)報(bào)，2002（3）

[5]王育紅．未來(lái)古籍出版的對(duì)策與趨勢(shì)分析．科技與出版，2002（3）

午夜精品免费视频,亚洲区欧美区,久久成人精品视频,成人免费网站观看