午夜精品免费视频,亚洲区欧美区,久久成人精品视频,成人免费网站观看

 

試論中國(guó)古籍?dāng)?shù)字化與人文學(xué)術(shù)研究

史 睿

  【內(nèi)容提要】本文從人文研究角度出發(fā)討論古籍?dāng)?shù)字化意義及解決方案,強(qiáng)調(diào)了在數(shù)字化時(shí)代傳統(tǒng)古籍整理工作的重要性。史文認(rèn)為古籍?dāng)?shù)字化能為人文研究提供便捷、準(zhǔn)確的查詢工具,但要實(shí)現(xiàn)這一目標(biāo),必須對(duì)傳統(tǒng)古籍整理工作進(jìn)行變革,要求建立數(shù)據(jù)庫(kù)統(tǒng)一的規(guī)范,包括分類(lèi)法、著錄格式都要有一定的修改,以建立國(guó)家標(biāo)準(zhǔn),并使古籍?dāng)?shù)據(jù)庫(kù)與數(shù)字圖書(shū)館的其他數(shù)據(jù)庫(kù)保持整體的統(tǒng)一性。文章對(duì)計(jì)算機(jī)技術(shù)也給予了同樣的重視,分析了人文研究對(duì)計(jì)算機(jī)技術(shù)的要求,計(jì)算機(jī)技術(shù)為古籍?dāng)?shù)字化準(zhǔn)備的條件,并討論了兩者的有效結(jié)合。

  【關(guān) 鍵 詞】人文學(xué)術(shù)研究;數(shù)據(jù)庫(kù);知識(shí)發(fā)現(xiàn);中國(guó)古籍?dāng)?shù)字化解決方案;圖書(shū)館自動(dòng)化

 

  中國(guó)古籍的數(shù)字化是一個(gè)非常復(fù)雜的跨學(xué)科課題,本來(lái)應(yīng)由專家來(lái)解決,絕非學(xué)識(shí)淺陋如不佞者所應(yīng)妄言的。但是,計(jì)算機(jī)產(chǎn)業(yè)界的專家對(duì)于計(jì)算機(jī)技術(shù)在人文學(xué)術(shù)研究上的應(yīng)用缺少了解和興趣,而學(xué)術(shù)界的專家都忙于各自的名山事業(yè),兩方面又無(wú)良好的溝通,所以創(chuàng)獲甚少。此前雖有學(xué)術(shù)機(jī)構(gòu)曾進(jìn)行過(guò)類(lèi)似課題的研究,獲得了初步的成果,但舊的思路和成果已很難跟上計(jì)算機(jī)技術(shù)飛速發(fā)展的步伐[1]。鑒于目前中國(guó)古籍?dāng)?shù)字化問(wèn)題的日益緊迫和相關(guān)專題研究的相對(duì)滯后,筆者不揣谫陋,撰此小文,以期引起有關(guān)專家就例如數(shù)字化、網(wǎng)絡(luò)化時(shí)代對(duì)人文學(xué)術(shù)研究提出怎樣的機(jī)遇和挑戰(zhàn),如何利用計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù)推動(dòng)人文學(xué)術(shù)研究的發(fā)展以及如何規(guī)劃、評(píng)估古籍(以至一切圖書(shū)文獻(xiàn))的數(shù)字化方案等問(wèn)題的深入討論。

一、古籍?dāng)?shù)字化——現(xiàn)代學(xué)術(shù)研究的基礎(chǔ)

  我們中華民族創(chuàng)造了無(wú)比豐富的歷史文化遺產(chǎn),對(duì)于世界文化具有巨大貢獻(xiàn)。古代典籍是中國(guó)歷史文化遺產(chǎn)最為重要的物質(zhì)載體,面對(duì)蘊(yùn)藏于浩如煙海的古籍之中的文化思想,究竟應(yīng)該如何解讀,如何履踐,不免令人有“一部十七史,不知從何說(shuō)起”的感覺(jué)。胡適之先生認(rèn)為傳統(tǒng)的經(jīng)史研究存在范圍太狹窄,注重功力而忽略理解,缺乏參考比較的材料等積弊,故以清代三百年間第一流人才的心思精力,都用在經(jīng)學(xué)的范圍內(nèi),卻只取得了一點(diǎn)點(diǎn)的成果,關(guān)鍵是缺少對(duì)古籍的系統(tǒng)整理,又不注重學(xué)術(shù)成果的積累,兩千四百多卷的《清經(jīng)解》,大多是一堆流水爛帳,沒(méi)有條理,沒(méi)有系統(tǒng),人人從“粵若稽古”、“關(guān)關(guān)雎鳩”說(shuō)起,怪不得學(xué)者看了要望洋興嘆了[2]。針對(duì)清儒治學(xué)方法的缺陷,胡適之先生著重提出,必須系統(tǒng)地整理古籍,包括索引式、結(jié)帳式和專史式的整理。此后,學(xué)界編纂了多種引得、通檢、索引、匯編等工具書(shū),部分完成了索引式整理的目標(biāo),拜前輩學(xué)者之賜,我們查閱古籍不知享受了多少便利。但是我們也發(fā)現(xiàn),中國(guó)古籍汗牛充棟,經(jīng)過(guò)系統(tǒng)整理的畢竟只是少數(shù),方便的檢索工具也還嫌太少,離胡適之先生的標(biāo)準(zhǔn)還有相當(dāng)?shù)木嚯x。即使是已有索引的古籍,我們用來(lái)解決具體問(wèn)題時(shí)仍會(huì)感覺(jué)到種種不便。至于結(jié)帳式的整理,則尚未受到學(xué)術(shù)界的普遍重視,而在未有結(jié)帳式整理之前,所作的專史研究,其完整性、可靠性都值得懷疑。劉家和先生在《〈崔述與中國(guó)學(xué)術(shù)史研究〉序》中說(shuō)道:“記得從前有一位學(xué)術(shù)前輩說(shuō)過(guò):‘上窮碧落下黃泉,動(dòng)手動(dòng)腳找材料。'這已很不容易。而現(xiàn)在是要‘上窮碧落下黃泉,以求有所新發(fā)現(xiàn)',這就更是難上加難了。由此我想到了美國(guó)科學(xué)哲學(xué)家?guī)於鳎═homas Kuhn,1922—1996)的一篇文章《必要的張力:科學(xué)研究中的傳統(tǒng)和創(chuàng)新》(The Essential Tension:Tradition and Innovation in Scientific Research)。他說(shuō),科學(xué)的發(fā)現(xiàn),既需要發(fā)散思維,即對(duì)于傳統(tǒng)具有突破性的創(chuàng)新思維,又必須有向心思維,即深入傳統(tǒng)的思維。這是因?yàn)椋瑳](méi)有前一思維,就會(huì)限于傳統(tǒng)而失去創(chuàng)新的可能;沒(méi)有后一種思維,就不能深知傳統(tǒng)中的問(wèn)題與病因所在,就不知到底為何需要突破,應(yīng)該從何突破,即使突破也破不到點(diǎn)子上,何來(lái)創(chuàng)新?所以他概括地說(shuō):‘成功的科學(xué)家常常必須同時(shí)扮演傳統(tǒng)主義者和離經(jīng)叛道者的角色。'庫(kù)恩講的是科學(xué)發(fā)展的要求,其實(shí)對(duì)于史學(xué)的發(fā)展來(lái)說(shuō),這幾乎是同樣適用的。這就是要‘上窮碧落下黃泉',要有微觀與宏觀、傳統(tǒng)與創(chuàng)新兩極之間的張力。”[3]確如劉家和先生所說(shuō),經(jīng)常保持這種張力是推動(dòng)學(xué)術(shù)創(chuàng)新的要素,如果認(rèn)真反省一下就不難發(fā)現(xiàn),在人文學(xué)術(shù)研究中,我們有時(shí)忽視對(duì)古籍文本的深入解讀,導(dǎo)致研究結(jié)論發(fā)生偏差;有時(shí)又被前人的成說(shuō)所左右,不能有所推進(jìn)。為了中國(guó)現(xiàn)代學(xué)術(shù)的自主、自立,促進(jìn)中外學(xué)術(shù)的對(duì)話,我們必須比以前任何時(shí)候都更加致力于中華元典以至全部古代典籍的深入解讀,以求在此基礎(chǔ)之上作出更大的學(xué)術(shù)突破。有人看不起古籍點(diǎn)校或是索引、目錄、匯編的編纂,可又有誰(shuí)能說(shuō)自己的名山事業(yè)從未受惠于點(diǎn)校本《二十四史》、《資治通鑒》或是《二十史朔閏表》、《中國(guó)歷史地圖集》、《十三經(jīng)索引》、《二十四史人名索引》這樣經(jīng)典的點(diǎn)校本或檢索工具呢?人文學(xué)術(shù)研究是個(gè)人的事業(yè),一個(gè)人的精力和時(shí)間是有限的,而人類(lèi)知識(shí)的積累又絕非一個(gè)人所能把握的,如果我們不能大幅度地提高自己的學(xué)習(xí)效率,而是將有限的時(shí)間、精力都花費(fèi)在浩繁、瑣碎的翻檢工作之中,那么還談何學(xué)術(shù)進(jìn)步呢?為此,我們需要有經(jīng)過(guò)認(rèn)真梳理的、反映全部前人研究成果的古籍文本供學(xué)術(shù)界使用,需要有便捷、高效、準(zhǔn)確的查詢工具為人文學(xué)術(shù)研究服務(wù)。

  古籍?dāng)?shù)字化是一項(xiàng)重要的人文學(xué)術(shù)研究基礎(chǔ)工程,不僅需要全體學(xué)術(shù)研究者和計(jì)算機(jī)專家的勤奮和努力,更需要現(xiàn)代化技術(shù)的支持。我們認(rèn)為,利用計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù)進(jìn)行深入的古籍整理工作,在當(dāng)今數(shù)字化時(shí)代勢(shì)在必行,它必將大幅度地提高我們學(xué)習(xí)中國(guó)古代文化的效率,定會(huì)將學(xué)者的時(shí)間和精力從艱苦而繁瑣的爬梳、翻檢工作中解放出來(lái),用于推動(dòng)人文學(xué)術(shù)研究的發(fā)展,對(duì)此我們充滿了希望。同時(shí)我們還應(yīng)認(rèn)識(shí)到,古籍文獻(xiàn)的數(shù)字化實(shí)際上也是全部中文文獻(xiàn)數(shù)字化事業(yè)的一個(gè)復(fù)雜特例,它所積累的經(jīng)驗(yàn)和取得的成果必能廣泛地應(yīng)用于后者,而中文文獻(xiàn)的數(shù)字化又是數(shù)字化圖書(shū)館事業(yè)的一部分,是國(guó)家知識(shí)基礎(chǔ)設(shè)施(National Knowledge Infrastructure簡(jiǎn)稱NKI)的一部分[4],具有十分廣闊的應(yīng)用前景。此外,積極建設(shè)網(wǎng)上中文資源庫(kù),打破某些國(guó)家或某種語(yǔ)言對(duì)網(wǎng)絡(luò)資源的壟斷,這將有利于中外學(xué)術(shù)文化的交流,樹(shù)立中國(guó)人的學(xué)術(shù)自信心和自尊心。

二、古籍?dāng)?shù)字化的理論思考

  當(dāng)前,衡量個(gè)人電腦的性能標(biāo)準(zhǔn)已不再是中央處理芯片(CPU)的時(shí)鐘頻率,而是看它的整體可用性如何。軟件亦是如此,應(yīng)用放在了越來(lái)越重要的位置上。由于缺乏利益驅(qū)動(dòng),計(jì)算機(jī)軟件在傳統(tǒng)人文學(xué)術(shù)研究領(lǐng)域的應(yīng)用還遠(yuǎn)未提到中國(guó)計(jì)算機(jī)產(chǎn)業(yè)界的議事日程上來(lái),這不能不說(shuō)是一種遺憾。目前,臺(tái)灣中央研究院已建立起十余個(gè)重要的古籍資料庫(kù),并逐漸開(kāi)放于網(wǎng)絡(luò)[5]。近期日本出版了一本《電腦中國(guó)學(xué)》(東京好文出版社,1998年11月),書(shū)中探討了計(jì)算機(jī)技術(shù)應(yīng)用于中國(guó)研究的問(wèn)題,并且提供了大量與中國(guó)研究有關(guān)的網(wǎng)址,其中絕大部分是屬于臺(tái)灣學(xué)術(shù)機(jī)構(gòu)的。本來(lái)應(yīng)由最具人才資源和技術(shù)優(yōu)勢(shì)的大陸學(xué)術(shù)界完成的事業(yè),卻被臺(tái)灣學(xué)術(shù)界搶先了一步,不能不說(shuō)又是一重遺憾。最近,大陸出版界推出了幾種大型的電子版古籍[6],引起了社會(huì)的普遍關(guān)注。然而此類(lèi)電子讀物大多難以差強(qiáng)人意,究其原因就在于我國(guó)的計(jì)算機(jī)產(chǎn)業(yè)界很少有人專門(mén)從事計(jì)算機(jī)技術(shù)在傳統(tǒng)人文學(xué)術(shù)研究領(lǐng)域的應(yīng)用研究,對(duì)中國(guó)古籍及其研究方法也缺乏必要的了解。同時(shí),文史研究者不能勇敢地迎接數(shù)字化時(shí)代對(duì)人文學(xué)術(shù)研究提出的挑戰(zhàn)與機(jī)遇,積極地參與古籍的數(shù)字化工作,則是另一個(gè)重要原因。問(wèn)題的關(guān)鍵在于人文學(xué)術(shù)研究向計(jì)算機(jī)提出怎樣的要求,當(dāng)代計(jì)算機(jī)技術(shù)又為古籍?dāng)?shù)字化準(zhǔn)備了哪些條件,兩者究竟如何契合。

  筆者認(rèn)為,古籍?dāng)?shù)字化的理論問(wèn)題比技術(shù)問(wèn)題更為重要,因?yàn)橐坏├碚摪l(fā)生了偏差,技術(shù)越高明,則解決方案越是難以成功。而此種理論是基于對(duì)人文學(xué)術(shù)研究一般過(guò)程和計(jì)算機(jī)數(shù)據(jù)處理基本原理的認(rèn)識(shí)之上的,所以只有學(xué)術(shù)界與計(jì)算機(jī)產(chǎn)業(yè)界的密切合作,才能達(dá)成盡善盡美的結(jié)果。筆者認(rèn)為,以人文學(xué)術(shù)研究的角度來(lái)看,古代典籍一方面是古代先賢完整地表述思想體系的“撰述”,另一方面又可看作是保存古代歷史斷片的“記注”[7]。研究先賢的思想,固然要尊重其“撰述”的完整性及其內(nèi)部的邏輯,將其還原于它的時(shí)代語(yǔ)境之中,作“同情之了解”;而研究歷史則如藝術(shù)家一般,將零星的斷片(即史料)小心地補(bǔ)綴成一件完整的藝術(shù)品。無(wú)論何種研究,每當(dāng)我們將零星的斷片按照一定規(guī)則重新排列、組合以后,都會(huì)有一種豁然開(kāi)朗的感覺(jué),因?yàn)槲覀冇纱税l(fā)現(xiàn)了那些材料在原有脈絡(luò)(context)之中難于發(fā)現(xiàn)的字面之外的第二甚至第三重含義,以及它們之間的各種內(nèi)在關(guān)聯(lián),我們對(duì)這些含義和關(guān)聯(lián)作進(jìn)一步的分析或綜合,總會(huì)有新的發(fā)現(xiàn)及解釋,這就是人文學(xué)術(shù)研究的一般過(guò)程。其具體操作過(guò)程往往是突破文獻(xiàn)的原有結(jié)構(gòu),將原文獻(xiàn)劃分為若干基本單位,提取其中指向內(nèi)部含義的關(guān)鍵詞,依照它們的屬性進(jìn)行排序、篩選、統(tǒng)計(jì)和分類(lèi),比較相關(guān)文獻(xiàn)中的關(guān)鍵詞,尋求他們之間的相關(guān)性。這一過(guò)程在手工查閱紙本文獻(xiàn)的時(shí)代,需要學(xué)者具有深湛的功力,否則很難得到完美的解決,因?yàn)榧埍竟偶蠖嗳鄙俦匾乃饕埍緳z索工具既不能隨讀者的要求提供多種排檢方式,又無(wú)法按照讀者的要求產(chǎn)生再生資源,可用性有限;此外,研究者對(duì)文獻(xiàn)本身的認(rèn)識(shí)是隨著研究工作的深入而逐步清晰起來(lái)的,其工作初期往往難以明確提出與自己的研究題目完全切合的全部關(guān)鍵詞,而是要在較大范圍內(nèi)進(jìn)行模糊查詢或漸進(jìn)式查詢,這更是紙本檢索工具所不能解決的。當(dāng)然我們也看到,傳統(tǒng)的點(diǎn)校本古籍為數(shù)字化古籍提供了基本樣式,紙本檢索工具為數(shù)字化古籍的查詢積累了有益的經(jīng)驗(yàn)。中華書(shū)局版《二十四史》,尤其是《前四史》的點(diǎn)校,可稱古籍整理的優(yōu)秀范本,它吸收了此前的全部前人校勘的成果,為學(xué)術(shù)界提供了準(zhǔn)確、可靠的古籍文本。洪煨蓮先生主持的哈佛燕京學(xué)社編纂的引得叢書(shū)、譚其驤先生主編的《中國(guó)歷史地圖集》、中華書(shū)局出版的《二十四史人名索引》、上海圖書(shū)館編纂的《中國(guó)叢書(shū)綜錄》等,都是嘉惠士林的工具書(shū)。引得叢書(shū)的語(yǔ)詞逐字索引堪稱同類(lèi)索引的典范,《二十四史人名索引》嚴(yán)格的規(guī)范控制使讀者獲益匪淺,《中國(guó)歷史地圖集》所具備的古今地名對(duì)照、地名方位查詢等檢索功能,絕非其他類(lèi)別的工具書(shū)可以替代。數(shù)字化古籍一方面應(yīng)繼承紙本古籍及檢索工具的優(yōu)點(diǎn),一方面又要克服其原有缺陷,淋漓盡致地發(fā)揮電子媒體的優(yōu)勢(shì)。鑒于中國(guó)古籍中知識(shí)發(fā)現(xiàn)的復(fù)雜性及其廣闊的應(yīng)用前景,筆者認(rèn)為古籍?dāng)?shù)字化事業(yè)對(duì)計(jì)算機(jī)產(chǎn)業(yè)界是一個(gè)嚴(yán)峻的挑戰(zhàn),無(wú)論是系統(tǒng)、軟件在中文環(huán)境下的易用性,還是信息產(chǎn)業(yè)的運(yùn)營(yíng)和服務(wù)的水平,都須經(jīng)過(guò)古籍?dāng)?shù)字化事業(yè)的檢驗(yàn)才是真正的合格。

  雖然我們一再?gòu)?qiáng)調(diào)計(jì)算機(jī)技術(shù)一日千里的發(fā)展,但還是有必要檢討一下其為古籍?dāng)?shù)字化所作的技術(shù)準(zhǔn)備。首先,網(wǎng)絡(luò)技術(shù)的飛速發(fā)展使信息資源的共享成為可能。幾年前網(wǎng)絡(luò)通信還是少數(shù)人的奢侈品,如今信息高速公路已經(jīng)修到我們每個(gè)人的家門(mén)口,將世界連接為一個(gè)名副其實(shí)的地球村。依托這條無(wú)遠(yuǎn)弗屆的信息通衢,人類(lèi)的知識(shí)傳播和知識(shí)創(chuàng)新勢(shì)必發(fā)生新的躍遷。國(guó)際互聯(lián)網(wǎng)提高了電子文獻(xiàn)的檢索效率,擴(kuò)大了服務(wù)范圍,具有便捷的信息傳遞方式,節(jié)省了遠(yuǎn)程通信費(fèi)用[8]。其次,新一代高性能計(jì)算機(jī)的海量存儲(chǔ)和秒級(jí)運(yùn)算能力十分驚人,以至普通人已難于預(yù)測(cè)它明天的發(fā)展。海量存儲(chǔ)設(shè)備已逐漸普及,我們?cè)僖膊槐卦诳臻g和時(shí)間的矛盾中苦苦掙扎了。電腦CPU的時(shí)鐘頻率一路突飛猛進(jìn),1GHz的CPU也指日可待了。復(fù)次,新的國(guó)際計(jì)算機(jī)信息處理標(biāo)準(zhǔn)的制定和實(shí)施為建構(gòu)全球統(tǒng)一的信息處理系統(tǒng)奠定了堅(jiān)實(shí)的基礎(chǔ)。我們知道,最初的計(jì)算機(jī)使用的字符集是為人熟知的ASCII碼,即基本拉丁字符集(ISO646),僅有96個(gè)拉丁字母和符號(hào)。隨著計(jì)算機(jī)技術(shù)在世界各國(guó)的普遍運(yùn)用,多文種信息處理的要求也應(yīng)運(yùn)而生,基本拉丁字符集顯然已無(wú)法滿足這種需求,各國(guó)所運(yùn)用的地區(qū)性編碼又為全球信息處理一體化設(shè)置了障礙。于是在國(guó)際標(biāo)準(zhǔn)化組織(ISO)引導(dǎo)下,由國(guó)際計(jì)算機(jī)界、語(yǔ)言文字學(xué)界的專家共同制定了通用多八位編碼字符集(ISO/IEC10646)。我們現(xiàn)在所使用的中文版Windows95就是實(shí)現(xiàn)該標(biāo)準(zhǔn)的一個(gè)子集,它采用了中國(guó)信息標(biāo)準(zhǔn)化委員會(huì)1995年11月制定的漢字內(nèi)碼擴(kuò)展規(guī)范(GBK),收入漢字兩萬(wàn)多個(gè)[9],雖然目前還不能完全滿足古籍?dāng)?shù)字化的要求,但畢竟為漢字信息處理的國(guó)際化和標(biāo)準(zhǔn)化開(kāi)辟了道路,為中國(guó)準(zhǔn)備了一把開(kāi)啟數(shù)字化時(shí)代大門(mén)的鑰匙。再次,新的計(jì)算機(jī)應(yīng)用技術(shù),如非鍵盤(pán)輸入技術(shù)[10],中文數(shù)據(jù)庫(kù)技術(shù)[11],多媒體壓縮與傳送技術(shù)、安全保密技術(shù)、自然語(yǔ)言理解技術(shù)[12],尤其是數(shù)據(jù)挖掘技術(shù)的出現(xiàn),為古籍?dāng)?shù)字化事業(yè)提供了有力的支持。數(shù)據(jù)挖掘技術(shù)又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,簡(jiǎn)稱KDD),是指從大量數(shù)據(jù)中提取出可信的、新穎的、有效的并易于理解的知識(shí)的高級(jí)處理過(guò)程[13]。它已廣泛應(yīng)用于市場(chǎng)行銷(xiāo)、產(chǎn)品制造、通信網(wǎng)絡(luò)管理、金融投資、自然科學(xué)研究等許多領(lǐng)域[14]。我們相信,數(shù)據(jù)挖掘技術(shù)運(yùn)用于人文研究領(lǐng)域,必將創(chuàng)造出更卓越的業(yè)績(jī)。非鍵盤(pán)輸入技術(shù)使文獻(xiàn)載體轉(zhuǎn)換方式發(fā)生了一場(chǎng)革命,例如自動(dòng)識(shí)別輸入技術(shù)(ODR)使海量信息輸入的工作量大大降低,清華紫光公司所研制的非特定人手寫(xiě)識(shí)別軟件僅用三個(gè)月時(shí)間就將一部《文淵閣本四庫(kù)全書(shū)》輸入計(jì)算機(jī)內(nèi),為同類(lèi)工作積累了寶貴的技術(shù)財(cái)富[15]。最后,面向?qū)ο蟮木幊坦ぞ叩某霈F(xiàn)使人性化應(yīng)用界面的編制變得輕而易舉。

  如上所述,計(jì)算機(jī)的特長(zhǎng)正在于海量數(shù)據(jù)的存儲(chǔ)、運(yùn)算(包括排序、篩選、統(tǒng)計(jì)和分類(lèi))和傳輸,更可深入文獻(xiàn)內(nèi)部,實(shí)現(xiàn)知識(shí)的發(fā)現(xiàn),這與人文研究工作的一般過(guò)程,即關(guān)鍵詞的查詢、排序、篩選、分類(lèi)、統(tǒng)計(jì)及其相關(guān)性的分析十分相似。既然如此,那么我們就發(fā)現(xiàn)了計(jì)算機(jī)科技運(yùn)用于人文學(xué)術(shù)研究領(lǐng)域的基本契合點(diǎn),我們只須以某種方式溝通兩者的語(yǔ)言,就可以充分地發(fā)揮計(jì)算機(jī)的優(yōu)勢(shì),大幅度地提高人文學(xué)術(shù)研究的效率,為學(xué)術(shù)積累和學(xué)術(shù)評(píng)論提供更為便利的條件和優(yōu)化的環(huán)境,同時(shí),也就找到了比較完善的古籍?dāng)?shù)字化方案。

  目前對(duì)于數(shù)據(jù)庫(kù)廠商來(lái)說(shuō)是一個(gè)千載難逢的良機(jī),無(wú)論是近期的國(guó)家古籍整理與規(guī)劃小組的古籍光盤(pán)工程、北京圖書(shū)館的數(shù)字化圖書(shū)館工程,還是未來(lái)的國(guó)家知識(shí)基礎(chǔ)設(shè)施工程,肯定會(huì)帶來(lái)計(jì)算機(jī)網(wǎng)絡(luò)工程、系統(tǒng)集成、數(shù)據(jù)通信、軟件開(kāi)發(fā)以及服務(wù)方面的巨額需求,誰(shuí)先期投入這一事業(yè),制定出一系列行業(yè)標(biāo)準(zhǔn),誰(shuí)就占據(jù)了相關(guān)產(chǎn)業(yè)的制高點(diǎn),分得最大的市場(chǎng)份額,必將成為全國(guó)以至全球的信息產(chǎn)業(yè)界業(yè)巨子。

三、古籍?dāng)?shù)字化解決方案之我見(jiàn)

  數(shù)字化古籍究竟是什么樣的呢?它需要具備怎樣的功能呢?其數(shù)據(jù)須經(jīng)如何處理,使用何種技術(shù)才能保證它具備我們需要的功能呢?這些都是擺在我們面前的重要問(wèn)題。

  首先,好的版本和必要的校勘是古籍?dāng)?shù)字化的重要前提,沒(méi)有這一前提,一切功能將無(wú)從談起。我們所談的古籍?dāng)?shù)字化事業(yè),其目的不是為大眾提供普及讀本,而是為學(xué)術(shù)文化的繁榮奠定基礎(chǔ),這應(yīng)是參與古籍?dāng)?shù)字化事業(yè)的專家的共識(shí)。其次,即筆者曾經(jīng)一再?gòu)?qiáng)調(diào)的,數(shù)字化古籍的功能不僅在于一般的信息查詢,更重要的是古籍文獻(xiàn)中的知識(shí)發(fā)現(xiàn)。最后,它應(yīng)符合各種國(guó)際通用標(biāo)準(zhǔn),具有開(kāi)放性,可以在網(wǎng)絡(luò)上傳輸,實(shí)現(xiàn)信息資源共享。中國(guó)古籍?dāng)?shù)字化的過(guò)程,基本上可以視為古籍全文數(shù)據(jù)庫(kù)的生成過(guò)程。一篇古籍文獻(xiàn)輸入計(jì)算機(jī),就形成了無(wú)標(biāo)引的全文數(shù)據(jù)庫(kù),即半結(jié)構(gòu)化的數(shù)據(jù)庫(kù)。目前以中國(guó)古籍為內(nèi)容的電子讀物多為此類(lèi)產(chǎn)品,但這遠(yuǎn)不能發(fā)揮計(jì)算機(jī)的技術(shù)優(yōu)勢(shì),也難以達(dá)到研究者的要求,其最大的缺陷就在于它不能象結(jié)構(gòu)化數(shù)據(jù)庫(kù)一樣經(jīng)由排序、篩選、分類(lèi)和統(tǒng)計(jì)之類(lèi)的管理過(guò)程產(chǎn)生再生資源,更談不上知識(shí)發(fā)現(xiàn)。因此,對(duì)古籍中的數(shù)據(jù)進(jìn)行充分的分析和處理,制成結(jié)構(gòu)化數(shù)據(jù)庫(kù),與半結(jié)構(gòu)化數(shù)據(jù)庫(kù)相結(jié)合,才是較為完美的方案。

  如所周知,傳統(tǒng)的紙本工具書(shū),包括索引、類(lèi)編、目錄、年表、歷史地圖等,盡管已經(jīng)提供了相當(dāng)多的便利,但是仍然不能擺脫紙本檢索工具的種種缺陷,如門(mén)類(lèi)不齊全,排檢方式單一,缺少綜合條件和漸進(jìn)式檢索方式,無(wú)法產(chǎn)生再生資源,只能部分地完成信息查詢功能,不能做到海量數(shù)據(jù)中的知識(shí)發(fā)現(xiàn),攜帶不便、復(fù)制困難又在其次。筆者所設(shè)想的數(shù)字化古籍解決方案正是為了解決紙本媒介存在的上述問(wèn)題,確保信息查詢的查準(zhǔn)率和查詢率,并實(shí)現(xiàn)海量信息中的知識(shí)發(fā)現(xiàn)。其重要步驟包括古籍文獻(xiàn)的載體轉(zhuǎn)換、置標(biāo),關(guān)鍵詞的規(guī)范控制、屬性描述及多途徑排檢。

  載體轉(zhuǎn)換是指從紙本文獻(xiàn)到電子文獻(xiàn)的轉(zhuǎn)換過(guò)程,要求快速而又準(zhǔn)確,是保證實(shí)現(xiàn)進(jìn)一步文獻(xiàn)處理目標(biāo)的基礎(chǔ)。傳統(tǒng)的中文鍵盤(pán)輸入技術(shù)需要新的突破,走出萬(wàn)“碼”奔騰或萬(wàn)“碼”齊喑的怪圈,才能適應(yīng)海量信息的、快速準(zhǔn)確的載體轉(zhuǎn)換的要求。非鍵盤(pán)輸入技術(shù)的逐漸成熟顯然已向鍵盤(pán)輸入技術(shù)提出了挑戰(zhàn),清華紫光開(kāi)發(fā)的一種自動(dòng)識(shí)別軟件具有非特定人手寫(xiě)識(shí)別功能,識(shí)別率達(dá)到90%以上,如果再加上邏輯或語(yǔ)法判斷,則可進(jìn)一步提高識(shí)別率。

  置標(biāo)或標(biāo)引是指通過(guò)對(duì)文獻(xiàn)的分析,選用確切的檢索標(biāo)志以反映文獻(xiàn)內(nèi)容的過(guò)程。置標(biāo),由于古籍文獻(xiàn)中含有非常豐富而寶貴的學(xué)術(shù)信息,因此必須通過(guò)置標(biāo)這一過(guò)程,充分地發(fā)掘其中的內(nèi)涵,以便研究者利用。置標(biāo)的目的是提取關(guān)鍵詞,做數(shù)據(jù)的預(yù)處理,故應(yīng)足夠充分,不放過(guò)任何有學(xué)術(shù)信息的關(guān)鍵詞,力求做到從任何角度都能檢索到讀者需要的信息。清代大學(xué)者章學(xué)誠(chéng)曾提出,將古籍中人名、地號(hào)、官階、書(shū)目等一切有名可治、有數(shù)可稽者都制成韻編(即索引),以收事半功倍之效[16]。一般來(lái)說(shuō),各類(lèi)文獻(xiàn)中的人名、地名、官名、書(shū)名、年代、典故、制度、族屬、語(yǔ)詞、范疇和其它專名等關(guān)鍵詞都須制成索引,另外如文獻(xiàn)的主題、體裁、結(jié)構(gòu)、類(lèi)別、標(biāo)題、韻腳等特征也要當(dāng)作關(guān)鍵詞來(lái)提取。目前,計(jì)算機(jī)尚無(wú)法正確標(biāo)引古代漢語(yǔ)文獻(xiàn),所以將已有的紙本檢索工具轉(zhuǎn)換為數(shù)據(jù)庫(kù),并開(kāi)發(fā)出標(biāo)引古籍的智能化軟件,是古籍?dāng)?shù)字化的當(dāng)務(wù)之急。當(dāng)然,鑒于古代漢語(yǔ)的復(fù)雜性及文獻(xiàn)特征的多樣性,依托熟悉古籍的專家仍然是必不可少的。

  規(guī)范控制是為了保證文獻(xiàn)標(biāo)目的一致性,以便有效地實(shí)現(xiàn)對(duì)標(biāo)目進(jìn)行統(tǒng)一管理的手段,規(guī)范標(biāo)目記錄以下內(nèi)容:規(guī)范標(biāo)目,規(guī)范標(biāo)目與相關(guān)標(biāo)目之間的參照關(guān)系,選取標(biāo)目及確定其參照關(guān)系的依據(jù)。規(guī)范控制在紙本檢索工具中曾被廣泛運(yùn)用,并取得了很大成功。但是我們必須注意到,以往的檢索工具多為專名類(lèi)型索引,在非專名類(lèi)型索引的規(guī)范控制方面,學(xué)術(shù)界的成果和經(jīng)驗(yàn)還不多,既有的主題詞表不僅不能涵蓋古籍中復(fù)雜的語(yǔ)言現(xiàn)象,更難于跟上人文學(xué)術(shù)的發(fā)展進(jìn)程,我們有必要重新建立規(guī)范古籍語(yǔ)詞及專名的標(biāo)準(zhǔn)。

  排檢是指檢索工具的排序方式和檢索途徑,它限定著讀者的檢索策略,直接影響檢索效果。一般的紙本檢索工具多使用以關(guān)鍵詞外部特征為序的排檢方式,不能滿足讀者的信息查詢及知識(shí)發(fā)現(xiàn)的要求。紙本檢索工具包含著這樣的預(yù)設(shè),即認(rèn)為讀者事先已確知所須檢索的關(guān)鍵詞,但實(shí)際上往往并非如此,抑或即使確知,依然需要按其內(nèi)部特征追尋關(guān)鍵詞之間的相關(guān)性。不難發(fā)現(xiàn),依關(guān)鍵詞外部特征排檢的檢索工具提供給讀者的關(guān)鍵詞之間的關(guān)聯(lián)信息較少[17],而依關(guān)鍵詞內(nèi)部特征排檢的檢索工具則可提供更多類(lèi)型的關(guān)聯(lián)信息,便于讀者發(fā)現(xiàn)新知識(shí)。但是限于紙本媒體的特征,多功能檢索工具的編纂難度很大,而數(shù)字化古籍正適于實(shí)現(xiàn)多途徑排檢功能,這就要用到關(guān)鍵詞的屬性描述方法。

  描述關(guān)鍵詞的各種屬性是為了計(jì)算機(jī)能依照屬性對(duì)關(guān)鍵詞進(jìn)行分類(lèi)、排序、篩選、統(tǒng)計(jì)之類(lèi)的管理,產(chǎn)生再生資源,以利知識(shí)發(fā)現(xiàn)。所謂關(guān)鍵詞的屬性描述,其實(shí)質(zhì)就是將關(guān)鍵詞的屬性特征作認(rèn)真嚴(yán)格的分析,制成數(shù)據(jù)庫(kù),再將目前為止學(xué)術(shù)界所了解的有關(guān)它的全部知識(shí)都填入數(shù)據(jù)庫(kù)之中。研究越深入,所能反映的關(guān)鍵詞的內(nèi)涵及其關(guān)聯(lián)就越豐富,檢索效果越理想,發(fā)現(xiàn)的知識(shí)越新穎而可信,所以我們必須毫無(wú)遺漏地將已經(jīng)取得的研究成果納入其中。于是,這一數(shù)據(jù)庫(kù)的設(shè)計(jì)就變得十分重要。不同類(lèi)型的關(guān)鍵詞具有不同的屬性,如人名的屬性顯然與書(shū)名不同。同一類(lèi)型關(guān)鍵詞因其主題不同又有所區(qū)別,如帝王有即位年代的屬性,士大夫以下則沒(méi)有。同時(shí),任何關(guān)鍵詞的屬性還因其規(guī)定性特征有所不同,如官僚所任之官有時(shí)代之別,又有品階和類(lèi)型(如散官、勛官、職事官、加官、贈(zèng)官等)之別。為了處理如上十分復(fù)雜的情況,我們可以利用中國(guó)機(jī)讀目錄格式(China MARC)的思路來(lái)設(shè)計(jì)這種可實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)功能的關(guān)鍵詞數(shù)據(jù)庫(kù)。機(jī)讀目錄格式是一種多層次的開(kāi)放式數(shù)據(jù)庫(kù),它原本用來(lái)詳盡地描述書(shū)目型關(guān)鍵詞的各種屬性,并進(jìn)行基本管理。由于它允許用戶自由定義各字段和子字段的內(nèi)容,因此可以改造為一種描述和管理各類(lèi)關(guān)鍵詞的數(shù)據(jù)庫(kù)。理論上,它應(yīng)是一種通用的綜合的信息管理數(shù)據(jù)庫(kù),能管理各種不同類(lèi)型的數(shù)據(jù),包括文本、日期、邏輯、圖像、視頻、聲音等[18],符合(或者創(chuàng)造)國(guó)際標(biāo)準(zhǔn),具有多個(gè)檢索出口,可通過(guò)多種檢索途徑實(shí)現(xiàn)信息查詢和知識(shí)發(fā)現(xiàn)。它分為記錄、字段和子字段三個(gè)層次。首先,以對(duì)一個(gè)關(guān)鍵詞的全面描述為一條記錄。其次,以記錄之下的通用字段描述不同類(lèi)型關(guān)鍵詞的相同屬性,如以規(guī)范標(biāo)目字段描述各類(lèi)關(guān)鍵詞的規(guī)范標(biāo)目屬性,以非規(guī)范標(biāo)目字段描述相關(guān)非規(guī)范標(biāo)目屬性,以主題字段描述各類(lèi)關(guān)鍵詞的主題屬性,以款目連接字段描述此關(guān)鍵詞與它關(guān)鍵詞之間的相關(guān)性,以附注字段作自然語(yǔ)言的附注等;又以特殊字段分別描述各類(lèi)關(guān)鍵詞的特殊屬性,如以籍貫·郡望字段、歷官字段、家族譜系字段來(lái)描述人名類(lèi)關(guān)鍵詞,以四部類(lèi)別字段、載體形態(tài)字段描述書(shū)目類(lèi)關(guān)鍵詞等;最后,以字段之下的子字段反映屬性的規(guī)定性特征,如以歷官字段之下的品階子字段描述歷官的品階,以類(lèi)別子字段描述歷官的類(lèi)別,以部門(mén)子字段描述歷官所屬的部門(mén),以年代子字段描述歷官的起訖時(shí)間等。常規(guī)字段規(guī)定為必須使用,非常規(guī)字段或非相關(guān)字段則可選用,字段或子字段依其性質(zhì)規(guī)定為可以重復(fù)和不可重復(fù)兩類(lèi)。一般的單一條件檢索,其檢索結(jié)果(報(bào)表)可以表格形式輸出,如果是復(fù)合條件的檢索,其結(jié)果又不便以表格形式表達(dá),就需要編制合乎傳統(tǒng)檢索習(xí)慣的其它輸出形式,如職官年表、百官志、家譜、歷史地圖等形式。以人名索引為例,依照職官年表的方式排檢,可由一個(gè)人名查到他的同僚、前任、繼任,如果按照百官志的序列排檢,又可查到他的上級(jí)、下級(jí),如果按照譜牒的形式排檢,則可查到他的祖先、兄弟、姊妹、子孫及姻親。以地名索引為例,依照歷史地圖的形式排檢,可查到地名的方位,所屬的自然區(qū)域、行政區(qū)劃以及它的歷史沿革。機(jī)讀目錄格式包含了供檢索用的紀(jì)錄頭標(biāo)和指針,這樣經(jīng)由基本的數(shù)據(jù)庫(kù)管理手段,我們就可以實(shí)現(xiàn)數(shù)據(jù)庫(kù)的多途徑排檢功能了。

  除了以上有關(guān)古籍全文檢索數(shù)據(jù)庫(kù)生成的問(wèn)題之外,還有應(yīng)用界面的問(wèn)題需要探討。筆者認(rèn)為,瀏覽界面是古籍?dāng)?shù)字化解決方案中必不可少的組成部分,如果沒(méi)有瀏覽界面,那么古籍就會(huì)變成一堆支離破碎的詞匯或段落,無(wú)法閱讀,而閱讀是數(shù)字化古籍的首要功能,不能放棄[19]。數(shù)字化古籍的瀏覽界面最好以國(guó)際通用的HTML語(yǔ)言編寫(xiě),使用普通的網(wǎng)絡(luò)瀏覽器閱讀,可用于網(wǎng)絡(luò)發(fā)布和光盤(pán)(CD-Web)制作。目錄、正文和注釋等內(nèi)容可層級(jí)顯示,讀者可使用目錄樹(shù)直接跳轉(zhuǎn)到需要閱讀的正文,也可根據(jù)需要僅顯示正文或顯示部分以至全部注釋。充分利用電子媒體的特性,正文之中必要的地方應(yīng)插入聲音、圖像或視頻剪輯等多媒體,方便讀者。它以超文本鏈接(包括網(wǎng)絡(luò)映射)揭示文獻(xiàn)或關(guān)鍵詞的意義及其間的內(nèi)在關(guān)系,例如讀者遇到陌生的關(guān)鍵詞時(shí)可以跳轉(zhuǎn)到網(wǎng)絡(luò)上權(quán)威辭書(shū)的相應(yīng)辭條或最新的研究成果,以掃除閱讀障礙,深入解讀文獻(xiàn);另一種情況是讀者閱讀此文獻(xiàn)時(shí)能夠追尋其中引用的彼文獻(xiàn),點(diǎn)擊關(guān)鍵詞之后可跳轉(zhuǎn)到引用文獻(xiàn)的相應(yīng)篇章、段落或條目;更重要的是以超文本鏈接的形式將古籍篇章中的基本問(wèn)題與歷代的研究成果聯(lián)系起來(lái)。當(dāng)然,這樣預(yù)設(shè)的超文本鏈接必須準(zhǔn)確地反映知識(shí)體系之間的層次和關(guān)聯(lián),如果稍有偏差,就會(huì)發(fā)生失之毫厘,謬以千里的情形。瀏覽界面最好配合智能網(wǎng)絡(luò)搜索引擎,允許讀者建立自定義的超鏈接。另外一個(gè)應(yīng)用界面是查詢界面,它要與關(guān)鍵詞數(shù)據(jù)庫(kù)相配合,具有不同類(lèi)別的各種關(guān)鍵詞、同類(lèi)關(guān)鍵詞的不同屬性及相同屬性的不同規(guī)定性特征三層查詢條件,還有各種查詢條件之間邏輯關(guān)系的組合形式。關(guān)鍵詞數(shù)據(jù)庫(kù)作為后臺(tái)數(shù)據(jù)庫(kù)支持讀者信息查詢和知識(shí)發(fā)現(xiàn)的要求。其檢索結(jié)果以HTML文檔的形式顯示于瀏覽器上,建立檢索結(jié)果到所出文獻(xiàn)的超文本鏈接,讀者可由此跳轉(zhuǎn)至原文獻(xiàn),以實(shí)現(xiàn)指向文獻(xiàn)內(nèi)部意義的知識(shí)發(fā)現(xiàn)[20]。無(wú)論是瀏覽界面,還是查詢界面,都必須具備人性化特征,符合讀者的檢索習(xí)慣,并輔以必要實(shí)用的使用說(shuō)明(幫助),不給讀者增加學(xué)習(xí)負(fù)擔(dān)。這樣就構(gòu)成了完整的古籍?dāng)?shù)字化方案。

四、余論:學(xué)習(xí)的革命

  圖書(shū)文獻(xiàn)的數(shù)字化是數(shù)字化圖書(shū)館事業(yè)的基礎(chǔ),而數(shù)字化圖書(shū)館以及國(guó)家知識(shí)基礎(chǔ)設(shè)施的建立勢(shì)必引發(fā)一場(chǎng)知識(shí)傳播或?qū)W習(xí)的革命。以往人類(lèi)傳播知識(shí)的方式不外文字記載和言傳身教兩類(lèi),前者傳播范圍廣泛,后者易于表述經(jīng)驗(yàn),而國(guó)家知識(shí)基礎(chǔ)設(shè)施將兼有兩者的特長(zhǎng),它通過(guò)計(jì)算機(jī)對(duì)公共知識(shí)的處理,模擬人類(lèi)學(xué)習(xí)知識(shí)和形成智能的過(guò)程,使人類(lèi)較為容易地獲取知識(shí)和經(jīng)驗(yàn)[21]。更重要的是,僅僅依靠圖書(shū)分類(lèi)法來(lái)建構(gòu)人類(lèi)知識(shí)體系的時(shí)代已一去不復(fù)返了,利用計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù),我們能更全面、完整而確切地表達(dá)自己的知識(shí)、經(jīng)驗(yàn)和智慧以及它們之間的關(guān)聯(lián),前賢可以在不知不覺(jué)之中將他們畢生積累的知識(shí)和經(jīng)驗(yàn)轉(zhuǎn)化為后學(xué)的常識(shí),而且可以不受時(shí)空限制地迅速傳播。因而人類(lèi)的學(xué)習(xí)過(guò)程也將變得日益輕松、富于人性化和高效率。那時(shí),我們的學(xué)習(xí)將從巨人肩膀上起步,徹底拋掉碾碎人類(lèi)鮮活智慧的教科書(shū),更可以避免不負(fù)責(zé)任的教育者加之于幼小心靈的傷害。網(wǎng)絡(luò)將在其中扮演重要角色,它成為一種獨(dú)立媒體已經(jīng)為時(shí)不遠(yuǎn)了,它必將與其他四大媒體并駕齊驅(qū),成為傳播人類(lèi)知識(shí)的重要媒介,并且決定著我們的思維與生活方式。它還將有助于打破強(qiáng)勢(shì)話語(yǔ)對(duì)知識(shí)、思想、信仰的壟斷,消除大眾文化對(duì)精英文化的扭曲,作為民主制度的一部分,服務(wù)于社會(huì)。

【注釋】

[1]中國(guó)社會(huì)科學(xué)院計(jì)算機(jī)室曾經(jīng)在欒貴明等先生指導(dǎo)下就此課題進(jìn)行過(guò)探索,見(jiàn)田奕《古籍整理與研究的電腦化》(載《中國(guó)文化》9期,1994年2月,85—89頁(yè)),但其電子版產(chǎn)品并未公開(kāi)。

[2]胡適《〈國(guó)學(xué)季刊〉發(fā)刊宣言》,原載《國(guó)學(xué)季刊》一卷一號(hào),1923年1月,此據(jù)歐陽(yáng)哲生編《胡適文集》三,5—17頁(yè),北京大學(xué)出版社,1998年12月。

[3]邵東方《崔述與中國(guó)學(xué)術(shù)史研究》,《序》1—10頁(yè),人民出版社,1998年4月。

[4]國(guó)家知識(shí)基礎(chǔ)設(shè)施是應(yīng)用計(jì)算機(jī)及網(wǎng)絡(luò)存儲(chǔ)和傳播人類(lèi)知識(shí)、經(jīng)驗(yàn)和智慧,改變?nèi)祟?lèi)知識(shí)獲取方式的全新體系,包括通信網(wǎng)絡(luò)、高性能計(jì)算機(jī)群、知識(shí)庫(kù)系統(tǒng)和應(yīng)用界面四個(gè)層次。見(jiàn)曹存根《NKI——21世紀(jì)的科技熱點(diǎn)》,載《計(jì)算機(jī)世界》1998年50期,12月28日,產(chǎn)品與技術(shù)版,D1,3頁(yè)。

[5]見(jiàn)黃寬重、劉增貴《中央研究院人文計(jì)算的回顧與前瞻》,載《漢學(xué)研究通訊》總66期, 145—168頁(yè)(臺(tái)灣中央研究院計(jì)算中心的網(wǎng)址為(http://www.sinica.edu.tw)。但是中央研究院的資料庫(kù)也不能完成知識(shí)發(fā)現(xiàn)功能,所以還有進(jìn)一步研究的必要。

[6]如武漢大學(xué)出版社的《文淵閣四庫(kù)全書(shū)》光盤(pán)、上海人民出版社與北京書(shū)同文電腦公司合作的同名光盤(pán),以及文物出版社、人民美術(shù)出版社、上海人民美術(shù)出版社與北京銀冠電腦公司合作的《中國(guó)美術(shù)全集》光盤(pán)等。

[7]撰述和記注系借用章學(xué)誠(chéng)的概念,見(jiàn)《文史通義·書(shū)教》下,《章學(xué)誠(chéng)遺書(shū)》,4頁(yè),文物出版社,1985年8月。

[8]見(jiàn)董小英《Internet——數(shù)據(jù)庫(kù)產(chǎn)業(yè)發(fā)展的新機(jī)遇》,載《互聯(lián)網(wǎng)世界》1999年1期,36—38頁(yè)。

[9]見(jiàn)朱巖《多文種信息處理與圖書(shū)館現(xiàn)代化》,載《現(xiàn)代圖書(shū)情報(bào)》1996年5期,6—9頁(yè)。北京中易電子公司和中國(guó)標(biāo)準(zhǔn)化技術(shù)開(kāi)發(fā)公司聯(lián)合開(kāi)發(fā)的“全漢橋2000”漢字系統(tǒng)很可能成為未來(lái)的國(guó)際新標(biāo)準(zhǔn),它擁有十萬(wàn)漢字字庫(kù)。(見(jiàn)《鄭碼超級(jí)漢字系統(tǒng)收集10萬(wàn)漢字》,載《計(jì)算機(jī)世界》1999年6期,2月8日,綜合新聞版,A11頁(yè))可用于古籍整理出版,電子版高麗大藏經(jīng)已用此系統(tǒng)制作成功。(新江、吳寧《光盤(pán)版大藏經(jīng)時(shí)不我待》,載《世界宗教文化》1998年4期,6—9頁(yè)。)

[10]見(jiàn)侯怡波《“筆”妙自生花——非鍵盤(pán)輸入技術(shù)時(shí)代正向我們走來(lái)》,載《互聯(lián)網(wǎng)世界》1999年1期,70—74頁(yè)。

[11]見(jiàn)王珊、林耀森《中文數(shù)據(jù)庫(kù)的研究與展望》,載《計(jì)算機(jī)世界》1998年34期,9月7日,技術(shù)專題版,D1頁(yè)。又馬應(yīng)章《中文數(shù)據(jù)庫(kù)——數(shù)據(jù)庫(kù)本地化的重要議題》,載《計(jì)算機(jī)世界》同期,D4—5頁(yè)。

[12]孟小峰、王珊《中文數(shù)據(jù)庫(kù)自然語(yǔ)言界面研究》,載《計(jì)算機(jī)世界》1998年34期,技術(shù)專題版,D8—9頁(yè)。

[13]見(jiàn)高文《KDD:數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)》,載《計(jì)算機(jī)世界》1998年37期,8月28日,技術(shù)專題版,D1頁(yè)。又朱廷劭《數(shù)據(jù)挖掘——極具發(fā)展前景的新領(lǐng)域》,載《計(jì)算機(jī)世界》1999年1 期,1月4日,產(chǎn)品與技術(shù)版,C14頁(yè),文中提供了三個(gè)網(wǎng)址訪問(wèn)KDD in China :清華AILINUX(http://ailinux.ml.org/~kdd)、中山國(guó)際(http://202.96.189.28/kdd/index.html)和沈陽(yáng)SYNET(http://202.112.29.35/kdd)。

[14]見(jiàn)朱廷劭、王軍《數(shù)據(jù)挖掘應(yīng)用》,載《計(jì)算機(jī)世界》1998年37期,9月28日,技術(shù)專題版,D5, 8頁(yè)。

[15]古籍的載體轉(zhuǎn)化固然十分重要,但數(shù)字化古籍事業(yè)須綜合運(yùn)用多種計(jì)算機(jī)技術(shù),絕非單憑一項(xiàng)OCR技術(shù)能夠完成。

[16]見(jiàn)《校讎通義·校讎條理》,《章學(xué)誠(chéng)遺書(shū)》,98頁(yè)。

[17]好的檢索工具依關(guān)鍵詞的內(nèi)部特征排列正文,而以其外部特征排列索引,例如《中國(guó)叢書(shū)綜錄》“總目”和“子目”的正文以四部分類(lèi)法(類(lèi)別屬于書(shū)目關(guān)鍵詞的內(nèi)部特征)來(lái)部勒群書(shū),而輔以書(shū)名和作者(關(guān)鍵詞)首字的四角號(hào)碼、筆畫(huà)、音序(均屬外部特征)索引。但是這類(lèi)檢索工具多限于目錄(如《中國(guó)叢書(shū)綜錄》)、職官年表(如吳廷燮《唐方鎮(zhèn)年表》)、法令匯編(如仁井田升《唐令拾遺》)等,而其他類(lèi)別的檢索工具多只依關(guān)鍵詞的外部特征排檢,不能體現(xiàn)關(guān)鍵詞的相關(guān)性,讀者不能通過(guò)查詢一個(gè)關(guān)鍵詞從而查得與此相關(guān)聯(lián)的其它關(guān)鍵詞。例如《世說(shuō)新語(yǔ)箋釋》書(shū)后附有引書(shū)索引,為讀者提供了極大的方便,但是我們?nèi)绻獧z索《世說(shuō)新語(yǔ)》及劉孝標(biāo)注中所見(jiàn)的家譜,就必須閱覽全部的引書(shū)索引才能獲得檢索結(jié)果,因?yàn)橐龝?shū)索引只有書(shū)名首字的筆畫(huà)排檢方式,而沒(méi)有分類(lèi)排檢方式,讀者無(wú)法即類(lèi)求書(shū)。

[18]由于高性能計(jì)算機(jī)具備海量存儲(chǔ)設(shè)備,而且價(jià)格低廉,所以我們不必?fù)?dān)心這種數(shù)據(jù)庫(kù)占用過(guò)多空間。

[19]臺(tái)灣中央研究院計(jì)算中心所制作的某些古籍資料庫(kù)沒(méi)有瀏覽功能,如“二十五史資料庫(kù)”,這不能不說(shuō)是令人遺憾的缺失。

[20]其具體的技術(shù)實(shí)現(xiàn)方法見(jiàn)李澤光《用idc/htx實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)Web信息檢索》,載《計(jì)算機(jī)世界》1999年5期,2月1日,電腦與生活版,E14頁(yè)。

[21]見(jiàn)曹存根前引文。

原載《國(guó)家圖書(shū)館學(xué)刊》1999年02期

 
主站蜘蛛池模板: 临沧市| 贵定县| 黄龙县| 绍兴县| 邵阳县| 芦溪县| 武威市| 健康| 漳平市| 壤塘县| 靖宇县| 莱州市| 中江县| 闵行区| 扶风县| 阿克苏市| 绥芬河市| 石阡县| 浑源县| 旅游| 孙吴县| 五寨县| 南充市| 澄城县| 察隅县| 浠水县| 乌什县| 大邑县| 小金县| 突泉县| 普安县| 谢通门县| 武汉市| 西藏| 霍州市| 微山县| 建宁县| 湛江市| 德化县| 牙克石市| 贺兰县|