二十世紀(jì)八十年代,文史研究領(lǐng)域逐漸擺脫了政治的限制,發(fā)生了翻天覆地的變化,正如甲骨文的發(fā)現(xiàn)給學(xué)術(shù)研究帶來(lái)的沖擊,導(dǎo)致一個(gè)新學(xué)科的誕生,計(jì)算機(jī)技術(shù)的發(fā)展,也產(chǎn)生了一個(gè)文理結(jié)合的學(xué)科——電子文獻(xiàn)學(xué)。因應(yīng)于此,首都師范大學(xué)電子文獻(xiàn)研究所應(yīng)運(yùn)而生。電子文獻(xiàn)研究所自成立以來(lái),得到了各界領(lǐng)導(dǎo)及學(xué)術(shù)界大力支持,也在古籍?dāng)?shù)字化方面進(jìn)行了一些積極的探索。
古籍?dāng)?shù)字化,簡(jiǎn)言之,就是利用現(xiàn)代信息技術(shù)對(duì)古代文獻(xiàn)進(jìn)行整理與研究,并以電子數(shù)據(jù)的方式提供使用。數(shù)字化的古籍再配合一定的檢索軟件,使古籍的閱讀、翻檢都大為便利,擴(kuò)展了囿于時(shí)間、精力的個(gè)人有限的閱讀能力,正如古人夢(mèng)想的神筆,頃刻間可以將萬(wàn)卷詩(shī)書(shū)盡控于掌中,引起了社會(huì)各界的廣泛關(guān)注。
古籍?dāng)?shù)字化大約興起于上個(gè)世紀(jì)90年代,當(dāng)時(shí)僅限于電子文本閱讀,也因?yàn)橛?jì)算機(jī)的普及程度低,參與的此項(xiàng)工作的范圍極其有限。目前,各類(lèi)學(xué)術(shù)政府部門(mén)、研究機(jī)構(gòu)、大專(zhuān)院校乃至個(gè)人都紛紛加入到古籍?dāng)?shù)字化的隊(duì)伍中來(lái),致使這一新興領(lǐng)域在短短十年中,迅速發(fā)展,目前大約有40億字的古籍被數(shù)字化,出現(xiàn)了《四庫(kù)全書(shū)》、《國(guó)學(xué)寶典》等大型數(shù)據(jù)庫(kù),國(guó)家也倡導(dǎo)了大型的古籍?dāng)?shù)字化工程。隨著網(wǎng)絡(luò)的普及發(fā)展,在線的網(wǎng)絡(luò)古籍電子資源也如雨后春筍,讓人極大地感受到信息時(shí)代的便利。
通過(guò)古籍?dāng)?shù)字化,建設(shè)大型古籍?dāng)?shù)據(jù)庫(kù),提供貼近現(xiàn)代學(xué)術(shù)的典籍資源,推進(jìn)傳統(tǒng)文化的現(xiàn)代化進(jìn)程,為學(xué)術(shù)研究提供新的動(dòng)力。將古籍原典、歷朝歷代整理成果數(shù)字化,形成一個(gè)龐大精深的立體知識(shí)體系,使數(shù)據(jù)庫(kù)建設(shè)成為連續(xù)性的、開(kāi)放式的,與文化傳承和學(xué)術(shù)研究息息相關(guān)的一項(xiàng)工作,可以實(shí)現(xiàn)海量信息查詢、字詞頻分析,用字量統(tǒng)計(jì)等古人難以實(shí)現(xiàn)的功能,為學(xué)術(shù)研究拓展一片新領(lǐng)域。
在古籍?dāng)?shù)字化欣欣向榮的同時(shí),我們也看到,古籍?dāng)?shù)字化缺乏一定的引導(dǎo),在數(shù)據(jù)質(zhì)量、數(shù)據(jù)內(nèi)容等方面存在諸多問(wèn)題,個(gè)別數(shù)字化資源隨意節(jié)選,以訛傳訛,產(chǎn)生了對(duì)讀者的誤導(dǎo),也給研究人員使用帶來(lái)了阻礙,加之部分?jǐn)?shù)字化不注意對(duì)傳統(tǒng)文化的選擇,為了迎合讀者,選取古籍中的糟粕,產(chǎn)生了不良的社會(huì)影響,亟需規(guī)范化引導(dǎo)。為此,我們將建設(shè)“電子定本工程”,以期古籍?dāng)?shù)字化的健康發(fā)展。
為了總結(jié)、交流古籍?dāng)?shù)字化的經(jīng)驗(yàn),探討數(shù)字化存在的問(wèn)題,展望古籍?dāng)?shù)字化的前景,我們邀請(qǐng)各地專(zhuān)家學(xué)者,濟(jì)濟(jì)一堂,希望大家暢所欲言,共同開(kāi)拓古籍?dāng)?shù)字化的輝煌未來(lái)。
下面,我謹(jǐn)就古籍?dāng)?shù)字化的使命與前景發(fā)表一下簡(jiǎn)單意見(jiàn),就教于各位方家。
黑格爾在《歷史哲學(xué)》說(shuō)過(guò),中國(guó)文化是世界上唯一綿延至今的文化。伏爾泰也說(shuō)過(guò):“世界的歷史始于中國(guó)。”中華民族創(chuàng)造了輝煌燦爛的物質(zhì)文明與精神文明,形成了中華優(yōu)秀傳統(tǒng)文化,孕育了偉大的民族精神,正是這樣的民族精神,使我們的民族與國(guó)家,在任何歷史時(shí)刻,威武不屈,綿延生長(zhǎng),薪火相傳。世界上有許多偉大的民族,也創(chuàng)造了同樣輝煌燦爛的文明,但是,都沒(méi)有流傳下來(lái),只成為了歷史的遺跡。其重要原因,就是文明載體缺乏連續(xù)性,無(wú)法流傳。中華民族在五千多年的歷史長(zhǎng)河中,創(chuàng)造了輝煌燦爛的物質(zhì)文明與精神文明,形成了中華傳統(tǒng)優(yōu)秀文化,孕育出偉大的民族精神。我國(guó)宏富浩繁的文化典籍,是中華民族政治、經(jīng)濟(jì)、歷史、文化和民族精神的重要載體。據(jù)專(zhuān)家估計(jì),中國(guó)存世古籍總計(jì)在10萬(wàn)種以上,如果計(jì)入碑刻、家譜等,約有15萬(wàn)種左右。這些存世古籍,負(fù)載著厚重的中華文明,凝聚著民族智慧,是祖先留給我們的一筆龐大的精神遺產(chǎn)。發(fā)揚(yáng)時(shí)代精神,堅(jiān)持古為今用、推陳出新,大力發(fā)揚(yáng)中華民族的優(yōu)秀文化,是時(shí)代賦予當(dāng)代知識(shí)分子義不容辭的責(zé)任。
可以說(shuō),人類(lèi)文明的每一次進(jìn)步,都伴隨著技術(shù)的進(jìn)步。古籍?dāng)?shù)字化將傳統(tǒng)文化與現(xiàn)代信息技術(shù)結(jié)合,在社會(huì)分工日益明晰的今天,也順應(yīng)了人的全方面發(fā)展的需求,在當(dāng)今社會(huì)的意義,大而言之,就是肩負(fù)著傳承中華文明的重要使命;小而言之,為學(xué)術(shù)提供研究利器,滿足新時(shí)代的閱讀古籍的多方面、多層次需求。
一、古籍?dāng)?shù)字化是延續(xù)民族文化的重要手段
一個(gè)民族的文化精神可以說(shuō)是一個(gè)民族生存下去的理由和靈魂,對(duì)傳統(tǒng)的揚(yáng)棄,決定著這個(gè)民族文化精神的統(tǒng)一性、傳承性和創(chuàng)新性。而對(duì)傳統(tǒng)文化進(jìn)行揚(yáng)棄的前提是首先要了解傳統(tǒng)文化,入乎其內(nèi),方可出乎其外。通過(guò)數(shù)字化工程,我們對(duì)傳統(tǒng)文化進(jìn)行全面整理的同時(shí),也是對(duì)傳統(tǒng)文化的再學(xué)習(xí)。
中華五千年優(yōu)秀文化遺留下來(lái)卷帙浩繁的古籍文獻(xiàn)資料,雖然歷代都曾做了很多搶救整理工作,但經(jīng)過(guò)主觀人為的編纂刪修,以及因承載介質(zhì)或時(shí)代、自然等因素造成的減損、流失,許多古籍消失了,而且無(wú)法再生。封藏于高閣之中的古籍文獻(xiàn)資料在呼喚人們重新發(fā)現(xiàn)和認(rèn)識(shí)它們的價(jià)值。古籍?dāng)?shù)字化,是當(dāng)代技術(shù)的進(jìn)步為古籍整理工作提供的一個(gè)新途徑,通過(guò)復(fù)制轉(zhuǎn)存,可以相對(duì)真實(shí)、永久地保存古籍原貌,其內(nèi)容理論上可以無(wú)限期保存。我們可以利用現(xiàn)代技術(shù)手段,對(duì)古籍進(jìn)行整理和挖掘,發(fā)現(xiàn)其中對(duì)現(xiàn)代社會(huì)的發(fā)展有益的部分,為世界人民的和諧共生服務(wù)。
二、古籍?dāng)?shù)字化為傳統(tǒng)文化走向現(xiàn)代化提供了必要條件
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)傳播不受時(shí)空限制、信息量大、傳播速度快的特點(diǎn),使數(shù)字信息成為最重要的文化資源。2004年底,全球最大的搜索引擎公司GOOGLE決定與美國(guó)斯坦福大學(xué)圖書(shū)館等五家圖書(shū)館合作,開(kāi)創(chuàng)世界上最大的數(shù)字化網(wǎng)上圖書(shū)館;ヂ(lián)網(wǎng)上的數(shù)字圖書(shū)館,將使人類(lèi)的精神文化寶庫(kù)跨越時(shí)空,在全人類(lèi)面前實(shí)現(xiàn)資源共享。顯然,英美的聯(lián)合已經(jīng)占了互聯(lián)網(wǎng)上話語(yǔ)權(quán)之先機(jī),在一個(gè)人們極力等待著全球化到來(lái)的時(shí)代,技術(shù)的難關(guān)已經(jīng)不再是困擾人們的主要問(wèn)題,如何在傳播民族文化的同時(shí),保存民族文化的獨(dú)立品格,維護(hù)世界文化多元性的存在,是問(wèn)題的關(guān)鍵所在。作為東方文化重要組成部分,中華文化在這一方面,也應(yīng)該有自己響亮的聲音。將汗牛充棟的中華文化典籍?dāng)?shù)字化,搬上互聯(lián)網(wǎng),首先,讓古老的中國(guó)文化借助現(xiàn)代信息技術(shù)再現(xiàn)輝煌,讓全世界人們感受到東方文化恒久彌新的魅力,也可以使全球范圍的炎黃子孫能夠方便、快捷地學(xué)習(xí)了解本民族的文化。文化的傳承與保護(hù)只有與技術(shù)的進(jìn)步保持同步,才能世代相傳。時(shí)至今日,華麗的縑帛、樸拙的青銅器都已經(jīng)成了歷史的遺物,一代有一代之學(xué)術(shù),也有一代的文化載體。數(shù)字化時(shí)代要求傳統(tǒng)文化也應(yīng)該進(jìn)入數(shù)字化的行列。當(dāng)今社會(huì),只有數(shù)字化產(chǎn)品才能迅速、準(zhǔn)確地進(jìn)行傳遞和交流,才能夠?yàn)榛ヂ?lián)網(wǎng)信息平臺(tái)提供有價(jià)值的信息資源,使傳統(tǒng)文化在信息傳播的深度、廣度、速度上有一個(gè)質(zhì)的飛躍。
三、古籍?dāng)?shù)字化為學(xué)術(shù)研究開(kāi)辟了一條新途徑
自19世紀(jì)末20世紀(jì)初以來(lái),中國(guó)傳統(tǒng)學(xué)術(shù)在西方學(xué)術(shù)沖擊下,發(fā)生了巨大轉(zhuǎn)折。目前,言學(xué)者必論西方,學(xué)術(shù)話語(yǔ)與研究理路都來(lái)自西學(xué)界。一味的排外是愚昧,一味的尊崇他人也是愚昧。在西方文化大量滲透的形勢(shì)下,什么才是我們的中流砥柱?決不是來(lái)自西方的學(xué)術(shù)。我們?cè)趯W(xué)習(xí)西方的同時(shí),不能以變成西方為目標(biāo),而應(yīng)該以發(fā)展自己的傳統(tǒng)文化為主旨,只有這樣,中國(guó)學(xué)術(shù)才能發(fā)展下去。只有拓展眼光,開(kāi)闊胸懷,既繼承和發(fā)揚(yáng)中華文明,又積極吸取人類(lèi)文明的一切優(yōu)秀成果,才能使我們的民族精神如魯迅所說(shuō),“外之既不后于世界之思潮,內(nèi)之仍弗失固有之血脈”。通過(guò)數(shù)字化工程,為全球華人,為學(xué)術(shù)界提供良工利器,提供更貼近現(xiàn)代學(xué)術(shù)的典籍資源,與學(xué)術(shù)界互動(dòng),推進(jìn)傳統(tǒng)文化的現(xiàn)代化進(jìn)程。通過(guò)對(duì)傳統(tǒng)文化的深入了解與接觸,能夠增強(qiáng)我們的民族自尊心和對(duì)本族文化的自信心,取其精華棄其糟粕,彌合文化的斷層,增強(qiáng)民族凝聚力,使中國(guó)傳統(tǒng)文化獲得健康的發(fā)展,推進(jìn)社會(huì)的穩(wěn)定和諧進(jìn)步。
“千里之行,始于足下!惫偶?dāng)?shù)字化任重道遠(yuǎn),有很多問(wèn)題等著我們?nèi)ヌ幚。這次會(huì)議列出的七大議題:
①中文古籍?dāng)?shù)字化的歷史、現(xiàn)狀和未來(lái);
、诤(nèi)外古籍?dāng)?shù)字化發(fā)展方向及新技術(shù)應(yīng)用;
、蹥v史地理信息系統(tǒng)應(yīng)用平臺(tái)與專(zhuān)題研究;
④古籍加工整理的電子數(shù)據(jù)格式及規(guī)范;
、莺(jiǎn)、繁體轉(zhuǎn)換與古籍?dāng)?shù)據(jù)庫(kù)字形處理;
⑥古籍檢索平臺(tái)與知識(shí)庫(kù)建設(shè);
、吖偶墨I(xiàn)網(wǎng)絡(luò)建設(shè)與古籍的白話文及多語(yǔ)種翻譯。
以上只是這次會(huì)議的部分議題。下面的大會(huì)發(fā)言中都有所涉及,而且范圍更加寬廣。我也不講古籍?dāng)?shù)字化如何建設(shè),有什么困難,應(yīng)當(dāng)注意些什么。利用有限的時(shí)間,擬著重就我所知談?wù)劰偶當(dāng)?shù)字化的能力和未來(lái)發(fā)展。
近幾年,古籍?dāng)?shù)字化做了些什么,未來(lái)前景又怎樣呢?下面擬通過(guò)10個(gè)特殊實(shí)例來(lái)展示其功用。
例1:存貯容量問(wèn)題。
在一般字庫(kù)中,1個(gè)漢字占2個(gè)字節(jié)。
1024bt(字節(jié))=1K,大約可存放500個(gè)漢字
1024K=1M,大約可存放50萬(wàn)漢字
1024M=1G,大約可存放5億漢字
現(xiàn)在市場(chǎng)已有16G的優(yōu)盤(pán),全部用來(lái)存放文字,大約可存放80億漢字。
“國(guó)學(xué)智能書(shū)庫(kù)”會(huì)議紀(jì)念版,即存有2億多漢字,幾千幅圖,1小時(shí)的聲音文件。
我們制作的《四庫(kù)大系》圖形數(shù)據(jù)庫(kù),將《續(xù)修四庫(kù)全書(shū)》、《四庫(kù)未收》、《四庫(kù)存目》、《四庫(kù)禁毀》全部1000多萬(wàn)頁(yè)的圖像全部存放在一個(gè)500G的活動(dòng)硬盤(pán)中,使用非常方便。
例2:檢索速度問(wèn)題。
《國(guó)學(xué)寶典》網(wǎng)絡(luò)版演示:從經(jīng)史子集全庫(kù)中查“古籍”一詞。
在“國(guó)學(xué)智能書(shū)庫(kù)”24史中查“古籍”一詞。從2億字的庫(kù)
例3:古籍錄入問(wèn)題
鍵盤(pán)輸入。
OCR識(shí)別。
手寫(xiě)輸入,語(yǔ)音輸入等。
例4:檢索問(wèn)題
檢索問(wèn)題是古籍電子化過(guò)程中最重要的一個(gè)環(huán)節(jié),涉及到古籍分類(lèi)、?、字形、計(jì)算機(jī)字庫(kù)、關(guān)鍵詞索引、檢索程序(計(jì)算語(yǔ)言、程序算法)、人機(jī)界面等諸多問(wèn)題。
數(shù)據(jù)庫(kù)檢索,最重要是查全率和查準(zhǔn)率兩項(xiàng)指標(biāo)。
此外,還有“有無(wú)”、“先后”、“多少”三大主題。
A、孰有孰無(wú)
“言有易,言無(wú)難”——趙元任語(yǔ),王力多次引用。
馮其庸先生講:文革期間,郭沫若從某處看到《再生緣》作者陳云貞寫(xiě)給秋塘的一封信,郭老初步認(rèn)為秋塘是陳云貞的丈夫范秋塘,但無(wú)有找到相關(guān)文獻(xiàn)。用古籍?dāng)?shù)據(jù)庫(kù)軟件檢索“秋塘”,馬上就能找到清俞蛟《春明叢說(shuō)》中有陳云貞致夫書(shū),“范秋塘,淮南諸生也。早失怙恃,倜儻不羈,恃才鴛傲。繼母某氏,素悍。秋塘不能供子職,遂以忤逆呈當(dāng)事,謫戍伊犁。其妻云貞,淑而多才,擅長(zhǎng)筆札,工吟詠,恒致書(shū)萬(wàn)里外,與秋塘相問(wèn)答。金壇相國(guó)猶子和同,在戍所,時(shí)相過(guò)從。秋塘每出妻手札以示,于君嘆服,錄藏篋底。”俞蛟為康乾時(shí)人,記錄當(dāng)為可信。
宋洪邁《容齋五筆》卷九:“元元二字,考之《六經(jīng)》無(wú)所見(jiàn),而兩《漢書(shū)》多用之!
宋邵博《邵氏聞見(jiàn)后錄》卷十九:“劉夢(mèng)得作《九日詩(shī)》,欲用糕字,以《五經(jīng)》中無(wú)之,輟不復(fù)為。宋子京以為不然。故子京《九日食糕》有詠云:‘飆館輕霜拂曙袍,糗餐花飲斗分曹。劉郎不敢題糕字,虛負(fù)詩(shī)中一世豪。'遂為古本絕唱。‘糗餌粉蜜',糕類(lèi)也,出《周禮》!
宋吳曾《能改齋漫錄》卷一:“經(jīng)典無(wú)騎字。古者服牛乘馬,馬以駕車(chē),不單騎也。至六國(guó)之時(shí),始有單騎。蘇秦所謂‘車(chē)千乘,騎萬(wàn)匹'是也。《曲禮》云‘前有車(chē)騎'者,《禮記》乃漢世書(shū)耳。經(jīng)典并無(wú)騎字。”
《聲律啟蒙》卷上:“張駿曾為槐樹(shù)賦,杜陵不作海棠詩(shī)!
宋周煇《清波雜志》卷五:“東坡在黃岡,每用官妓侑觴。群姬持紙乞歌詞,不違其意而予之。有李琦者,獨(dú)未蒙賜。一日,有請(qǐng),坡乘醉書(shū)‘東坡五載黃州往,何事無(wú)言贈(zèng)李琦'。后句未續(xù),移時(shí)乃以‘卻似城南杜工部,海棠雖好不吟詩(shī)'足之,獎(jiǎng)飾乃出諸人右。其人自此聲價(jià)增重,殆類(lèi)子美詩(shī)中黃四娘。”
宋何薳《春渚紀(jì)聞》卷六“李琦”作“李琪”,“五載”作“七載”。明蔣一癸《堯山堂外紀(jì)》卷五十二亦記此事。
《浪跡三談》卷三:“世傳杜子美母名海棠,故全詩(shī)不及海棠,此不知所出何典。”
B、孰先孰后
1997年,我第一次去湯一介先生家,樂(lè)黛云給我講了一個(gè)故事:若干年前,她在國(guó)外開(kāi)一個(gè)學(xué)術(shù)會(huì)議,會(huì)上有外國(guó)學(xué)者提出“憂郁”一詞在“十三經(jīng)”、“二十四史”中都沒(méi)有,可能最早出現(xiàn)于日本,當(dāng)時(shí)在場(chǎng)的許多中國(guó)學(xué)者竟無(wú)法回答。會(huì)后,她利用燕京大學(xué)的諸子引得,查出早在春秋戰(zhàn)國(guó)時(shí)期中國(guó)就有“憂郁”一詞(見(jiàn)《管子》),肯定是此詞的源頭了。當(dāng)然,現(xiàn)在這類(lèi)問(wèn)題已經(jīng)不存在了。
《辭源》對(duì)“衰退”一詞的解釋是:精力衰減。猶云年邁。
其引語(yǔ)為宋曾鞏《元豐類(lèi)稿》和宋陳傅良《止齋集》。
通過(guò)古籍?dāng)?shù)據(jù)庫(kù)檢索,可以找出以下例句:
《晉書(shū)》卷六十八:“〔紀(jì)瞻〕上疏曰:……須臣差,則臣日月衰退!
唐玄奘譯《緣起經(jīng)》:“云何為老:……損減衰退、諸根耄熟,……是名為老!
《釋迦方志》卷下:“樹(shù)東大路左右各一塔,是魔王嬈佛衰退處!
《唐會(huì)要》卷六十七載太和元年楊于陵上疏:“臣以年力衰退,陳乞休閑。”
《宋史》卷一百九十二:“或武藝衰退者,許他人指名與之比較!
據(jù)此可以看出,此條目一是釋義不準(zhǔn),二是引語(yǔ)較晚。
《漢語(yǔ)大詞典》對(duì)“衰退”詞條的解釋是:
、澹ㄉ眢w、精神、意志、能力等)衰弱退步。㈡(政治、經(jīng)濟(jì)、文化等狀況)衰落減退。
解釋雖較《辭源》為優(yōu),但引用的例句是唐沈千運(yùn)《濮中言懷》詩(shī),仍未找出最早的例句。
C、孰多孰少
社科院黃正建研究員在《唐代“士大夫”的特色及其變化》一文中,就使用了“士大夫”、“士君子”在兩《唐書(shū)》和《宋史》中出現(xiàn)次數(shù)來(lái)說(shuō)明其觀點(diǎn)。
例5:保留古籍原版式問(wèn)題
圖文對(duì)照!端膸(kù)全書(shū)》,《中國(guó)基本古籍庫(kù)》
雙層PDF文件。
例6:古書(shū)字?jǐn)?shù)。
清阮葵生《茶馀客話》卷十載:“〔鄭耕老云〕以字計(jì)之,《毛詩(shī)》三萬(wàn)九千一百二十四字,……《春秋左傳》二十萬(wàn)一千三百五十字。大小九經(jīng),合四十八萬(wàn)四千四百九十五字!编嵏蠟槟纤螘r(shí)人,他統(tǒng)計(jì)的九部儒家經(jīng)典字?jǐn)?shù)給我們留下了十分寶貴的信息。清朱彝尊《經(jīng)義考》卷二百八十九也詳細(xì)記錄了石刻各經(jīng)字?jǐn)?shù)。用《國(guó)學(xué)寶典》軟件的統(tǒng)計(jì)功能,僅需數(shù)秒鐘,即可完成各經(jīng)字?jǐn)?shù)統(tǒng)計(jì),F(xiàn)將以上三種統(tǒng)計(jì)數(shù)列表如下:
序號(hào) |
書(shū)名 |
《茶馀客話》引鄭耕老數(shù) |
《經(jīng)義考》引《石刻鋪敘》數(shù) |
《國(guó)學(xué)寶典》統(tǒng)計(jì)數(shù) |
01 |
周易 |
24,207 |
24,052 |
21,696 |
02 |
尚書(shū) |
25,700 |
26,286 |
25,700 |
03 |
毛詩(shī) |
39,124 |
41,021 |
30,387 |
04 |
周禮 |
45,806 |
50,508 |
49,413 |
05 |
儀禮 |
|
52,802 |
53,867 |
06 |
禮記 |
99,020 |
98,545 |
97,985 |
07 |
春秋左傳 |
201,350(注1) |
197,265 |
197,294 |
08 |
春秋公羊傳 |
|
44,738 |
44,922 |
09 |
春秋穀梁傳 |
|
41,890 |
42,242 |
10 |
論語(yǔ) |
12,700 |
15,913 |
15,917 |
11 |
孟子 |
34,685 |
/td>
| 35,385 |
12 |
孝經(jīng) |
1,903 /td>
| 1,798 |
1,903 |
注1:《寄園寄所寄》引《鄭耕老勸學(xué)》為196,845字,誤。
從上表可以看出,《尚書(shū)》《孝經(jīng)》自宋以來(lái),在一千多年的流傳中內(nèi)容幾乎沒(méi)有變化;清代所用《孝經(jīng)》則少了105字(可能是故意被刪掉);現(xiàn)存《周易》《毛詩(shī)》字?jǐn)?shù)較宋代有所減少,可能是個(gè)別篇章或段落有所流失,《論語(yǔ)》《孟子》《尚書(shū)》字?jǐn)?shù)有所增加,是否為清代加入,或新發(fā)現(xiàn)逸文尚待研究。
例7:字頻與用字量統(tǒng)計(jì)。
《紅樓夢(mèng)》全書(shū)總字?jǐn)?shù)729636個(gè)(不含標(biāo)點(diǎn)),用字4426個(gè),使用頻率最高的10個(gè)字順序是:“了”、“不”、“一”、“來(lái)”、“人”、“道”、“我”、“是”、“說(shuō)”、“他”。
如果將全書(shū)分為三部分進(jìn)行統(tǒng)計(jì),其結(jié)果是:
前40回,總字?jǐn)?shù)為22萬(wàn)8915字,用字量3661個(gè);
中40回,總字?jǐn)?shù)為26萬(wàn)6572字,用字量3655個(gè);
后40回,總字?jǐn)?shù)為23萬(wàn)4149字,用字量3139個(gè)。
前40回和中間40回,用字量相差甚小,差率約為1.6‰,后40回與前40回相比,差率約為166‰,差率達(dá)100多倍。
例8:模糊檢索。
水繞宮墻處處聲,殘紅長(zhǎng)綠露華清。武皇一夕夢(mèng)不覺(jué),十二玉樓空月明。
例9:自動(dòng)排版。
。▓D)
例10:特殊查找。
《六一詩(shī)話》:“馬放當(dāng)時(shí)有進(jìn)士許洞者,善為詞章,俊逸之士也。因會(huì)諸詩(shī)僧分題,出一紙,約曰:‘不得犯此一字。'其字乃山、水、風(fēng)、云、竹、石、花、草、雪、霜、星、月、禽、鳥(niǎo)之類(lèi),于是諸僧皆閣筆。”
查《全唐詩(shī)》卷182,有李白詩(shī)【日夕山中忽然有懷】:
久臥青山云,遂為青山客。
山深云更好,賞弄終日夕。
月銜樓間峰,泉漱階下石。
素心自此得,真趣非外惜。
鼯啼桂方秋,風(fēng)滅籟歸寂。
緬思洪崖術(shù),欲往滄海隔。
云車(chē)來(lái)何遲,撫幾空嘆息。
70字的詩(shī)中,山云風(fēng)月石竟用了9次。
查找中國(guó)四大民間故事“孟姜女的傳說(shuō)”,若將關(guān)鍵詞定為“孟姜女”,則最早只能查到宋元以后的文獻(xiàn),大量重要的前期資料被遺漏。此故事原型是:杞梁之妻尋夫,夫死,向城慟哭,城為之傾。如果將檢索條件定為“杞”、“妻”、“哭”三個(gè)關(guān)鍵字,則可找出大量相關(guān)材料。
《孟子·告子下》:“華周、杞梁之妻善哭其夫而變國(guó)俗。”
《論衡·感虛篇》:“傳書(shū)言:杞梁氏之妻向城而哭,城為之崩。此言杞梁從軍不還,其妻痛之,向城而哭,至誠(chéng)悲痛,精氣動(dòng)城,故城為之崩也;驎r(shí)城適自崩,杞梁妻適哭。”
《文選》卷三十七:“齊莊公襲莒,殖戰(zhàn)死,杞梁之妻無(wú)子,內(nèi)外皆無(wú)五屬之親,既無(wú)所歸,乃就其夫尸於城下而哭之!
《樂(lè)府詩(shī)集》卷五十三:“杞妻哭死夫,梁山為之傾!
《春秋左傳正義》卷三十五:“杞梁死,其妻迎其柩於路,而哭之哀。”
《閑情偶寄·演習(xí)部》:“雖不比杞梁妻,善哭天,也去那哭倒長(zhǎng)城的孟姜不遠(yuǎn)!
《日知錄》卷二十五:“后人相傳乃謂秦筑長(zhǎng)城,有范郎之妻孟姜送寒衣至城下,聞夫死,一哭而長(zhǎng)城為之崩,則又非杞梁妻事矣!
《列朝詩(shī)集》甲集第一:“君不見(jiàn)杞梁之妻善哭夫,哭得城崩又何補(bǔ)!
《東周列國(guó)志》第六十五回:“后世傳秦人范杞梁差筑長(zhǎng)城而死,其妻孟姜女送寒衣至城下,聞夫死痛哭,城為之崩!
期望與大家共同做的幾件事情
1.創(chuàng)建電子文獻(xiàn)學(xué)科
2.建立大型古籍全文和圖像數(shù)據(jù)庫(kù)
3.構(gòu)建中國(guó)文化立體智能知識(shí)體系
古籍是中國(guó)的,是古老的;數(shù)字是世界的,是年輕的。今天海內(nèi)外嘉賓學(xué)者匯聚一堂,共同探索一條傳承中華文明的創(chuàng)新之路。
謝謝大家!
2007年8月13日
【作者單位】首都師范大學(xué)電子文獻(xiàn)研究所 |