二十世紀八十年代,文史研究領域逐漸擺脫了政治的限制,發生了翻天覆地的變化,正如甲骨文的發現給學術研究帶來的沖擊,導致一個新學科的誕生,計算機技術的發展,也產生了一個文理結合的學科——電子文獻學。因應于此,首都師范大學電子文獻研究所應運而生。電子文獻研究所自成立以來,得到了各界領導及學術界大力支持,也在古籍數字化方面進行了一些積極的探索。
古籍數字化,簡言之,就是利用現代信息技術對古代文獻進行整理與研究,并以電子數據的方式提供使用。數字化的古籍再配合一定的檢索軟件,使古籍的閱讀、翻檢都大為便利,擴展了囿于時間、精力的個人有限的閱讀能力,正如古人夢想的神筆,頃刻間可以將萬卷詩書盡控于掌中,引起了社會各界的廣泛關注。
古籍數字化大約興起于上個世紀90年代,當時僅限于電子文本閱讀,也因為計算機的普及程度低,參與的此項工作的范圍極其有限。目前,各類學術政府部門、研究機構、大專院校乃至個人都紛紛加入到古籍數字化的隊伍中來,致使這一新興領域在短短十年中,迅速發展,目前大約有40億字的古籍被數字化,出現了《四庫全書》、《國學寶典》等大型數據庫,國家也倡導了大型的古籍數字化工程。隨著網絡的普及發展,在線的網絡古籍電子資源也如雨后春筍,讓人極大地感受到信息時代的便利。
通過古籍數字化,建設大型古籍數據庫,提供貼近現代學術的典籍資源,推進傳統文化的現代化進程,為學術研究提供新的動力。將古籍原典、歷朝歷代整理成果數字化,形成一個龐大精深的立體知識體系,使數據庫建設成為連續性的、開放式的,與文化傳承和學術研究息息相關的一項工作,可以實現海量信息查詢、字詞頻分析,用字量統計等古人難以實現的功能,為學術研究拓展一片新領域。
在古籍數字化欣欣向榮的同時,我們也看到,古籍數字化缺乏一定的引導,在數據質量、數據內容等方面存在諸多問題,個別數字化資源隨意節選,以訛傳訛,產生了對讀者的誤導,也給研究人員使用帶來了阻礙,加之部分數字化不注意對傳統文化的選擇,為了迎合讀者,選取古籍中的糟粕,產生了不良的社會影響,亟需規范化引導。為此,我們將建設“電子定本工程”,以期古籍數字化的健康發展。
為了總結、交流古籍數字化的經驗,探討數字化存在的問題,展望古籍數字化的前景,我們邀請各地專家學者,濟濟一堂,希望大家暢所欲言,共同開拓古籍數字化的輝煌未來。
下面,我謹就古籍數字化的使命與前景發表一下簡單意見,就教于各位方家。
黑格爾在《歷史哲學》說過,中國文化是世界上唯一綿延至今的文化。伏爾泰也說過:“世界的歷史始于中國。”中華民族創造了輝煌燦爛的物質文明與精神文明,形成了中華優秀傳統文化,孕育了偉大的民族精神,正是這樣的民族精神,使我們的民族與國家,在任何歷史時刻,威武不屈,綿延生長,薪火相傳。世界上有許多偉大的民族,也創造了同樣輝煌燦爛的文明,但是,都沒有流傳下來,只成為了歷史的遺跡。其重要原因,就是文明載體缺乏連續性,無法流傳。中華民族在五千多年的歷史長河中,創造了輝煌燦爛的物質文明與精神文明,形成了中華傳統優秀文化,孕育出偉大的民族精神。我國宏富浩繁的文化典籍,是中華民族政治、經濟、歷史、文化和民族精神的重要載體。據專家估計,中國存世古籍總計在10萬種以上,如果計入碑刻、家譜等,約有15萬種左右。這些存世古籍,負載著厚重的中華文明,凝聚著民族智慧,是祖先留給我們的一筆龐大的精神遺產。發揚時代精神,堅持古為今用、推陳出新,大力發揚中華民族的優秀文化,是時代賦予當代知識分子義不容辭的責任。
可以說,人類文明的每一次進步,都伴隨著技術的進步。古籍數字化將傳統文化與現代信息技術結合,在社會分工日益明晰的今天,也順應了人的全方面發展的需求,在當今社會的意義,大而言之,就是肩負著傳承中華文明的重要使命;小而言之,為學術提供研究利器,滿足新時代的閱讀古籍的多方面、多層次需求。
一、古籍數字化是延續民族文化的重要手段
一個民族的文化精神可以說是一個民族生存下去的理由和靈魂,對傳統的揚棄,決定著這個民族文化精神的統一性、傳承性和創新性。而對傳統文化進行揚棄的前提是首先要了解傳統文化,入乎其內,方可出乎其外。通過數字化工程,我們對傳統文化進行全面整理的同時,也是對傳統文化的再學習。
中華五千年優秀文化遺留下來卷帙浩繁的古籍文獻資料,雖然歷代都曾做了很多搶救整理工作,但經過主觀人為的編纂刪修,以及因承載介質或時代、自然等因素造成的減損、流失,許多古籍消失了,而且無法再生。封藏于高閣之中的古籍文獻資料在呼喚人們重新發現和認識它們的價值。古籍數字化,是當代技術的進步為古籍整理工作提供的一個新途徑,通過復制轉存,可以相對真實、永久地保存古籍原貌,其內容理論上可以無限期保存。我們可以利用現代技術手段,對古籍進行整理和挖掘,發現其中對現代社會的發展有益的部分,為世界人民的和諧共生服務。
二、古籍數字化為傳統文化走向現代化提供了必要條件
隨著互聯網技術的發展,網絡傳播不受時空限制、信息量大、傳播速度快的特點,使數字信息成為最重要的文化資源。2004年底,全球最大的搜索引擎公司GOOGLE決定與美國斯坦福大學圖書館等五家圖書館合作,開創世界上最大的數字化網上圖書館。互聯網上的數字圖書館,將使人類的精神文化寶庫跨越時空,在全人類面前實現資源共享。顯然,英美的聯合已經占了互聯網上話語權之先機,在一個人們極力等待著全球化到來的時代,技術的難關已經不再是困擾人們的主要問題,如何在傳播民族文化的同時,保存民族文化的獨立品格,維護世界文化多元性的存在,是問題的關鍵所在。作為東方文化重要組成部分,中華文化在這一方面,也應該有自己響亮的聲音。將汗牛充棟的中華文化典籍數字化,搬上互聯網,首先,讓古老的中國文化借助現代信息技術再現輝煌,讓全世界人們感受到東方文化恒久彌新的魅力,也可以使全球范圍的炎黃子孫能夠方便、快捷地學習了解本民族的文化。文化的傳承與保護只有與技術的進步保持同步,才能世代相傳。時至今日,華麗的縑帛、樸拙的青銅器都已經成了歷史的遺物,一代有一代之學術,也有一代的文化載體。數字化時代要求傳統文化也應該進入數字化的行列。當今社會,只有數字化產品才能迅速、準確地進行傳遞和交流,才能夠為互聯網信息平臺提供有價值的信息資源,使傳統文化在信息傳播的深度、廣度、速度上有一個質的飛躍。
三、古籍數字化為學術研究開辟了一條新途徑
自19世紀末20世紀初以來,中國傳統學術在西方學術沖擊下,發生了巨大轉折。目前,言學者必論西方,學術話語與研究理路都來自西學界。一味的排外是愚昧,一味的尊崇他人也是愚昧。在西方文化大量滲透的形勢下,什么才是我們的中流砥柱?決不是來自西方的學術。我們在學習西方的同時,不能以變成西方為目標,而應該以發展自己的傳統文化為主旨,只有這樣,中國學術才能發展下去。只有拓展眼光,開闊胸懷,既繼承和發揚中華文明,又積極吸取人類文明的一切優秀成果,才能使我們的民族精神如魯迅所說,“外之既不后于世界之思潮,內之仍弗失固有之血脈”。通過數字化工程,為全球華人,為學術界提供良工利器,提供更貼近現代學術的典籍資源,與學術界互動,推進傳統文化的現代化進程。通過對傳統文化的深入了解與接觸,能夠增強我們的民族自尊心和對本族文化的自信心,取其精華棄其糟粕,彌合文化的斷層,增強民族凝聚力,使中國傳統文化獲得健康的發展,推進社會的穩定和諧進步。
“千里之行,始于足下。”古籍數字化任重道遠,有很多問題等著我們去處理。這次會議列出的七大議題:
①中文古籍數字化的歷史、現狀和未來;
②海內外古籍數字化發展方向及新技術應用;
③歷史地理信息系統應用平臺與專題研究;
④古籍加工整理的電子數據格式及規范;
⑤簡、繁體轉換與古籍數據庫字形處理;
⑥古籍檢索平臺與知識庫建設;
⑦古籍文獻網絡建設與古籍的白話文及多語種翻譯。
以上只是這次會議的部分議題。下面的大會發言中都有所涉及,而且范圍更加寬廣。我也不講古籍數字化如何建設,有什么困難,應當注意些什么。利用有限的時間,擬著重就我所知談談古籍數字化的能力和未來發展。
近幾年,古籍數字化做了些什么,未來前景又怎樣呢?下面擬通過10個特殊實例來展示其功用。
例1:存貯容量問題。
在一般字庫中,1個漢字占2個字節。
1024bt(字節)=1K,大約可存放500個漢字
1024K=1M,大約可存放50萬漢字
1024M=1G,大約可存放5億漢字
現在市場已有16G的優盤,全部用來存放文字,大約可存放80億漢字。
“國學智能書庫”會議紀念版,即存有2億多漢字,幾千幅圖,1小時的聲音文件。
我們制作的《四庫大系》圖形數據庫,將《續修四庫全書》、《四庫未收》、《四庫存目》、《四庫禁毀》全部1000多萬頁的圖像全部存放在一個500G的活動硬盤中,使用非常方便。
例2:檢索速度問題。
《國學寶典》網絡版演示:從經史子集全庫中查“古籍”一詞。
在“國學智能書庫”24史中查“古籍”一詞。從2億字的庫
例3:古籍錄入問題
鍵盤輸入。
OCR識別。
手寫輸入,語音輸入等。
例4:檢索問題
檢索問題是古籍電子化過程中最重要的一個環節,涉及到古籍分類、校勘、字形、計算機字庫、關鍵詞索引、檢索程序(計算語言、程序算法)、人機界面等諸多問題。
數據庫檢索,最重要是查全率和查準率兩項指標。
此外,還有“有無”、“先后”、“多少”三大主題。
A、孰有孰無
“言有易,言無難”——趙元任語,王力多次引用。
馮其庸先生講:文革期間,郭沫若從某處看到《再生緣》作者陳云貞寫給秋塘的一封信,郭老初步認為秋塘是陳云貞的丈夫范秋塘,但無有找到相關文獻。用古籍數據庫軟件檢索“秋塘”,馬上就能找到清俞蛟《春明叢說》中有陳云貞致夫書,“范秋塘,淮南諸生也。早失怙恃,倜儻不羈,恃才鴛傲。繼母某氏,素悍。秋塘不能供子職,遂以忤逆呈當事,謫戍伊犁。其妻云貞,淑而多才,擅長筆札,工吟詠,恒致書萬里外,與秋塘相問答。金壇相國猶子和同,在戍所,時相過從。秋塘每出妻手札以示,于君嘆服,錄藏篋底。”俞蛟為康乾時人,記錄當為可信。
宋洪邁《容齋五筆》卷九:“元元二字,考之《六經》無所見,而兩《漢書》多用之。”
宋邵博《邵氏聞見后錄》卷十九:“劉夢得作《九日詩》,欲用糕字,以《五經》中無之,輟不復為。宋子京以為不然。故子京《九日食糕》有詠云:‘飆館輕霜拂曙袍,糗餐花飲斗分曹。劉郎不敢題糕字,虛負詩中一世豪。'遂為古本絕唱。‘糗餌粉蜜',糕類也,出《周禮》。”
宋吳曾《能改齋漫錄》卷一:“經典無騎字。古者服牛乘馬,馬以駕車,不單騎也。至六國之時,始有單騎。蘇秦所謂‘車千乘,騎萬匹'是也。《曲禮》云‘前有車騎'者,《禮記》乃漢世書耳。經典并無騎字。”
《聲律啟蒙》卷上:“張駿曾為槐樹賦,杜陵不作海棠詩。”
宋周煇《清波雜志》卷五:“東坡在黃岡,每用官妓侑觴。群姬持紙乞歌詞,不違其意而予之。有李琦者,獨未蒙賜。一日,有請,坡乘醉書‘東坡五載黃州往,何事無言贈李琦'。后句未續,移時乃以‘卻似城南杜工部,海棠雖好不吟詩'足之,獎飾乃出諸人右。其人自此聲價增重,殆類子美詩中黃四娘。”
宋何薳《春渚紀聞》卷六“李琦”作“李琪”,“五載”作“七載”。明蔣一癸《堯山堂外紀》卷五十二亦記此事。
《浪跡三談》卷三:“世傳杜子美母名海棠,故全詩不及海棠,此不知所出何典。”
B、孰先孰后
1997年,我第一次去湯一介先生家,樂黛云給我講了一個故事:若干年前,她在國外開一個學術會議,會上有外國學者提出“憂郁”一詞在“十三經”、“二十四史”中都沒有,可能最早出現于日本,當時在場的許多中國學者竟無法回答。會后,她利用燕京大學的諸子引得,查出早在春秋戰國時期中國就有“憂郁”一詞(見《管子》),肯定是此詞的源頭了。當然,現在這類問題已經不存在了。
《辭源》對“衰退”一詞的解釋是:精力衰減。猶云年邁。
其引語為宋曾鞏《元豐類稿》和宋陳傅良《止齋集》。
通過古籍數據庫檢索,可以找出以下例句:
《晉書》卷六十八:“〔紀瞻〕上疏曰:……須臣差,則臣日月衰退。”
唐玄奘譯《緣起經》:“云何為老:……損減衰退、諸根耄熟,……是名為老。”
《釋迦方志》卷下:“樹東大路左右各一塔,是魔王嬈佛衰退處。”
《唐會要》卷六十七載太和元年楊于陵上疏:“臣以年力衰退,陳乞休閑。”
《宋史》卷一百九十二:“或武藝衰退者,許他人指名與之比較。”
據此可以看出,此條目一是釋義不準,二是引語較晚。
《漢語大詞典》對“衰退”詞條的解釋是:
㈠(身體、精神、意志、能力等)衰弱退步。㈡(政治、經濟、文化等狀況)衰落減退。
解釋雖較《辭源》為優,但引用的例句是唐沈千運《濮中言懷》詩,仍未找出最早的例句。
C、孰多孰少
社科院黃正建研究員在《唐代“士大夫”的特色及其變化》一文中,就使用了“士大夫”、“士君子”在兩《唐書》和《宋史》中出現次數來說明其觀點。
例5:保留古籍原版式問題
圖文對照。《四庫全書》,《中國基本古籍庫》
雙層PDF文件。
例6:古書字數。
清阮葵生《茶馀客話》卷十載:“〔鄭耕老云〕以字計之,《毛詩》三萬九千一百二十四字,……《春秋左傳》二十萬一千三百五十字。大小九經,合四十八萬四千四百九十五字。”鄭耕老為南宋時人,他統計的九部儒家經典字數給我們留下了十分寶貴的信息。清朱彝尊《經義考》卷二百八十九也詳細記錄了石刻各經字數。用《國學寶典》軟件的統計功能,僅需數秒鐘,即可完成各經字數統計。現將以上三種統計數列表如下:
序號 |
書名 |
《茶馀客話》引鄭耕老數 |
《經義考》引《石刻鋪敘》數 |
《國學寶典》統計數 |
01 |
周易 |
24,207 |
24,052 |
21,696 |
02 |
尚書 |
25,700 |
26,286 |
25,700 |
03 |
毛詩 |
39,124 |
41,021 |
30,387 |
04 |
周禮 |
45,806 |
50,508 |
49,413 |
05 |
儀禮 |
|
52,802 |
53,867 |
06 |
禮記 |
99,020 |
98,545 |
97,985 |
07 |
春秋左傳 |
201,350(注1) |
197,265 |
197,294 |
08 |
春秋公羊傳 |
|
44,738 |
44,922 |
09 |
春秋穀梁傳 |
|
41,890 |
42,242 |
10 |
論語 |
12,700 |
15,913 |
15,917 |
11 |
孟子 |
34,685 |
/td>
| 35,385 |
12 |
孝經 |
1,903 /td>
| 1,798 |
1,903 |
注1:《寄園寄所寄》引《鄭耕老勸學》為196,845字,誤。
從上表可以看出,《尚書》《孝經》自宋以來,在一千多年的流傳中內容幾乎沒有變化;清代所用《孝經》則少了105字(可能是故意被刪掉);現存《周易》《毛詩》字數較宋代有所減少,可能是個別篇章或段落有所流失,《論語》《孟子》《尚書》字數有所增加,是否為清代加入,或新發現逸文尚待研究。
例7:字頻與用字量統計。
《紅樓夢》全書總字數729636個(不含標點),用字4426個,使用頻率最高的10個字順序是:“了”、“不”、“一”、“來”、“人”、“道”、“我”、“是”、“說”、“他”。
如果將全書分為三部分進行統計,其結果是:
前40回,總字數為22萬8915字,用字量3661個;
中40回,總字數為26萬6572字,用字量3655個;
后40回,總字數為23萬4149字,用字量3139個。
前40回和中間40回,用字量相差甚小,差率約為1.6‰,后40回與前40回相比,差率約為166‰,差率達100多倍。
例8:模糊檢索。
水繞宮墻處處聲,殘紅長綠露華清。武皇一夕夢不覺,十二玉樓空月明。
例9:自動排版。
(圖)
例10:特殊查找。
《六一詩話》:“馬放當時有進士許洞者,善為詞章,俊逸之士也。因會諸詩僧分題,出一紙,約曰:‘不得犯此一字。'其字乃山、水、風、云、竹、石、花、草、雪、霜、星、月、禽、鳥之類,于是諸僧皆閣筆。”
查《全唐詩》卷182,有李白詩【日夕山中忽然有懷】:
久臥青山云,遂為青山客。
山深云更好,賞弄終日夕。
月銜樓間峰,泉漱階下石。
素心自此得,真趣非外惜。
鼯啼桂方秋,風滅籟歸寂。
緬思洪崖術,欲往滄海隔。
云車來何遲,撫幾空嘆息。
70字的詩中,山云風月石竟用了9次。
查找中國四大民間故事“孟姜女的傳說”,若將關鍵詞定為“孟姜女”,則最早只能查到宋元以后的文獻,大量重要的前期資料被遺漏。此故事原型是:杞梁之妻尋夫,夫死,向城慟哭,城為之傾。如果將檢索條件定為“杞”、“妻”、“哭”三個關鍵字,則可找出大量相關材料。
《孟子·告子下》:“華周、杞梁之妻善哭其夫而變國俗。”
《論衡·感虛篇》:“傳書言:杞梁氏之妻向城而哭,城為之崩。此言杞梁從軍不還,其妻痛之,向城而哭,至誠悲痛,精氣動城,故城為之崩也。或時城適自崩,杞梁妻適哭。”
《文選》卷三十七:“齊莊公襲莒,殖戰死,杞梁之妻無子,內外皆無五屬之親,既無所歸,乃就其夫尸於城下而哭之。”
《樂府詩集》卷五十三:“杞妻哭死夫,梁山為之傾。”
《春秋左傳正義》卷三十五:“杞梁死,其妻迎其柩於路,而哭之哀。”
《閑情偶寄·演習部》:“雖不比杞梁妻,善哭天,也去那哭倒長城的孟姜不遠。”
《日知錄》卷二十五:“后人相傳乃謂秦筑長城,有范郎之妻孟姜送寒衣至城下,聞夫死,一哭而長城為之崩,則又非杞梁妻事矣。”
《列朝詩集》甲集第一:“君不見杞梁之妻善哭夫,哭得城崩又何補。”
《東周列國志》第六十五回:“后世傳秦人范杞梁差筑長城而死,其妻孟姜女送寒衣至城下,聞夫死痛哭,城為之崩。”
期望與大家共同做的幾件事情
1.創建電子文獻學科
2.建立大型古籍全文和圖像數據庫
3.構建中國文化立體智能知識體系
古籍是中國的,是古老的;數字是世界的,是年輕的。今天海內外嘉賓學者匯聚一堂,共同探索一條傳承中華文明的創新之路。
謝謝大家!
2007年8月13日
【作者單位】首都師范大學電子文獻研究所 |