古籍數字化應以技術為突破口——兼與程毅中先生商榷
程毅中先生《古籍數字化須以古籍整理為基礎》(刊于《光明日報》4月30日),以國學公司的電子產品《中國歷代筆記》為例,對古籍數字化的基礎進行了探討,發表了看法,也對我們提出了批評。先生能夠專門探討我們的產品,我感到很高興,也非常感謝。
我與程先生相識已久。多年以來,先生一直對我們的古籍數字化給予大力支持和熱情指導。古籍整理不能一蹴而就,我們的古籍數據庫產品也很難一步到位。對于程先生文中所列的問題,我想在此逐一說明。
壹 關于版本問題?!吨袊鴼v代筆記》數據庫均有所本,在單機版的《國學寶典》中,不但有版本信息,還有書目解題。
貳 關于序跋問題。按我們的體例,原作者的序跋,一般予以保留;后人所寫序跋,因其非本書的正文內容,原則上不予收錄。
叁 關于書目和版本的選擇問題。為滿足學術需要,我們邀請了北京大學、清華大學、北京語言大學、首都師范大學、東北師范大學等高校的多位教授擔綱分卷主編。然而,由于此項工程規模宏大,掛一漏萬,在所難免。這也正是我們需要與學術界共同完成的。
肆 關于作者的名字問題。由于古籍中書名、人名盤根錯節,情況復雜,古書作者署名混亂,編者未能詳加考證。但凡遇學者或用戶指出,我們都將及時更正?!遁峁怃洝氛恼`成《稽神錄》,是程序鏈接錯誤。程先生發現后告訴我們,亡羊補牢,還不算晚。此外,數據庫的開放性也是我們產品的特點,多年來,我們的產品得益于廣大用戶良多,就在于學者們在使用過程中及時反饋意見,使我們能不斷改進,以臻完善。
伍 關于“全書沒有統一體例”的問題。程先生在第柒條頭一句話就是“據U盤的凡例說”,至少表明產品是有凡例的。按《辭?!返慕忉?,凡例是“說明著作內容和編纂體例的文字”。事實上,《中國歷代筆記》“凡例”對收錄范圍、編目、版本、輯佚、文字、分段標點、檢索功能、附錄、卷標編碼、人名索引等均有說明,共有15條之多。
陸 關于“輯集未注出處”的問題。在大型古籍數據庫問世以前,輯佚工作是件難度很大的事;在有大型古籍數據庫之后,輯佚工作難度大大減少,查找時間大大縮短,主要是內容甄別的排序。對輯文一般不注出處,是我們數據庫的體例,因為查找這些易如反掌。
柒 關于充分吸收現代人的研究成果與??庇浀膯栴}。對于紙質書的出版,國家有一整套統一的出版標準要求;而古籍數據庫尚處于初創階段,在國家尚未制定統一標準的情況下,我們只能自定標準,在摸索中前進。
程先生舉《朝野僉載》為例,認定我們是根據中華書局整理本錄入并刪除??庇?,此話不妥?!冻皟L載》主要有一卷、五卷、六卷本三個系統,《寶顏堂秘笈》及《四庫全書》本均為六卷。民國石印本《寶顏堂秘笈》并不難得,《四庫全書》全文及圖像版數據庫首都師范大學文學院購有一套,上海古籍、三秦出版社都出過整理本。我們使用的《寶顏堂秘笈》底本,本來就沒有??庇?,又從何處刪起?改正發現的錯別字,是數字化流程中的一道工序,是保證古籍質量的重要措施,也是我們的基本權利和義務。
捌 關于數據庫中的標點問題?!吨袊鴼v代筆記》總字數逾一億字,如果將這些內容排成10萬字一冊的書,足足有一千冊之多。按圖書出版質量標準(差錯率低于萬分之一,標點每處計0.1個差錯),標點差錯在10萬以內尚屬合格。程先生精心挑選的幾處標點錯誤,我們已全部改正。一些學者在使用國學數據庫時,發現錯誤,及時通報,并囑速改,以免貽誤后人。我對這些品行高尚的學者心存感激,這是對古籍數字化事業的巨大鞭策和鼓勵。
為了做好古籍數字化工作,我不僅踏踏實實地做,也一直想在理論上得到證明,集思廣益。
程先生提出的主要觀點是“古籍數字化須以古籍整理為基礎”,但以我們研發數字產品的實際經驗而言,“古籍數字化應以技術為突破口”。古籍數字化的核心是信息技術,信息技術是一個強大的工具,是給現代社會帶來巨大便利的創新工程,是讓所有人都受益的工程。這是傳統的古籍整理不能替代的,也是將來發展的方向。這就如同傳世文獻從手抄本向印刷本轉變的過程一樣,是不可阻擋的潮流。數據庫建設是一個非常復雜的系統工程,不僅涉及計算機軟件、硬件、數據庫結構、數據關聯、搜索引擎等,還涉及到版本學、目錄學、文字學、文史工具書等。
國學網從創辦之初就堅持嚴格的技術要求,也堅持嚴格的學術要求。古籍數字化起步時間不長,已經顯示出了它的巨大價值。它在發展的過程中存在問題,我們隨時都在改正,而且連改正的方式也遠比傳統古籍整理的改進方式更為先進。我們還將投入更多的力量,繼續拓展古籍數字化事業。目前已有千萬學者受益于古籍數字化成果,程先生也當是其中一員,這是令我們引以為傲的事情。如果古籍數據庫被個別出版社所壟斷,那將導致古籍數字化產業中道崩殂,半途而廢,這不僅會喪失我國在相關領域的國際領先地位,危及我國的文化安全,也將使我國的學術事業受損。
與傳統的古籍出版事業相比,古籍數字化才剛剛起步;與博大精深的中華傳統文化相比,古籍數字化才邁出了萬里長征的第一步?,F在有許多出版機構已經參與到古籍數字化建設大軍中來,我們愿與所有支持、關心國學事業的單位和個人合作,共同推進古籍數字化事業的發展,讓中國文化在世界發揚光大。
本文已刊發于《光明日報》2013年5月28日第13版
(作者為國學網總裁、首都師范大學電子文獻研究所所長)
程毅中先生贈聯
附:程毅中先生文章(發表于《光明日報》2013年4月30日)
古籍數字化須以古籍整理為基礎
程毅中
古籍數字化是一個大有前途的文化產業。目前市場上已有不少古籍數字讀物,但往往存在一些質量問題和知識產權問題。
有人認為古籍整理只是加了一堆標點符號,算不得學術著作,也不存在知識產權問題,因而隨意抄襲和轉錄,并制成營利性的商品,從而引起了一些爭議和訴訟。
數字化的古籍應該是經過認真整理的古籍,需要運用目錄、版本、??焙臀淖?、音韻、歷史文獻等各方面知識進行點校,成為現有最好或較好的版本。否則,將會造成謬種流傳,劣本取代善本。但目前流傳的古籍數字書,有些卻是未經整理和粗制濫造的版本。試以中國國學出版社2008年11月第一版的《中國歷代筆記》U盤來說,收書很多,號稱有1200多種,逾一億字,信息量很大。真是“一盤在手,坐擁百城”,方便得很。然而,從古籍整理的規范來衡量,此U盤卻缺點很多,遺憾不少。
為了古籍數字書的改進和傳播,本文以《中國歷代筆記》U盤(以下簡稱U盤)為例,說明古籍整理的規范和價值。
壹 古籍的復制應該說明用的是什么版本。而U盤則一律不說根據什么版本錄入的,這就丟失了文獻的科學依據,使人不敢輕易引用。
貳 有些書原有的序跋都被刪掉了,這也使讀者無從了解版本源流的信息。
叁 書目和版本的選擇沒有必要的說明,隨意性很強。例如,唐張鷟的《耳目記》就是一本偽書,實際上只是抄了《朝野僉載》的幾條文字假托的書名。又如,明無名氏的《巫娥志》,實際上是李禎(昌祺)《剪燈馀話》里的一篇,原名《江廟泥神記》,這也是假造書名的偽書。又如宋人張君房的《麗情集》是一部佚書,U盤收了十二條殘文,大概是根據宛委山堂本的“假《說郛》”輯錄的。但《說郛》本引的只是只言片語,很難理解原意。其實,如果要收《麗情集》的話,至少《類說》卷二十九所收的24條佚文,就比《說郛》本還多出許多。再如所收佚名的《燈下閑談》,只有一篇,即原書中的《神仙雪冤》。實際上原書是兩卷二十篇,有《適園叢書》本和商務印書館排印的《宋人小說》本,并不難見。明代卷所收李詡的《戒庵漫筆》,只有一卷,實即李詡《戒庵老人漫筆》的一個節選本。為什么不收通行的八卷本呢?楊萬里的《誠齋揮麈錄》《四庫全書總目》提要已考定為王明清《揮麈錄》的節本,實屬偽書。U盤收了一些偽書、殘本及單篇文章,而重要的書如《歸田錄》《夢溪筆談》和《剪燈新話》等卻沒有收。
肆 對作者的名字不加核實。如漢魏晉南北朝卷的《五代新說》,題唐徐炫撰,大概又是沿襲重編本《說郛》之誤,實應據《郡齋讀書志》作唐張詢古撰。又如宋徐鉉的《稽神錄》,U盤上題作“龍明子”撰(使用手冊上還不誤);而另一種《葆光錄》題下也署名為“龍明子”,實則原書作者題“襲明子”,原名應作“陳纂”,見《直齋書錄解題》。又如元人的《青樓集》一書,題黃雪蓑撰,原書邾經序中有“商顏黃公之裔孫曰雪蓑者”的話,前人早已考證出“黃公”是用漢代商山四皓之一“夏黃公”的典故,作者名夏庭芝,字伯和,號雪蓑釣隱。大概編者采用了重編《說郛》本的文字,又把邾經的序和夏邦彥的跋刪掉了,使人不知道它是什么版本。上述《葆光錄》一書,內容與書名不合,作者之誤還可以說是誤從了《顧氏文房小說》本之訛,而書中正文卻全抄自《稽神錄》,就不知怎么出的錯了。
伍 全書沒有統一的體例,如收入了一些單篇的傳奇小說,本來不屬于筆記之列,但是又收得不多。宋遼卷收了趙希弁《讀書附志》,把書目也視為筆記,但《郡齋讀書志》正編卻沒有被列入。又如上述唐人撰的《五代新說》、宋人樂史撰的《綠珠傳》列在漢魏晉南北朝卷,清人萬斯同輯的《庚申君遺事》列在宋遼夏金元卷,按作者年代分卷的體例并沒有貫徹始終。
陸 所收筆記有一部分是佚書,編者加以輯集,當然很好。如唐五代小說的佚文,有《太平廣記索引》和李劍國的《唐五代志怪傳奇敘錄》可以參考,不難照錄。但令人費解的是往往不注出處,湮沒來源,就不能使讀者信賴了。例如戴孚《廣異記》已是佚書,U盤所收都據《太平廣記》輯出,可是一概不注書名、卷數。《廣異記》雖有抄本流傳,但所輯不全,現有方詩銘重輯本較為完備,U盤所收與之基本相同,卻把出處全刪了。李劍國、方詩銘還從《類說》輯出兩條佚文,又沒有利用。他如牛肅《紀聞》、李亢《獨異志》、張讀《宣室志》等書也是如此,既不說明版本,又沒說明佚文出處,令人無從了解書的來源。
柒 據U盤的凡例說,曾“盡量吸收前人的研究成果”,實際上應該是盡量吸收現代人的成果,但又沒能充分吸收。古籍的點校本一般是有??庇浀?,U盤則只吸收了他們的校改成果,而把校勘記刪了,這樣就使讀者不知道它用的是什么底本,更不知道它的文字是根據什么版本改的。例如《朝野僉載》一書,中華書局版趙守儼點校本以《寶顏堂秘笈》本為底本,與《太平廣記》等書對校,并作了許多補輯工作。U盤的正文就照改了那些校改的文字,例如第二條“藏曰夫人目長而漫視”,第五條“而刑部尚書李日知”,第十三條“試著口即死”等字句,都有??庇浾f明改字的依據,而U盤卻全部刪除了。更令人困惑的是,趙守儼從《酉陽雜俎》等書輯出的“補輯”一卷,U盤也全部照收,附在第六卷之后,而全都刪掉了出處。再如《北夢瑣言》一書,上海古籍出版社版林艾園校點本也有許多校改和??庇洠珍浟怂恼?,又刪掉了??庇洠疫€把底本(《云自在龕叢書》本)原有逸文四卷的出處也一起刪掉了。徐鉉《稽神錄》一書,已有白化文先生的點校本,U盤吸收了他的“再補”,卻改注為李劍國、程毅中補輯的,這就不免有掩耳盜鈴的嫌疑了。
捌 歷代筆記的標點,不少書有中華書局“歷代史料筆記叢刊”和上海古籍出版社“筆記小說大觀”等點校本可以參考,錯誤還不算太多。但有些未經整理的書,標點就出現不少失誤。這里舉一些比較明顯的例子,略加分析,以見一斑:
帝不得已而行,竊謂人曰:“匈奴為害自,古患之,周秦及漢魏,歷代所不能攘,相為勍敵者也?!保˙005《大唐創業起居注》)
按:“自”字顯然不能讀斷,逗號應移上。
又曰:“吾不試故藝,試用也”。夫藝者,不獨總多能第,以其無用于代,而窮愁時有所述耳。(B006《大唐傳載》)
按:“吾不試,故藝。”是《論語·子罕》記孔子的話?!霸囌?,用也?!币娪凇墩摵狻ふf篇》,是注釋者引用的話,“試”字下應加逗號。“第”,但也,在這里是一個副詞,應屬下句。
任昉序《王儉集》有攻乎?異端歸之正義,可見攻字從攻擊之攻。(D119《談輅》)
按:“攻乎異端”是出于《論語·為政》的一句成語,不能見到“乎”字就加問號?!岸恕弊窒聭佣禾?,“攻乎異端,歸之正義”兩句是任昉的話,應加引號。
文選王簡《棲頭陀寺碑》文,有云:層軒延袤,上出云霓。(D255《半村野人閑談》)
按:“文選”是書名,“王簡棲”是人名,《頭陀寺碑文》見蕭統《文選》卷五十九。如果查一下書,就不會讀錯了。
潛言皇上聯云:“禮樂征伐自,天子出。”(D304《金聲巧聯》)
按:這句話出于《論語·季氏》,孔子曰:“天下有道,則禮樂征伐自天子出;天下無道,則禮樂征伐自諸侯出?!痹凇白浴弊窒聰嗑溆衷趺粗v呢?
從《中國歷代筆記》U盤的一些缺點可以看出,有些數字化古籍之所以不能使人信賴,就在于未經學者的認真整理,或者是借用了已經整理的版本而又亂加刪改,藏頭露尾,買櫝還珠,造成了許多混亂。
數字化的古籍雖然使用方便,但有些書還不符合古籍整理的規范。除了要繼續提高電腦技術之外,更需要加強“人腦”的文化素養和學術含量。古籍的數字化必須盡量吸收和保護古籍整理的成果。目前不少出版社正在積極進行數字書的出版,這方面的經驗教訓值得借鑒。