古籍數字化與學術異化
【內容摘要】歷史經驗表明,技術革新必將導致學術變異。古籍數字化對現代學術進程產生積極作用,但同時也帶來負面效應,或可導致學術異化。以下三方面值得特別注意:一是技術遮蔽偽化研究論斷,二是數字鴻溝拉大區域學術落差,三是技術偽裝學問使偽學術加劇。本文認為:積極開發語義檢索系統、加大研發主體公益性與商業性協作力度、正確使用數字化成果,將是去除信息時代學術異化的有效途徑。
【關鍵詞】古籍數字化;學術異化;技術遮蔽;數字鴻溝;技術偽裝學問
【作者簡介】吳夏平,男,1976年生,江西都昌人,貴州師范大學文學院教授,北京大學中文系博士后。
近三十年來,中國古籍數字化基本上是通過兩個方面來進行的,一是利用計算機對古籍進行揭示,建立古籍的書目型數據庫,方便讀者檢索使用;二是利用計算機對古籍的內容進行數字化,使讀者不僅能通過計算機來閱讀古籍,并且能夠通過磁盤、光盤和網絡進行傳播。[1]對古籍數字化的研究,隨著時間的推移愈來愈熾烈,僅就論文的數量來看已近千篇。[2]研究論題主要集中在兩方面,一是古籍數字化建設,即技術層面;二是對數字化古籍利用,屬于學術層面。對于技術與學術的關系,則探討得不多。本文擬從技術遮蔽、數字鴻溝、技術偽裝學問等方面揭示信息時代技術與學術之關系,指出或將導致學術異化的諸端表征,并指陳去除異化的相關對策。
一、技術與學術之關系的歷史經驗
總體來看,技術革新影響學術變異有三個重要階段,一是紙張的發明,二是印刷術的運用,三是現代信息技術的普及。技術與學術之關系,古人早有自覺的研究并形成較深的認識。如北宋時期,蘇軾思考雕版印刷對文人的影響,指出:“自孔子圣人,其學必始于觀書,……自秦漢以來,作者益眾,紙與字畫日趨于簡便,而書益多,世莫不有,然學者益以茍簡,何哉?余猶及見老儒先生,自言其少時欲求《史記》、《漢書》而不可得,幸而得之,皆手自書,日夜誦讀,惟恐不及。近歲市人轉相摹刻,諸子百家之書,日傳萬紙,學者之于書,多而且易致如此,其文詞學術,當倍蓰于昔人,而后生科舉之士,皆束書不觀,游談無根,此又何也?”[3]書籍多且易得,反而使記憶力衰退。對此問題,葉夢得亦頗有體悟,其《石林燕語》云:“唐以前,凡書籍皆寫本,未有模印之法,人以藏書為貴,人不多有,而藏者精于讎對,故往往皆有善本;學者以傳錄之艱,故其誦讀也精詳。五代馮道始奏請官鏤《六經》版印行,國朝淳化(990-994)中,復以《史記》、《前》《后漢》付有司摹印,自是書籍刊鏤者益多,士大夫不復以藏書為意,學者易于得書,其誦讀亦因滅裂。然板本初不是正,不無訛誤,世既一以板本為正,而藏本日亡,其訛謬者遂不可正,甚可惜也。”[4]葉氏指出刻本廣泛傳播后的兩個弊端,一是讀書人誦讀滅裂,和蘇軾的擔憂相同;二是刻本流行后,其據以刊刻的藏本反而不為重視,導致訛謬之處無法刊正。這與今日數字化時代的弊病何其相似。
當代學者對于技術革新與學術變異之關系亦不乏思考,涌現出一批諸如《紙簡替代與漢魏晉初文學新變》[5]、《紙張的廣泛應用與漢魏經學的興衰》[6]、《紙的發明與后漢的學風》[7]、《宋代刻書產業與文學》[8]、《印刷傳媒與宋詩特色》[9]等優秀成果。其共同特點是從技術創新角度考察文學(經學)的變異,對于探討現代信息技術與學術之關系具有相當的借鑒作用。有些學者已經充分認識到信息技術對當代學術的影響,主要表現在學術話語權的分解以及網絡文化對紙質文化的沖擊等方面:“在紙質文化時代,文化話語權還主要掌握在少數所謂文化精英手中。有的時候,他們就像救世主似的,發蒙解惑,以炫博雅;另外一些時候,又把自己想象成帝王師,吐屬不凡,指點江山。而今隨著網絡的普及,這種文化特權被迅速瓦解,大眾也可以通過網絡分享部分話語權力。”“一個基本事實是,以信息技術為核心的文化轉型已經勢不可擋。如何抓住這樣一個歷史契機,迅速適應日益變化的形式,這是擺在每一位文學工作者面前的重要任務。當前,中國古籍電子化的時代即將到來,為我們的研究提供了前所未有的便利條件。雖然這項工作還僅僅處于起步階段,卻已顯示出無比廣闊的學術空間。”[10]顯然,這些論斷有助于認識古籍數字化與學術之間的關系,為論析數字化與學術異化的問題提供了有益的思路。
當前對于學術異化的認識多著眼于評價體系,批判對象直指“職稱體”、“項目體”、“學報體”等異化現象,以及由此產生的學術腐敗等倫理缺陷。而較少從技術層面予以反思。學術的異化,固然與世俗功利密切相關,但另一個重要因素——技術——也不容忽視。以下從技術遮蔽、數字鴻溝、技術偽裝等方面論述古籍數字化與學術異化之間的關聯性,并由此指陳去異化之對策。
二、技術遮蔽
學界對數字化古籍利用的最大弊病,就是過于依賴數字化成果。一切學術問題都試圖通過檢索來完成,由此導致偽學術產生。究其成因,在學術偽命題之外,數字化技術遮蔽也是重要因素。
知識被遮蔽的第一種情況,是知識因未被選擇而遮蔽,技術在對一部分知識進行篩選和固化時,使另一部分知識淡化、邊緣化,或者說被遮蔽。在一部分知識被選擇、集成之時,另一部分知識即被舍棄,乃至被遺忘。[11]古籍數字化要從海量的古籍中選擇處理對象,在這個過程中,一部分古籍被數字化,另一部分則因未被選擇而被舍棄。其結果就是那些未被收入數據庫因而被遺忘的文獻,永遠是無法被檢索,影響數據收集的完整,進而影響研究的結論。本文以“e考據”為例,論證技術遮蔽對文獻考據可信度的影響。
最早提出“e考據”概念的是臺灣新竹清華大學黃一農教授。他認為“隨著出版業的蓬勃以及圖書館的現代化,再加上國際網路和電子資料庫的普及,新一代的史學工作者常擁有博聞強記的前輩學者們夢寐以求的環境。我們有機會在很短時間內就掌握前人未曾寓目的材料,并填補探索歷史細節時的許多隙縫,或透過邏輯推理的布局,迅速論斷先前待考的疑惑或者矛盾。事實上,一個有機會孕育‘e-考據學派’的時代或已出現。”[12]基于“e考據”理念,氏著《兩頭蛇》一書充分利用網絡文獻和數字化古籍來考察明末清初的第一代天主教徒,所利用資料多達1099種。即便如此,還是難免出現將瞿汝夔的母親支氏誤認為譚氏的錯誤。其成因正如學者所指出的,并非檢索本身出了問題,而是他檢索的數千種文獻中沒有關鍵性的瞿氏家譜。[13]這個案例或可作技術遮蔽影響學術論斷的著例。
技術遮蔽的第二種情況,是關鍵詞檢索導致的檢索結果不全面,檢準率較低。檢索被廣泛利用,因它“滿足的是在一個海量信息集合中快速定位信息的需求,解決了Web信息資源在廣度上迅速增長而人們需要定位局部信息需求間的矛盾。”[14]關鍵詞檢索一定程度上解決了在海量信息中定位局部信息的問題,但是關鍵詞檢索主要還是詞形匹配而非詞義匹配,因此產生三方面的不足:一是限于對檢索問題的了解程度,用戶不能準確地描述自己的信息需求;二是不能恰當地把握檢索的深度,需要反復嘗試不同的檢索詞以控制檢索的規模;三是用自然語言檢索受控語言標引的文獻,造成漏檢和錯檢。這些不足,在實際運用過程中多能切實體會。前面兩種現象,主要關涉檢索者本身的學養。錯檢和漏檢則更為普遍。以電子版《四庫全書》為例:比如要檢索“蘇軾”的資料,只能檢索到含有“蘇軾”二字的資料,不能檢索到不含“蘇軾”二字,卻含有“東坡”“子瞻”“大蘇”“蘇徐州”“蘇黃”等與蘇軾有關的資料。同樣,檢索有關“杜甫”的資料,也只能檢索到含有“杜甫”二字的資料,不能檢索到含有“杜子美”“杜少陵”“杜工部”“杜二”“詩圣”等與杜甫相關的資料。此外,還出現錯檢。比如檢索“太白”一詞,檢索結果并非都與李白有關,還會搜索到太白山和太白星等信息。[15]
上述“e考據”可信度降低、關鍵詞檢索出現錯檢和漏檢等現象,均與數字化技術遮蔽有關。此為技術影響學術的第一個層面。
三、數字鴻溝
數字鴻溝,或稱數位落差,是指社會上不同性別、種族、經濟、居住環境、階級背景的人,接近使用數位產品(如電腦或網絡)的機會與能力上的差異。簡約來說,觀察數位落差可以從接近使用電腦及網絡的機會、以及對于電腦及網絡的使用能力這兩大方面來看。一方面,資訊科技使大眾的生活質素得到改善,并把繁瑣的日常工作簡化。另一方面,對于未能享用同等資訊科技的人,卻要繼續沿用舊有的方式去工作,不能透過資訊科技去獲取資訊或把資訊增值。這當中的差異,有可能會使社會的兩極化更趨激烈,從而令社會財富更為不平均。古籍數字化的主要介質是計算機和網絡,數字化古籍亦屬于數字產品。對古籍數字化成果利用的落差,也是網絡時代數字鴻溝的主要內容。
就數字化古籍而言,數字鴻溝主要表現在兩個方面,一是發達地區與欠發達地區之間的不平衡,一是國外與中國本土之間的不平衡。從使用數字產品的載體來看,東部和沿海發達地區在電腦及網絡使用上,都要高于西部欠發達地區。在西部山區,許多學校至今在教學過程中還較少使用電腦。在利用各種數字產品方面,東部同樣要高于西部。由此催生一大批數字窮人,他們與數字富人相對比,被稱之為新一代文盲、電腦盲、科盲。他們被迫或主動放棄信息權力,將成為十分不幸的信息窮人。其發展趨勢愈演愈烈,結果是富者愈富而窮者愈窮。地處西部的多數高校和科研機構,無力購買數字化古籍等產品,在科研和教學方面遠遠落后于發達地區。數字鴻溝導致的區域學術落差,可視為信息時代學術異化之一端。此僅就國內而言。
從國際方面看,同樣出現數字鴻溝現象。以北京愛如生數字化公司產品銷售為例。作為目前國內最大的數字化公司,其產品涵蓋多方面,主要特征是古籍依類集成。以下是該公司部分產品網絡報價情況:中國基本古籍數據庫,網絡報價(單機版)100萬元;近代報刊庫(收書數量3000種),網絡報價(單機版)42萬元;網絡報價(單機版)為60萬元的數據庫有9種,分別是中國方志庫(初集)(收書2000種)、中國類書庫(收書300種)、中國經典庫(儒典)(收書2000種)、中國經典庫(道藏)(收書2000種)、中國俗文庫(初集)(收書2000種)、敦煌文獻庫(初集)(收書數量不詳)、中國譜牒庫(初集)(收書2000種)、中國叢書庫(初集)(收書4000種)、歷代別集庫(明前編)(收書1800種)。[16]此處不憚其煩地轉述數字化產品的網絡報價,無非是想說明:一、這些數據庫對從事科研的學者來說非常重要,因其資料較為齊全,影響學術成果的前瞻性和權威性;二、由于價格因素,這些數字產品不僅個人無力購買,甚至一般普通高校和科研機構也無能為力;三、大型數據庫的購買者要么是國家級的科研機構,比如中國國家圖書館和中國國家博物館,要么是國外的一些科研機構,如美國國會圖書館和德國柏林大學圖書館等。其結果就是,一方面,發達地區和政治中心區域越來越占據優勢,拉大與落后地區的數字產品利用差距,另一方面,很可能若干年后國外科研機構在古籍數字化產品的占有量方面超出中國,因而在對中國古代文化和文明的研究成果上反超中國。這看似危言聳聽的推測,正是數字化帶來的學術異化的另一種表征。其原因,一如美國學者杰弗里·A.賴德伯格-科克斯不無憂慮地指出的:“具有諷刺意味的是,這種具有潛力、從根本上改變學者完成他們工作的工具,由主要追求商業利益,而不是出于研究和教學需要的環境驅動,正在茁壯地生根發展。”[17]這種現象,確實需要警惕和反思。
四、技術偽裝學問
所謂技術偽裝學問,指的是在信息時代利用數字產品為學術服務的負面效應。正面效應當然是正確利用現代信息技術為學術服務。但是在實際使用過程中總會產生與之相反的效果。以古典文學研究為例:比如古籍校點,不去調查版本情況,直接下載《四庫全書》或《四部叢刊》等電子文獻,簡單處理后即刊發印行。作家研究資料匯編,僅憑關鍵詞檢索以致造成斷章取義。詩文集的箋注,直接復制《漢語大詞典》的字詞解釋,而對詩歌本身所關涉的人事時地及詩歌意蘊鮮有揭示。在考證文章中,本來兩三個代表性的例子足以說明問題,卻偏要列出幾十個例子以顯博學。這些都是技術偽裝學問的表現。究其成因,與以下兩方面原因密不可分。
其一,長期使用電腦和網絡從事研究工作,習慣與數字化產品打交道,使得研究者過于依賴信息工具,離開這些工具就顯得非常弱智,甚至無法工作。這是因為“過于依賴檢索系統會逐漸滋長我們的惰性。科學本身就是一把雙刃劍,人體感官在享受數字化優裕的同時也逐漸退化,數字檢索在方便之余也逐漸吞噬我們的思維。”[18]與傳統治學相比較,數字化時代學者的思維方式和研究方法都發生很大的變化。傳統時代,學術問題大都從閱讀中得來,解決問題還要回到閱讀中去。但數字化時代則往往主題先行,即先有題目再去論證。這種本末倒置的做法導致的不良后果是偽命題及偽學術的層出不窮。其實,電子化時代更需要學者的識見和智慧,賣弄學問已經不足以振聾發聵。
其二,研究者被海量信息淹沒,進退無據,無所適從。海量信息的積極方面是為涸澤而漁式的研究提供基本條件,但另一方面信息爆炸又阻礙了學術前進,原因是“沒有控制的和沒有組織的信息不再是一種資源。它倒反而成為信息工作者的敵人”。[19]特別是無價值的垃圾信息的泛濫,導致人們陷入信息過度、信息麻痹的困境。同時,很多有價值的信息也可能被忽略。人們特別容易“喪失自己的自主性,喪失反思和批判的能力,成為信息爆炸的奴隸,被信息洪流所異化。”[20]當研究者在信息的汪洋大海中難以適從,當學術被技術主宰,技術偽裝學問就在所難免,大量論文的思維定勢和材料堆砌、著作的個性缺失和思想貧乏以及相關種種現象充斥學界也就不足為奇了。
五、去異化之對策
以上分析了古籍數字化或可導致的學術異化諸種情形。如何避免或去除異化,本文以為可從以下三方面思考。
其一,充分利用知識組織系統。所謂知識組織系統,是一種機器可理解的系統,即可以被計算機系統所識別、讀取和理解的系統。在古籍數字化過程中利用知識組織系統,核心工作是要做到關鍵詞檢索轉換為概念檢索。如上所述,關鍵詞查找的最大特點是詞形匹配而非詞義匹配。概念檢索的最大特點是在檢索過程中,與檢索詞同義的各種概念也同時被檢索,因此檢索結果更完整更全面。與關鍵詞檢索相較,概念檢索解決了幾個難題。一是檢索詞的選擇。比如要在《四庫全書》中檢索與文學傳播相關的資料,但古人并不常用“傳播”這個概念,因而就無法查找《四庫全書》中蘊藏的大量的傳播資料。概念檢索則可以解決這個問題。因為“傳播”不再作為一個詞語,而是作為一個同義詞的集合構成的一個概念被檢索,因而與“傳播”相關的所有信息都能檢索出來。二是提高檢索準確率。關鍵詞查找在用戶的檢索詞和文獻的關鍵詞間進行詞形匹配,即以詞的拼寫一致為依據。自然語言中一義多詞(同義詞)使檢全率難以保證,一詞多義(多義詞)導致檢索出無關的文獻,使檢準率降低。概念檢索則可以避免這種情況發生,最大程度提高檢準率。三是檢索結果按語義排序。關鍵詞檢索結果主要是按照文獻的自然順序來排序,很難進行語義排序。概念檢索則可以從檢索詞的語義相關度上對大量的結果進行分級、排序和組織,從而便于檢索者的使用。這方面的研發已有所進展,比如北京大學李鐸教授的《全宋詩》“本體庫”[21]、臺灣元智大學羅鳳珠先生的唐詩宋詞語義檢索系統[22],都是較有價值的例子。
其二,努力縮小數字產品利用差距。如何縮小數字鴻溝,可以從古籍數字化研發主體進行思考。數字化研發主體是多元性的,主要包括圖書館、學術科研機構、個人、出版社、數字公司、聯合體。[23]前三者的共同特征是公益性質,其數字化成果大都免費(或部分收費)。出版社和數字公司則是純商業性質,主要目的是盈利。聯合體是指圖書館、科研學術機構、個人、出版社、數字公司等之間的跨行業的協作體。聯合體將公益性與商業性相結合,整合了先進的數字化技術和人才,集成了相關古籍數字化主體的優勢,產品主要是古籍全文數據庫,比如《中國基本古籍數據庫》、《四庫全書》電子版等,規模較大,質量也屬上乘,因此,應該是古籍數字化開發主體的一種發展方向。
其三,正確利用古籍數字化成果。需從以下諸方面著手。第一,觀念上確立工具本位意識。在學術研究過程中,電腦和人工智能永遠只能是一種輔助工具,而不能替代學術本身。計算機雖然在一定程度上能夠模擬人的思考,甚至在某些方面要比人強得多,但是它不具備人類最本質的創造性思維。舉例來說,比如校勘工作,在辨別不同版本文字異同方面,可能計算機要比人完成得更好。但一般的校勘,在比較文字異同之外,判斷是非更為重要。這種判斷是非的能力決不是設計某種電腦語言程序所具備的,因為這需要深厚的學術涵養和學術積累。第二,變被動應用為主動應用。長期以來,由于使用者較少參與古籍數字化過程,對數字化各種相關技術不了解,即便有所參與但亦知之不深,因而在使用過程中處于被動地位,只能“傻瓜式”地按照設計者的規定來使用。提高利用主體的信息素養,讓更多人文和社科領域的專家學者參與到古籍數字化過程當中,建構數字人文科學,變被動為主動,是正確利用數字化成果的一條光明路徑。第三,為我所用,創建具有個性化的獨具特色的數據庫。筆者曾多次論及這個問題,以古代類書的編纂等為例來說明個性化數據庫創建的方法及其重要性。[24]此外,還可以把數據庫與計量分析方法結合起來,共同服務于學術研究。[25]總而言之,只有積極正確利用數字化成果,才能更好地迎接信息時代的新挑戰,推動學術健康發展。
注釋:
[1]陳力《中國古籍數字化的現狀與展望》,《古籍整理出版情況簡報》2004年第4期。
[2]耿元麗《三十年來中國古籍數字化研究綜述(1979-2009)》,見http://www.ffhyjd.com/wk/000652.htm。
[3]蘇軾《李氏山房藏書記》,《蘇軾文集》卷十一,中華書局1986年版,第359頁。
[4]葉夢得《石林燕語》卷八,中華書局1984年版,第116頁。
[5]査屏球《紙簡替代與漢魏晉初文學新變》,《中國社會科學》2005年第5期。
[6]劉躍進《紙張的廣泛應用與漢魏經學的興衰》,《學術論壇》2008年第9期。
[7](日)清水茂《紙的發明與后漢的學風》,見《清水茂漢學論集》,中華書局2003年版,第22頁。
[8]朱迎平《宋代刻書產業與文學》,上海古籍出版社2008年版。
[9](臺)張高評《印刷傳媒與宋詩特色》,臺北里仁書局2008年版。
[10]劉躍進《紙張的廣泛應用與漢魏經學的興衰》,《學術論壇》2008年第9期。
[11]呂乃基《技術遮蔽了什么?》,《哲學研究》2010年第7期。
[12]黃一農《兩頭蛇:明末清初的第一代天主教徒》(自序),上海古籍出版社2006年版。
[13]熊熊《e時代的兩頭蛇》,臺灣《“中央研究院”近代史研究所集刊》第59期(2008年3月)。
[14]王軍《數字圖書館的知識組織系統——從理論到實踐》,北京大學出版社2009年版,第5頁。
[15]王兆鵬《三大功能:對未來數字化古籍的期待》,《中國社會科學院院報》2007年9月18日版。
[16]參考愛如生公司官方網站:http://www.er07.com。
[17](美)杰弗里·A.賴德伯格-科克斯《挑戰數字圖書館和數字人文科學》,朱常紅譯,廣西師范大學出版社2010年版,第76頁。
[18]吳夏平《數據庫與古代文學研究》,《光明日報》(理論版),2004年9月29日版。
[19]奈斯比特《大趨勢——改變我們生活的十個新趨向》,孫道章等譯,新華出版社1984年版,第32頁。
[20]孫偉平《論信息時代人的新異化》,《哲學研究》2010年第7期。
[21]李鐸《從檢索到分析》,《文學遺產》2009年第1期。
[22]羅鳳珠《引信息的“術”入文學的“心”》,《文學遺產》2009年第1期。
[23]王立清《關于多元古籍數字化主體的探討》,《圖書館學研究》2011年第7期。
[24]吳夏平《古籍數字化與文獻利用》,《中國社會科學院院報》2007年9月18日版。
[25]尚永亮《數據庫、計量分析與古代文學研究的現代化進程》,《文學評論》2007年第6期。
(作者單位:貴州師范大學文學院貴陽550001;北京大學中文系北京100871)