各位專家,大家好:
因?yàn)樵谧魑幻婵妆容^陌生,所以我先介紹一下我自己。跟文史古籍界的各位不太一樣,我是踏入文史典籍領(lǐng)域的一個(gè)“越俎代庖”分子,不是文字專家,也不是文史專家,只是一個(gè)工程師。我原來學(xué)自動(dòng)控制,后來學(xué)計(jì)算機(jī),但是由于歷史的誤會(huì),從89年起就卷入中日韓漢字統(tǒng)一當(dāng)中。是一個(gè)CJK統(tǒng)一編碼的“始作俑者”者,“始作俑”為什么加引號(hào)?因?yàn)楝F(xiàn)在有的人說有好的評(píng)價(jià),有的說還有這樣那樣的問題,不管怎么樣,我有相當(dāng)?shù)呢?zé)任,因?yàn)樵趪?guó)際上我是該項(xiàng)目的長(zhǎng)期負(fù)責(zé)人。我卷入大家做的這個(gè)領(lǐng)域是從95年做《漢語大詞典》電子版開始,到文淵閣《四庫全書》電子版工程,還有大家熟悉的《四部叢刊》電子版,所以我做的事情跟大家相關(guān);但我做的和國(guó)學(xué)的尹小林比,我在某些地方是“先烈”,有些地方我犧牲了,但沒有取得成績(jī)或回報(bào)。
在這里,我談到的是狹義的典籍?dāng)?shù)字化,聽起來跟大家不太一樣,在座好多專家的理解是廣義的。狹義的典籍?dāng)?shù)字化把整理后的古籍文獻(xiàn)內(nèi)容,從紙面轉(zhuǎn)換為數(shù)字,與相關(guān)的數(shù)字化工具結(jié)合在一起,達(dá)到字字可查、句句可檢的水準(zhǔn),提供給文史工作者使用。這是一個(gè)基礎(chǔ)工作。目的不是取代文史工作者(也永遠(yuǎn)取代不了),而是讓學(xué)者“如虎添翼”(季羨林老先生在我們贈(zèng)送北京大學(xué)《四部叢刊》時(shí)講的話)。進(jìn)行深層次的研究(廣義的數(shù)字化:標(biāo)引、校勘、版本對(duì)比、注釋、同義詞語、韻律、批評(píng)…)。這些我們做不好,這些工作是是文史工作者的使命,當(dāng)然要配合一定的工具。
我今天和大家一起交流的,首先看看到典籍?dāng)?shù)字化的大好形勢(shì)。95年以前數(shù)字化大陸很差,臺(tái)灣中央研究院做得很好,后來我們做得不錯(cuò),到今天來看,我們確實(shí)是有長(zhǎng)足的進(jìn)步,形成了全面展開的態(tài)勢(shì),我就把自己視野范圍內(nèi)的標(biāo)志性發(fā)展,以及我自己的感悟和大家交流一下。
·文津閣四庫全書(標(biāo)志性的,盡管是做圖形版。)
·臺(tái)灣:典藏?cái)?shù)位化項(xiàng)目,佛學(xué)…(佛學(xué)是發(fā)動(dòng)群眾,有規(guī)模有水平的。)
·民間:天一閣(全面數(shù)字化,正在研究之中,)
·基礎(chǔ):古籍字頻統(tǒng)計(jì)(還有詞語統(tǒng)計(jì),詞語統(tǒng)計(jì)還不太成熟,字頻統(tǒng)計(jì)在商務(wù)印書館估計(jì)11月份出版。)
全面展開,國(guó)內(nèi)(文淵閣《四庫全書》、《四部叢刊》)之后,基本古籍CD,國(guó)學(xué)網(wǎng)…有一些好的發(fā)展,比如政府項(xiàng)目:
·第一歷史檔案館:(作了大量踏踏實(shí)實(shí)的工作)
·清會(huì)典(已成為產(chǎn)品)
·清實(shí)錄(已成為產(chǎn)品)
·上諭檔(進(jìn)行中)
《清會(huì)典》和《清實(shí)錄》已經(jīng)成為產(chǎn)品,《上諭檔》正在制作中,這是我們書同文公司做的,主要是明清檔案。
此外,
·地方志
·清史工程
·中華大典
國(guó)際:
·日本:《漢方醫(yī)書大成》已經(jīng)進(jìn)入全文數(shù)字化第二版
·美國(guó):世界大家譜(和國(guó)內(nèi)的一些公司有聯(lián)系)
·韓國(guó):《奎章閣》數(shù)字化
·法國(guó):《永樂大典》相關(guān)典籍?dāng)?shù)字化
對(duì)這下發(fā)展,我有一些感悟和大家交流。在談漢字信息化時(shí),我就談過這樣一個(gè)觀點(diǎn):漢字源于中國(guó),但是漢字并不只屬于中國(guó)。漢籍也源于中國(guó),但是并非只有中國(guó)可以數(shù)字化;如果多次出現(xiàn)讓外人將“端午節(jié)”“申非”的情勢(shì),只說明某些政府部門的無作為和典籍故鄉(xiāng)學(xué)者的無奈。還有一條,典籍一旦數(shù)字化,它的用戶群就飛速地?cái)U(kuò)大到全世界,沒有任何學(xué)者再成為“絕對(duì)權(quán)威”,或者說,“學(xué)閥”的土壤就不復(fù)存在了。大家都處于信息資料公開的平等學(xué)術(shù)環(huán)境中。我也檢索過,像利用《四部叢刊》、《四庫全書》電子版寫論文的,港澳臺(tái)、海外的很多華人,出的論文可以和大陸相匹敵,別想限制人家,別怨天尤人,還是自己急起直追吧。電子的市場(chǎng)是走向全世界的。
感悟之二,我們可能有很多的數(shù)字化設(shè)想語抱負(fù),但是字-詞-語-文-版,字仍然是基礎(chǔ);適用的文字平臺(tái)工具,仍然是重中之重。基礎(chǔ)不穩(wěn),后患無窮。但是,字的重要性主要表現(xiàn)為字樣的多樣性,而不是字符的多寡。除了大規(guī)模字書的需要外,片面地追求“超大、特大字符集”是誤解或誤導(dǎo)的結(jié)果。根據(jù)我們的統(tǒng)計(jì)CJK_B只占5%%在典籍里,片面的強(qiáng)調(diào)大字符集這點(diǎn),會(huì)分散注意力。還有一個(gè)就是數(shù)字內(nèi)容為王。我們要高度重視紙張-電子轉(zhuǎn)換的鋪路工作,掃描、拍攝、拷貝,不能取代最基礎(chǔ)的字符轉(zhuǎn)換工作。必需投入資源。資料掃描在初期是必要的,但是把它作為樣板、讓人誤以為掃描資料就是數(shù)字圖書館,這是誤導(dǎo)領(lǐng)導(dǎo)和群眾,這是很糟糕的事情。
感悟之三:數(shù)字化典籍最終要走向網(wǎng)絡(luò)服務(wù),而且是從C/S到B/S。B/S,Browser/Server這個(gè)潮流是肯定的。網(wǎng)絡(luò)服務(wù)的主要形式是搜索,搜索的早期問題是查全率差,分類欠缺,Google一查一大片都出來了,但是沒有分類,連檢繁關(guān)聯(lián)都沒有,我們老早就已經(jīng)做檢繁異關(guān)聯(lián)了,這是我們做《四庫全書》時(shí),但是人家很快就上來了,這個(gè)問題解決了。但是今天和明天的問題是什么呢,我只是一家之言,我認(rèn)為現(xiàn)在是:“流”滿全球,難以溯“源”。例:與時(shí)俱進(jìn)。社科院一老師誤以為我是專家,讓我查“與時(shí)俱進(jìn)”出自哪兒,一查才清楚,這個(gè)詞是古已有之的,不是現(xiàn)在才創(chuàng)造的。如果在Google或百度里查,它所找到的一大片成千上萬全是流,沒有源,找不到源。全部被淹沒了。溫總理那年中秋引用的一首詩是:“心中為(唯?惟?)念農(nóng)桑苦,耳里如聞饑凍聲。”體會(huì)老百姓疾苦的好詩,我一查古籍,里面好幾個(gè)版本,意思挺多,可是去查Google,Baidu,查不到,都是人民日?qǐng)?bào)上登的那個(gè)版本,找不到真實(shí)的,缺少深度,抄襲致“淺”吶。比如:有一個(gè)詞是張本繼末,這是我親身經(jīng)歷的,給一個(gè)位小朋友寫的藏頭詩,他姓張,想一個(gè)詞是張本繼末,想在Google里查一下,一查所有的張本繼末解釋全一樣,全都是抄的,解釋是把事情的本末說清楚,我一看覺得不對(duì)勁,仔細(xì)推敲,真是不對(duì),大家抄來抄去,連標(biāo)點(diǎn)符號(hào)都一樣,然而真正的意思是有繼承和發(fā)展的意思卻忽略了,本是根本,到處都說只是“把事情的本末說清楚”,這叫做張本繼末,這是不對(duì)的,不全面的,起碼我提的問題沒地去查。所以我們做完《漢語大詞典》第一版時(shí),在新聞出版署開發(fā)布會(huì)時(shí),北大文史系一老師就問有沒有例證,如果沒有例證就沒用,說得很尖銳。確實(shí)是這樣,我現(xiàn)在越來越認(rèn)識(shí)到這一點(diǎn)。我們?yōu)榇擞辛艘粋(gè)新的數(shù)字化創(chuàng)意:詢經(jīng)問典,這是Google,BaiDu,MS共同的空白。今天沒時(shí)間展開談,有機(jī)會(huì)希望和大家深入交流一下。
感悟之四就是要合作:典籍+數(shù)字化,兩方面的人,術(shù)業(yè)有專攻,但一定要合作。我要學(xué)習(xí)尹小林與文史界的密切聯(lián)系。我也很欣慰:李鐸博士這樣的具有文學(xué)功底的新一代數(shù)字化少壯派的涌現(xiàn),我真得感到很高興,原來我主持《四庫全書》電子版工程時(shí),他是古漢語的輔導(dǎo)員,和一些北大、北師大的博士生,做了很多貢獻(xiàn),現(xiàn)在,自己也能做很多項(xiàng)目。文理合作的模式很多,其中一個(gè)模式在圖上(請(qǐng)參看PPT),我就不說了.像我們書同文數(shù)字化公司這樣的主要做什么呢,我們是數(shù)字化清道夫:把問題突現(xiàn)出來,把平臺(tái)搭起來,讓學(xué)者去創(chuàng)造新的成果,像我們做《日本漢方醫(yī)書》時(shí)字很亂,要合作,《清實(shí)錄》這些可以用一種模式,通過網(wǎng)絡(luò),這是可能的。臺(tái)灣做《佛學(xué)》電子版時(shí),能做到把很多佛教信徒通過網(wǎng)絡(luò),大家提供知識(shí)的幫助、相互咨詢,一起來做,這完全是可行的。
時(shí)間所限,在此打住。謝謝傾聽,希望多多聯(lián)系!
【作者單位】教育部語言文字應(yīng)用研究所
【聯(lián)系方式】www.unihan.com.cn
Joe.zhang@unihan.com.cn
joezhang43@hotmail.com
|