書同文公司典籍?dāng)?shù)字化的新進(jìn)展
兩年一度重聚首。衷心感謝國學(xué)網(wǎng)提供這樣的平臺(tái),讓國學(xué)界的專家們和我們從事典籍?dāng)?shù)字化的工作者有一個(gè)良好的面對(duì)面交流的機(jī)會(huì)。
前不久,兩位巨星幾乎同時(shí)隕落了:任繼愈和季羨林,他們不僅是公認(rèn)的大師,也是曾經(jīng)給予過我們的典籍?dāng)?shù)字化事業(yè)諄諄教導(dǎo)和熱情鼓勵(lì)的恩師,所以特別地悲痛。
我們要記住的是,我們這一行,方向就是要“嘉惠學(xué)林”(任繼愈題字)、就是要讓更多的學(xué)者“如虎添翼”(季羨林語),我們本身不是文史專家,我們只是文史工作者的內(nèi)容提供者(ICP)和服務(wù)提供者(SP)。
我們的服務(wù)做得好不好,就要看我們是否滿足使用者的需求,踏踏實(shí)實(shí)地向用戶提供了高質(zhì)量的(數(shù)字化)內(nèi)容,以及服務(wù)到位的數(shù)字化技術(shù)功能。
下面就典籍?dāng)?shù)字化的內(nèi)容和技術(shù)兩方面做一匯報(bào)。
一、從上一屆國學(xué)會(huì)議到現(xiàn)在,書同文公司在典籍?dāng)?shù)字化內(nèi)容方面,完成了這樣幾個(gè)規(guī)模較大的項(xiàng)目:
1.日本《漢方醫(yī)書大成》(2007年完成結(jié)項(xiàng))
2.國家第一歷史檔案館數(shù)字化第二期工程
繼“全文數(shù)字化清代檔案文獻(xiàn)據(jù)庫第一期建設(shè)成果”合作后,雙方進(jìn)一步深入組織開展了檔案文獻(xiàn)信息資源建設(shè)。建設(shè)項(xiàng)目自2007年上半年啟動(dòng),歷時(shí)2年多時(shí)間完成。近期即將鑒定全文數(shù)字化《軍機(jī)處上諭檔》。
3.故宮博物院陳設(shè)檔等數(shù)字化工程(正在進(jìn)行中)
故宮博物院院藏《清宮陳設(shè)檔》記載了明清兩朝紫禁城皇家陳設(shè)檔案,是迄今為止最為完整故宮文物檔案,具有極其珍貴的文物歷史史料價(jià)值。
故宮博物院圖書館針對(duì)當(dāng)前形勢(shì)的發(fā)展趨勢(shì),通過長期慎重考察,決定采用走社會(huì)化合作的方式,委托專業(yè)化企業(yè)實(shí)施項(xiàng)目項(xiàng)目開發(fā),探索了一條專業(yè)化制作開發(fā)、高效、低成本的歷史檔案數(shù)字化之路。經(jīng)過雙方詳盡細(xì)致的洽商,憑借故宮博物院圖書館豐富的館藏,專業(yè)研究水平以及長期積累的豐富經(jīng)驗(yàn),在朱賽虹館長精心的策劃指導(dǎo)下,在院領(lǐng)導(dǎo)的全力支持下,在雙方工作人員共同努力下使該項(xiàng)目得以順利開展,即將在今年60年國慶后正式在院內(nèi)上線使用。
相信全文數(shù)字化《清宮陳設(shè)檔》上線,將為有關(guān)學(xué)者專家提供更加快捷便利的查詢手段,為開展相關(guān)業(yè)務(wù)的研究提供強(qiáng)大的利器。
4.《四部叢刊》09網(wǎng)絡(luò)增補(bǔ)版(2009上線,PPT發(fā)言將重點(diǎn)介紹)。在內(nèi)容上,在《四部叢刊》2002年電子版的基礎(chǔ)上,開放了全部張?jiān)獫?jì)校勘記百余篇,同時(shí),增加了中華書局《四部備要》的全部?jī)?nèi)容(一億三千萬字,作為“增補(bǔ)”)。至此,書同文公司有幸完成了古籍文獻(xiàn)的三個(gè)大部頭“四”(文淵閣四庫全書[注]、四部叢刊、四部備要)的數(shù)字化。
二、在數(shù)字化技術(shù)方面,我們開發(fā)了幾項(xiàng)頗受用戶歡迎的新功能,他們幾乎全都滲透在每個(gè)數(shù)字化項(xiàng)目中了。下面我將結(jié)合上面的數(shù)字化內(nèi)容的展現(xiàn)特色和新技術(shù)功能作一介紹。
1.鑒于文獻(xiàn)的重要性,堅(jiān)持原文與全文并存對(duì)照的模式,在可能范圍內(nèi)實(shí)現(xiàn)保真。與此相關(guān),必須堅(jiān)持原版面豎排格式:
隨著古籍?dāng)?shù)字化工作的進(jìn)展,發(fā)現(xiàn)除古籍善本版式特點(diǎn)外,明清歷史文獻(xiàn)檔案樣本也愈加豐富和復(fù)雜。這些文獻(xiàn)檔案表現(xiàn)出與古籍善本不同的特點(diǎn)。例如:“上諭”、“旨”、“硃批”、“圣祖”、“御筆”等字樣出現(xiàn)時(shí),這些文字書寫都高于其他文字之上,以體現(xiàn)皇權(quán)的至高無尚;同樣的原因,大臣在個(gè)人名字落款前,也會(huì)用小字寫“臣”。
這在現(xiàn)代橫排版方式下是無法體現(xiàn)其歷史信息的.這樣,保持原版豎排(XML)就顯得極其重要了。
同時(shí),確保圖象數(shù)據(jù)與XML數(shù)據(jù)的完整性
我們無法保證數(shù)字化后的數(shù)據(jù)幾十年后,有多少數(shù)字化軟件可以永久通用/適用。但是圖象數(shù)據(jù)、XML數(shù)據(jù)則可以確保這些經(jīng)過精心制作的信息,長期留存下去(一定會(huì)有相應(yīng)的各種轉(zhuǎn)換工具誕生)。
2.徹底的網(wǎng)絡(luò)展現(xiàn),從C/S版過度到B/S。用戶無需安裝任何客戶端軟件。
3.提供基于Web的手寫識(shí)別系統(tǒng)(書同文“巧筆”),用戶無需記憶任何漢字書寫和拆分的規(guī)則,特別有利于輸入、查詢罕用字或不明發(fā)音的漢字;同時(shí)還可以順藤摸瓜地檢索和輸入各種關(guān)聯(lián)字。漢字識(shí)別在服務(wù)器端實(shí)現(xiàn)-云計(jì)算的概念的初步實(shí)現(xiàn)。
4.維護(hù)目錄的完整性
古籍善本、歷史文獻(xiàn)檔案不同于通常的搜索(無MetaData)。目錄完整反映了其中分類和時(shí)序關(guān)系。讀者通過瀏覽目錄可以很快清楚地了解一套完整叢書或檔案的全貌;而且有了這個(gè)目錄信息,搜索/檢索結(jié)果可以清晰地標(biāo)明命中的出處。
5.跟蹤與適應(yīng)各類瀏覽器:選用B/S的代價(jià)
B/S給讀者帶來的便利是不言而喻的,同時(shí)也附帶了維護(hù)成本。市場(chǎng)競(jìng)爭(zhēng)的結(jié)果必然迫使瀏覽器不同廠家不斷升級(jí)改版。如何使B/S產(chǎn)品適用這些變化,做到兼容是不可回避問題。
6.多維助檢 支持人名、地名、職官以及關(guān)聯(lián)字檢索。
7.全文檢索自動(dòng)關(guān)聯(lián)簡(jiǎn)繁異
8.其他技術(shù)特點(diǎn)不再一一贅述。(見PPT)
書同文公司所制作的典籍?dāng)?shù)字化產(chǎn)品,均屬于珍本或善文獻(xiàn)資料,利用它們進(jìn)行文史研究,求本溯源有著特別的意義。迄今為止,無論是Google還是百度,在這方面還是個(gè)空白或弱項(xiàng)。
下面,我利用PPT和聯(lián)機(jī)演示談?wù)剮讉€(gè)感悟:
1.源與流:保真的重要性;利用數(shù)字化珍本,進(jìn)行求本溯源的研究。
2.C/S到B/S的演進(jìn)的必要。
3.從“多維助檢”和關(guān)聯(lián)檢索談數(shù)字化工具與內(nèi)容的結(jié)合。
4.在數(shù)字化典籍中如何實(shí)現(xiàn)“云計(jì)算”的理念。
誠懇地希望與會(huì)專家批評(píng)指導(dǎo)。