午夜精品免费视频,亚洲区欧美区,久久成人精品视频,成人免费网站观看

    

典籍數(shù)字化與搜索:源與流,深與淺
(錄音整理稿節(jié)選)

張軸材

各位專家,大家好:

  因為在座各位面孔比較陌生,所以我先介紹一下我自己。跟文史古籍界的各位不太一樣,我是踏入文史典籍領域的一個“越俎代庖”分子,不是文字專家,也不是文史專家,只是一個工程師。我原來學自動控制,后來學計算機,但是由于歷史的誤會,從89年起就卷入中日韓漢字統(tǒng)一當中。是一個CJK統(tǒng)一編碼的“始作俑者”者,“始作俑”為什么加引號?因為現(xiàn)在有的人說有好的評價,有的說還有這樣那樣的問題,不管怎么樣,我有相當?shù)呢熑危驗樵趪H上我是該項目的長期負責人。我卷入大家做的這個領域是從95年做《漢語大詞典》電子版開始,到文淵閣《四庫全書》電子版工程,還有大家熟悉的《四部叢刊》電子版,所以我做的事情跟大家相關;但我做的和國學的尹小林比,我在某些地方是“先烈”,有些地方我犧牲了,但沒有取得成績或回報。

  在這里,我談到的是狹義的典籍數(shù)字化,聽起來跟大家不太一樣,在座好多專家的理解是廣義的。狹義的典籍數(shù)字化把整理后的古籍文獻內(nèi)容,從紙面轉(zhuǎn)換為數(shù)字,與相關的數(shù)字化工具結合在一起,達到字字可查、句句可檢的水準,提供給文史工作者使用。這是一個基礎工作。目的不是取代文史工作者(也永遠取代不了),而是讓學者“如虎添翼”(季羨林老先生在我們贈送北京大學《四部叢刊》時講的話)。進行深層次的研究(廣義的數(shù)字化:標引、校勘、版本對比、注釋、同義詞語、韻律、批評…)。這些我們做不好,這些工作是是文史工作者的使命,當然要配合一定的工具。

  我今天和大家一起交流的,首先看看到典籍數(shù)字化的大好形勢。95年以前數(shù)字化大陸很差,臺灣中央研究院做得很好,后來我們做得不錯,到今天來看,我們確實是有長足的進步,形成了全面展開的態(tài)勢,我就把自己視野范圍內(nèi)的標志性發(fā)展,以及我自己的感悟和大家交流一下。

  ·文津閣四庫全書(標志性的,盡管是做圖形版。)

  ·臺灣:典藏數(shù)位化項目,佛學…(佛學是發(fā)動群眾,有規(guī)模有水平的。)

  ·民間:天一閣(全面數(shù)字化,正在研究之中,)

  ·基礎:古籍字頻統(tǒng)計(還有詞語統(tǒng)計,詞語統(tǒng)計還不太成熟,字頻統(tǒng)計在商務印書館估計11月份出版。)

  全面展開,國內(nèi)(文淵閣《四庫全書》、《四部叢刊》)之后,基本古籍CD,國學網(wǎng)…有一些好的發(fā)展,比如政府項目:

  ·第一歷史檔案館:(作了大量踏踏實實的工作)

  ·清會典(已成為產(chǎn)品)

  ·清實錄(已成為產(chǎn)品)

  ·上諭檔(進行中)

  《清會典》和《清實錄》已經(jīng)成為產(chǎn)品,《上諭檔》正在制作中,這是我們書同文公司做的,主要是明清檔案。

  此外,

  ·地方志

  ·清史工程

  ·中華大典

  國際:

  ·日本:《漢方醫(yī)書大成》已經(jīng)進入全文數(shù)字化第二版

  ·美國:世界大家譜(和國內(nèi)的一些公司有聯(lián)系)

  ·韓國:《奎章閣》數(shù)字化

  ·法國:《永樂大典》相關典籍數(shù)字化

  對這下發(fā)展,我有一些感悟和大家交流。在談漢字信息化時,我就談過這樣一個觀點:漢字源于中國,但是漢字并不只屬于中國。漢籍也源于中國,但是并非只有中國可以數(shù)字化;如果多次出現(xiàn)讓外人將“端午節(jié)”“申非”的情勢,只說明某些政府部門的無作為和典籍故鄉(xiāng)學者的無奈。還有一條,典籍一旦數(shù)字化,它的用戶群就飛速地擴大到全世界,沒有任何學者再成為“絕對權威”,或者說,“學閥”的土壤就不復存在了。大家都處于信息資料公開的平等學術環(huán)境中。我也檢索過,像利用《四部叢刊》、《四庫全書》電子版寫論文的,港澳臺、海外的很多華人,出的論文可以和大陸相匹敵,別想限制人家,別怨天尤人,還是自己急起直追吧。電子的市場是走向全世界的。

  感悟之二,我們可能有很多的數(shù)字化設想語抱負,但是字-詞-語-文-版,字仍然是基礎;適用的文字平臺工具,仍然是重中之重。基礎不穩(wěn),后患無窮。但是,字的重要性主要表現(xiàn)為字樣的多樣性,而不是字符的多寡。除了大規(guī)模字書的需要外,片面地追求“超大、特大字符集”是誤解或誤導的結果。根據(jù)我們的統(tǒng)計CJK_B只占5%%在典籍里,片面的強調(diào)大字符集這點,會分散注意力。還有一個就是數(shù)字內(nèi)容為王。我們要高度重視紙張-電子轉(zhuǎn)換的鋪路工作,掃描、拍攝、拷貝,不能取代最基礎的字符轉(zhuǎn)換工作。必需投入資源。資料掃描在初期是必要的,但是把它作為樣板、讓人誤以為掃描資料就是數(shù)字圖書館,這是誤導領導和群眾,這是很糟糕的事情。

  感悟之三:數(shù)字化典籍最終要走向網(wǎng)絡服務,而且是從C/S到B/S。B/S,Browser/Server這個潮流是肯定的。網(wǎng)絡服務的主要形式是搜索,搜索的早期問題是查全率差,分類欠缺,Google一查一大片都出來了,但是沒有分類,連檢繁關聯(lián)都沒有,我們老早就已經(jīng)做檢繁異關聯(lián)了,這是我們做《四庫全書》時,但是人家很快就上來了,這個問題解決了。但是今天和明天的問題是什么呢,我只是一家之言,我認為現(xiàn)在是:“流”滿全球,難以溯“源”。例:與時俱進。社科院一老師誤以為我是專家,讓我查“與時俱進”出自哪兒,一查才清楚,這個詞是古已有之的,不是現(xiàn)在才創(chuàng)造的。如果在Google或百度里查,它所找到的一大片成千上萬全是流,沒有源,找不到源。全部被淹沒了。溫總理那年中秋引用的一首詩是:“心中(唯?惟?)念農(nóng)桑苦,耳里如聞饑凍聲。”體會老百姓疾苦的好詩,我一查古籍,里面好幾個版本,意思挺多,可是去查Google,Baidu,查不到,都是人民日報上登的那個版本,找不到真實的,缺少深度,抄襲致“淺”吶。比如:有一個詞是張本繼末,這是我親身經(jīng)歷的,給一個位小朋友寫的藏頭詩,他姓張,想一個詞是張本繼末,想在Google里查一下,一查所有的張本繼末解釋全一樣,全都是抄的,解釋是把事情的本末說清楚,我一看覺得不對勁,仔細推敲,真是不對,大家抄來抄去,連標點符號都一樣,然而真正的意思是有繼承和發(fā)展的意思卻忽略了,本是根本,到處都說只是“把事情的本末說清楚”,這叫做張本繼末,這是不對的,不全面的,起碼我提的問題沒地去查。所以我們做完《漢語大詞典》第一版時,在新聞出版署開發(fā)布會時,北大文史系一老師就問有沒有例證,如果沒有例證就沒用,說得很尖銳。確實是這樣,我現(xiàn)在越來越認識到這一點。我們?yōu)榇擞辛艘粋新的數(shù)字化創(chuàng)意:詢經(jīng)問典,這是Google,BaiDu,MS共同的空白。今天沒時間展開談,有機會希望和大家深入交流一下。

  感悟之四就是要合作:典籍+數(shù)字化,兩方面的人,術業(yè)有專攻,但一定要合作。我要學習尹小林與文史界的密切聯(lián)系。我也很欣慰:李鐸博士這樣的具有文學功底的新一代數(shù)字化少壯派的涌現(xiàn),我真得感到很高興,原來我主持《四庫全書》電子版工程時,他是古漢語的輔導員,和一些北大、北師大的博士生,做了很多貢獻,現(xiàn)在,自己也能做很多項目。文理合作的模式很多,其中一個模式在圖上(請參看PPT),我就不說了.像我們書同文數(shù)字化公司這樣的主要做什么呢,我們是數(shù)字化清道夫:把問題突現(xiàn)出來,把平臺搭起來,讓學者去創(chuàng)造新的成果,像我們做《日本漢方醫(yī)書》時字很亂,要合作,《清實錄》這些可以用一種模式,通過網(wǎng)絡,這是可能的。臺灣做《佛學》電子版時,能做到把很多佛教信徒通過網(wǎng)絡,大家提供知識的幫助、相互咨詢,一起來做,這完全是可行的。

  時間所限,在此打住。謝謝傾聽,希望多多聯(lián)系!

作者單位】教育部語言文字應用研究所

聯(lián)系方式www.unihan.com.cn
      Joe.zhang@unihan.com.cn
      joezhang43@hotmail.com

 
主站蜘蛛池模板: 湖州市| 杭锦旗| 邯郸市| 务川| 西峡县| 普陀区| 桂林市| 儋州市| 会东县| 富裕县| 谢通门县| 高陵县| 石家庄市| 华池县| 浙江省| 香港 | 阳原县| 健康| 灵宝市| 察哈| 九江市| 阜新| 谢通门县| 安平县| 新疆| 浠水县| 肇庆市| 宾川县| 玉林市| 光泽县| 察雅县| 永修县| 探索| 临清市| 南投市| 彭泽县| 沛县| 日土县| 互助| 高雄市| 阿鲁科尔沁旗|