國學(xué)三大核心技術(shù)
自動標(biāo)點(diǎn)、自動比對和自動排印,是國學(xué)公司在《國學(xué)寶典》的基礎(chǔ)上,歷經(jīng)多年研發(fā)成功的三大核心技術(shù),可謂大型古籍?dāng)?shù)據(jù)庫從量變到質(zhì)變的飛躍,不僅具有很高的科技含量,更具有巨大的應(yīng)用價(jià)值。借助此三大技術(shù),得以免除許多繁瑣的重復(fù)勞動,將古籍整理出版的效率和質(zhì)量提升數(shù)倍,這無異于延長了學(xué)者的生命。
自動標(biāo)點(diǎn)
自動為古籍加注標(biāo)點(diǎn),這大約是無數(shù)古籍整理工作者夢寐以求之事,而自動標(biāo)點(diǎn)技術(shù)讓這個夢想變?yōu)楝F(xiàn)實(shí)。自動標(biāo)點(diǎn)并非無中生有,而是以有補(bǔ)無。該項(xiàng)技術(shù)基于對大規(guī)模帶標(biāo)點(diǎn)文本的分析統(tǒng)計(jì),以句型為基礎(chǔ),輔以語法分析和字詞切分技術(shù),通過模糊查找和分段比對,對無標(biāo)點(diǎn)的古籍文獻(xiàn)自動加上合適的標(biāo)點(diǎn)符號,可用于大規(guī)模古籍整理等領(lǐng)域。理想狀態(tài)下自動標(biāo)點(diǎn)準(zhǔn)確率在90%以上,機(jī)器無法完全識別的情形下會自動提示專家進(jìn)行人工干預(yù)。
自動比對
校比異文同樣是古籍整理最基本也是最苦惱的事情,不僅耗費(fèi)大量的人力,而且無法避免失誤。而運(yùn)用自動比對技術(shù),能自動進(jìn)行多種版本古籍的逐字比對,完成后還可在古籍中標(biāo)示出文字和符號任何差異,如此一來,既節(jié)省了寶貴的人力,而且有超人的效率和正確性。
自動排印
自動排印技術(shù)依托于國學(xué)公司研發(fā)的大型古籍全文檢索數(shù)據(jù)庫《國學(xué)寶典》,可以將數(shù)據(jù)庫中的任意文字轉(zhuǎn)換為方正排版文件,可直接出片、打樣、印刷。版式設(shè)計(jì)任意可選,多種格式自動排版 ,疑難僻字一次補(bǔ)齊,目錄索引自動生成。
該技術(shù)較好地解決了古籍生僻字造字、簡繁體轉(zhuǎn)換、橫豎版式等多項(xiàng)技術(shù)難點(diǎn),較好地滿足了出版社在信息時代對古籍整理出版項(xiàng)目的高水準(zhǔn)需求,可極大地降低出版成本,提高出版效率。更為個性出版,尤其是難度較高的古籍個性出版提供了廣闊的空間。
運(yùn)用該技術(shù),排印速度極快,可在一刻鐘排完《紅樓夢》,一小時排完《魯迅全集》,一天排完《二十四史》,一周排完《四庫全書》。
《四庫全書》是中國歷史上規(guī)模最大的一部叢書,收錄古籍3503種、79337卷。對《四庫全書》進(jìn)行標(biāo)點(diǎn)整理并最終出版,無疑是一項(xiàng)宏偉的工程。上世紀(jì)五十年代末,中華書局集結(jié)全國上百位文史專家整理《二十四史》,前后歷二十年。《四庫全書》10億字,規(guī)模是《二十四史》的25倍,通常需用500位教授,工作 100年,而運(yùn)用三大核心技術(shù),有望在五年內(nèi)便可完成。