關(guān)于古籍電子化的一些思考
古籍電子化正在改變中國(guó)文史哲古代研究的局面,這一點(diǎn)已經(jīng)越來(lái)越清楚了。這里僅就自己在使用有關(guān)成果時(shí)的一些想法草成此文,由于長(zhǎng)期從事漢語(yǔ)史的研究,所以不免于偏向語(yǔ)言學(xué),這可能是一些片面之詞,不揣冒昧寫(xiě)出來(lái)以就正于廣大古籍電子化的專家學(xué)者。
一
漢字隨著時(shí)代的發(fā)展有越來(lái)越多的趨勢(shì),筆者在《漢語(yǔ)新論》中曾經(jīng)指出:“據(jù)說(shuō),最早的字書(shū)是《史籀篇》,可惜已經(jīng)亡佚了。小篆李斯有《倉(cāng)頡篇》、趙高有《爰?xì)v篇》、胡毋敬有《博學(xué)篇》,是當(dāng)時(shí)的字形規(guī)范及識(shí)字課本,可惜都已亡佚了,據(jù)《漢書(shū)·藝文志》記載,漢人所增訂的《倉(cāng)頡篇》“斷六十字為一章,凡五十五章”,共有小篆3300字。許慎統(tǒng)計(jì)自《倉(cāng)頡》到《訓(xùn)纂》等14種字書(shū),共收字5340字。現(xiàn)存的有關(guān)小篆的字書(shū)是《說(shuō)文解字》,有9353個(gè)字(不計(jì)重文,如計(jì)重文1163,則有10516個(gè)字)。反映漢代一般用字的有西漢元帝時(shí)的《急就篇》,流傳至今的不同本子字?jǐn)?shù)各異,如34章本就有2144個(gè)字,不過(guò)其末尾的128字為后人所加。也就是說(shuō),當(dāng)時(shí)的最常用字不過(guò)兩千字左右,常用字則為三千字左右。”“中國(guó)學(xué)者按數(shù)理語(yǔ)言學(xué)的齊普夫定律計(jì)算過(guò)漢字容量應(yīng)該是12366個(gè)。但是實(shí)際上漢字的總數(shù)自秦以后是不斷增加的。三國(guó)魏張揖的《廣雅》收字18154個(gè),晉呂忱的《字林》收12824個(gè),梁顧野王的《玉篇》收16817個(gè),隋陸法言的《切韻》收12158個(gè),宋陳彭年的《廣韻》收26194個(gè),而丁度的《集韻》收字53525個(gè),為以前工具書(shū)之最(《康熙字典》收字47073個(gè),《中華大字典》收字48000多個(gè),都不及《集韻》,但是《集韻》往往一個(gè)字收了許多的異體字,有的七八個(gè),有的甚至超過(guò)十個(gè))。《漢語(yǔ)大字典》收字54678個(gè),還有一本《中華字海》,據(jù)說(shuō)收字超過(guò)8.5萬(wàn)。當(dāng)然這里絕大多數(shù)是極其罕用的字(有的其實(shí)只是個(gè)別人、特殊的社會(huì)集團(tuán)所寫(xiě)的‘錯(cuò)字’或‘異體字’,有的則是早已‘死亡’的字)。實(shí)際運(yùn)用的只是其中的一小部份,比如傳統(tǒng)的十三經(jīng),只使用了6544個(gè)漢字,《紅樓夢(mèng)》則僅使用了4462個(gè)漢字。據(jù)新華社技術(shù)研究所的統(tǒng)計(jì),1986年全年90627篇稿件中,使用了6001個(gè)漢字。看來(lái),在任何一個(gè)共時(shí)階段,一般用字都不會(huì)超過(guò)7000的(這也是國(guó)家語(yǔ)委等單位所頒布的《現(xiàn)代漢語(yǔ)通用字表》的字?jǐn)?shù))。當(dāng)然,從歷史的積淀來(lái)研究,我們就必須考慮到古今字、異體字、繁簡(jiǎn)字、正俗字等等問(wèn)題并由此出發(fā)進(jìn)行論證。”計(jì)算機(jī)漢字庫(kù)的不斷變更也說(shuō)明了中文信息處理的進(jìn)步。而有關(guān)字頻研究的成果也證明了本文前述說(shuō)法。
現(xiàn)代漢語(yǔ)字頻詞頻的研究成果很多,而古代漢語(yǔ)則相對(duì)較少。《國(guó)學(xué)寶典》據(jù)約十億字的語(yǔ)料推出了前5000字的漢字使用次數(shù)資料,書(shū)同文公司則據(jù)《四庫(kù)全書(shū)》和《四部叢刊》約八億字的語(yǔ)料出版了《古籍漢字字頻統(tǒng)計(jì)》一書(shū),書(shū)中對(duì)30136個(gè)漢字的使用次數(shù)、使用頻率等進(jìn)行了統(tǒng)計(jì)。筆者在自己的科研項(xiàng)目中也對(duì)十三經(jīng)的6536個(gè)漢字使用情況做過(guò)統(tǒng)計(jì),現(xiàn)將其中的前50詞使用情況列在下面(《國(guó)學(xué)寶典》僅以前5000字的出現(xiàn)次數(shù)為總數(shù))。
國(guó)學(xué)寶典前50字字頻
漢 字 | 字 數(shù) | 占總字?jǐn)?shù)的百分比 |
之 | 4919015 | 1.7833 |
不 | 325%1693 | 1.284 |
以 | 2551477 | .925 |
人 | 2378126 | .8622 |
一 | 2305774 | .8359 |
為 | 2280907 | .8269 |
有 | 2193204 | .7952 |
其 | 1881838 | .6822 |
而 | 1824822 | .66616 |
也 | 1745517 | .6328 |
者 | 1629565 | .5908 |
無(wú) | 1504830 | .25%56 |
子 | 1443096 | .5235 |
是 | 1442580 | .523 |
曰 | 1437511 | .5212 |
大 | 1380053 | .5003 |
十 | 1356877 | .4919 |
中 | 1196329 | .4337 |
所 | 1193504 | .4327 |
三 | 1147590 | .416 |
二 | 1142691 | .4143 |
上 | 1078124 | .3909 |
如 | 1072444 | .3888 |
于 | 1033983 | .3749 |
此 | 1033057 | .3745 |
年 | 993623 | .3602 |
得 | 966202 | .3503 |
道 | 942913 | .3418 |
下 | 94150%6 | .3414 |
天 | 931698 | .3378 |
事 | 921094 | .3339 |
書(shū) | 905197 | .3282 |
日 | 901350% | .3268 |
王 | 898950 | .3259 |
生 | 883723 | .3204 |
自 | 882562 | .32 |
來(lái) | 875973 | .3150% |
時(shí) | 25%5960 | .3103 |
文 | 25%2833 | .3092 |
至 | 817310 | .2963 |
在 | 811009 | .294 |
可 | 79825%1 | .2895 |
言 | 793101 | .2875 |
行 | 789282 | .2861 |
見(jiàn) | 787022 | .225%3 |
云 | 783283 | .284 |
故 | 50%0271 | .2756 |
與 | 739983 | .2683 |
知 | 739051 | .2679 |
四 | 737863 | .2675 |
? | 275832419 | 23.95156 |
書(shū)同文前50字字頻
漢字 | 出現(xiàn)次數(shù) | 萬(wàn)分之 | 累計(jì)覆 蓋率 | 序號(hào) |
之 | 19891628 | 252.2099 | 2.5221 | 1 |
不 | 09733996 | 123.4193 | 3.7562 | 2 |
以 | 09486560 | 120.2059 | 4.9583 | 3 |
也 | 07881524 | 99.9314 | 5.9576 | 4 |
而 | 07697614 | 97.5996 | 6.9336 | 5 |
其 | 06896797 | 87.4458 | 7.8087 | 6 |
人 | 06750929 | 85.5964 | 8.6640 | 7 |
為 | 06625021 | 83.8731 | 9.5028 | 8 |
有 | 06209740 | 78.7345 | 10.2901 | 9 |
者 | 05587903 | 70.8501 | 10.9986 | 10 |
一 | 05279990 | 66.9460 | 11.6681 | 11 |
曰 | 05235232 | 66.3785 | 12.3319 | 12 |
子 | 04979575 | 58,0653 | 12.9125 | 13 |
於 | 04305732 | 54.5932 | 13.4585 | 14 |
十 | 04185422 | 53.0678 | 13.9891 | 15 |
大 | 03590583 | 45.5257 | 14.4444 | 16 |
所 | 03516804 | 44.5902 | 14.8903 | 17 |
二 | 03437197 | 43.5809 | 15.3261 | 18 |
三 | 03338241 | 42.3262 | 15.7494 | 19 |
中 | 03184692 | 40.3793 | 16.1532 | 20 |
無(wú) | 03175745 | 40.2659 | 16.5558 | 21 |
丨 | 03166824 | 40.1528 | 16.9573 | 22 |
年 | 03163339 | 40.1686 | 17.3584 | 23 |
則 | 03054578 | 38.7156 | 17.7456 | 24 |
下 | 02960595 | 37.5379 | 18.1210 | 25 |
天 | 02919091 | 37.0117 | 18.4911 | 26 |
上 | 02887089 | 36.6059 | 18.8571 | 27 |
此 | 02834051 | 35.9335 | 19.2169 | 28 |
王 | 02754461 | 34.9243 | 19.5657 | 29 |
書(shū) | 02619030 | 33.2072 | 19.8978 | 30 |
是 | 02602664 | 32.9997 | 20.2278 | 31 |
公 | 02576421 | 32.6669 | 20.5545 | 32 |
事 | 02519440 | 31.9444 | 20.8739 | 33 |
自 | 02480552 | 31.4514 | 21.1884 | 34 |
在 | 02428095 | 30.7863 | 21.4963 | 35 |
可 | 02422115 | 30.7104 | 21.8034 | 36 |
言 | 02368329 | 30.0285 | 22.1037 | 37 |
至 | 02344512 | 29.7265 | 22.4009 | 38 |
五 | 02342263 | 29.6980 | 22.6979 | 39 |
如 | 02338972 | 29.6563 | 22.9945 | 40 |
日 | 02325150 | 29.4810 | 23.2893 | 41 |
山 | 02299699 | 29.1583 | 23.5809 | 42 |
四 | 02293069 | 29.0742 | 23.8716 | 43 |
故 | 02268200 | 28.7589 | 24.1592 | 44 |
文 | 02232019 | 28.3002 | 24.4422 | 45 |
與 | 02204117 | 27.9464 | 24.7217 | 46 |
又 | 02194105 | 27.8195 | 24.9999 | 47 |
得 | 02190762 | 27.7771 | 25.2776 | 48 |
時(shí) | 02172369 | 27.5439 | 25.5531 | 49 |
行 | 02106107 | 26.7037 | 25.8201 | 50 |
十三經(jīng)前50詞語(yǔ)頻率表
1 | 之 | 22979 | 3.619817552 |
2 | 也 | 14356 | 2.261460498 |
3 | 不 | 12036 | 1.895997391 |
4 | 子 | 11986 | 1.888121031 |
5 | 以 | 10740 | 1.691842139 |
6 | 人 | 9856 | 1.552588093 |
7 | 其 | 9764 | 1.538095591 |
8 | 曰 | 9641 | 1.518719745 |
9 | 而 | 8621 | 1.691842139 |
10 | 有 | 6601 | 1.039837054 |
11 | 公 | 6392 | 1.006913869 |
12 | 于 | 6036 | 0.950834185 |
13 | 者 | 5830 | 0.918383582 |
14 | 為 | 5424 | 0.854427538 |
15 | 大 | 4988 | 0.785745679 |
16 | 君 | 4480 | 0.705721861 |
17 | 於 | 4411 | 0.694852484 |
18 | 則 | 3916 | 0.616876519 |
19 | 王 | 3728 | 0.587261405 |
20 | 侯 | 3617 | 0.569775886 |
21 | 月 | 3408 | 0.536852701 |
22 | 夫 | 3350 | 0.527716123 |
23 | 無(wú) | 3289 | 0.518106964 |
24 | 何 | 3117 | 0.491012286 |
25 | 如 | 3035 | 0.478095055 |
26 | 齊 | 2808 | 0.44233638 |
27 | 晉 | 2625 | 0.413508903 |
28 | 三 | 2520 | 0.396968547 |
29 | 天 | 2506 | 0.394763166 |
30 | 國(guó) | 2467 | 0.388619605 |
31 | 二 | 2462 | 0.387831969 |
32 | 師 | 2454 | 0.386571751 |
33 | 與 | 2441 | 0.384523898 |
34 | 十 | 2378 | 0.374599684 |
35 | 使 | 2227 | 0.350813077 |
36 | 矣 | 2220 | 0.349710386 |
37 | 是 | 2151 | 0.338841009 |
38 | 言 | 2142 | 0.337423265 |
39 | 可 | 2125 | 0.334745302 |
40 | 我 | 2119 | 0.333800139 |
41 | 諸 | 2110 | 0.332382394 |
42 | 禮 | 2107 | 0.331909813 |
43 | 命 | 2024 | 0.318835055 |
44 | 事 | 2020 | 0.318204946 |
45 | 乎 | 2014 | 0.317259783 |
46 | 下 | 1996 | 0.314424293 |
47 | 故 | 1991 | 0.313636657 |
48 | 上 | 1963 | 0.309225896 |
49 | 焉 | 1916 | 0.301822117 |
50 | 一 | 1854 | 0.292055431 |
《國(guó)學(xué)寶典》前50字的覆蓋率是23.95156%,書(shū)同文公司的是25.8201%,而十三經(jīng)的則是37.70571083%。估計(jì)是因?yàn)槭?jīng)都是上古語(yǔ)料,且使用字?jǐn)?shù)較少,而《國(guó)學(xué)寶典》與書(shū)同文公司的語(yǔ)料則時(shí)代跨度相對(duì)較大,用字更多。所以覆蓋率相對(duì)較小。
前50字對(duì)比如下:
《寶典》有而《十三經(jīng)》沒(méi)有的漢字是(漢字后面的數(shù)字是該字在《十三經(jīng)》中的序數(shù)):中68、所58、此109、年66、得116、道106、書(shū)150、日78、生157、自62、來(lái)87、時(shí)152、文140、至81、在61、行60、見(jiàn)113、云408(另有雲(yún)1390,合計(jì)其序數(shù)當(dāng)在352或353)、知108、四56。
《寶典》有而《十三經(jīng)》與書(shū)同文都沒(méi)有的漢字是:道106、生157、來(lái)87、見(jiàn)113、云408(353)、知108。
書(shū)同文有而《十三經(jīng)》沒(méi)有的是:所58、中68、丨、年66、此109、書(shū)150、自62、在61、至81、五70、日78、山244、四56、文140、又178、得116、時(shí)152、行60。
書(shū)同文有而《十三經(jīng)》與《寶典》都沒(méi)有的漢字是:丨、五70、山244、又178。
我們看到,其實(shí)三處差別不算太大,其他則基本只差幾位或幾十位,只有幾個(gè)字相差才有一百多位(相差最大的是云字,相差了287位)。這說(shuō)明幾千年所使用的文言文其常用字還是比較穩(wěn)定的,與先秦變化不大(另外書(shū)同文公司所統(tǒng)計(jì)的字符“丨”其他兩處均未見(jiàn)不知何故。)。
從發(fā)展來(lái)講,我們希望能按照語(yǔ)料的不同時(shí)代以及其性質(zhì)進(jìn)行統(tǒng)計(jì),比如按照上古、中古、近古,或者更詳細(xì)一點(diǎn)來(lái)劃分,如先秦、兩漢、魏晉南北朝、隋唐、宋、元明清。而且要分清是文言文還是古白話或者近代漢語(yǔ)(如一些翻譯的佛經(jīng)、 和尚以及道學(xué)家的語(yǔ)錄、一些筆記小說(shuō)以及話本、戲曲等等)。當(dāng)然,即使是文言文也有不同的文體,而且還有駢文、賦、詩(shī)詞。詩(shī)也要分古體、近體等等。只有這樣我們的字頻統(tǒng)計(jì)才會(huì)更有意義。
如果我們要做一個(gè)古今對(duì)比,也很有意思。下面是現(xiàn)代漢語(yǔ)使用頻率前50字的表:
ID | 字 | 頻度% |
1 | 的 | 3.235992 |
2 | 國(guó) | 1.386861 |
3 | 人 | 1.055654 |
4 | 一 | 1.052022 |
5 | 中 | 1.00115 |
6 | 學(xué) | 0.9439352 |
7 | 在 | 0.865377 |
8 | 大 | 0.772002 |
9 | 有 | 0.7666595 |
10 | 年 | 0.7550798 |
11 | 了 | 0.7341573 |
12 | 是 | 0.6876276 |
13 | 和 | 0.6010425 |
14 | 不 | 0.5645136 |
15 | 為 | 0.5436964 |
16 | 上 | 0.5385381 |
17 | 會(huì) | 0.4849027 |
18 | 家 | 0.4707702 |
19 | 生 | 0.4635855 |
20 | 業(yè) | 0.453611 |
21 | 地 | 0.4523478 |
22 | 出 | 0.4295567 |
23 | 個(gè) | 0.4058709 |
24 | 工 | 0.4055287 |
25 | 這 | 0.3971071 |
26 | 以 | 0.3925278 |
27 | 成 | 0.3864221 |
28 | 發(fā) | 0.3853957 |
29 | 作 | 0.3852641 |
30 | 我 | 0.3833956 |
31 | 日 | 0.3710789 |
32 | 來(lái) | 0.3550251 |
33 | 科 | 0.3527355 |
34 | 行 | 0.3506827 |
35 | 到 | 0.3476299 |
36 | 市 | 0.3384976 |
37 | 多 | 0.3297075 |
38 | 要 | 0.3248914 |
39 | 時(shí) | 0.3196016 |
40 | 經(jīng) | 0.3164961 |
41 | 高 | 0.3096009 |
42 | 外 | 0.2837833 |
43 | 員 | 0.283678 |
44 | 公 | 0.2811252 |
45 | 對(duì) | 0.276967 |
46 | 海 | 0.2749405 |
47 | 部 | 0.2743352 |
48 | 們 | 0.2721508 |
49 | 分 | 0.2708613 |
50 | 進(jìn) | 0.2704929 |
? | ? | 27.6048753% |
如果我們以更多的漢字來(lái)進(jìn)行比較,就可以發(fā)現(xiàn)同西方傳統(tǒng)的語(yǔ)言年代學(xué)不同的結(jié)論。
二
關(guān)于漢語(yǔ)有沒(méi)有“詞”以及如何劃分語(yǔ)素、詞、短語(yǔ),這是一個(gè)爭(zhēng)論問(wèn)題。,我們不想在此進(jìn)行闡釋。我們主張以單字、駢字、三字串、四字格來(lái)進(jìn)行劃分統(tǒng)計(jì)。所謂駢字,就是經(jīng)常出現(xiàn)在一起的兩個(gè)字,清代的《駢字類編》就是很有名的工具書(shū)。只要是經(jīng)常連用就沒(méi)有必要去區(qū)分詞還是短語(yǔ)。同樣三字串就是經(jīng)常在一起連用的三個(gè)漢字的字符串,四字格則是成語(yǔ)、俗語(yǔ)、慣用語(yǔ)最常見(jiàn)的格式。這需要我們建立相應(yīng)的字符串庫(kù)以便統(tǒng)計(jì)。
對(duì)于駢字,2011年初,網(wǎng)友yixuan統(tǒng)計(jì)了《全宋詞》中的高頻詞語(yǔ),并在自己的博客上列出了一個(gè)特別的排行榜:
1 空 1485 2 東風(fēng) 1382 3 何處 1230 4 人間 1202 5 風(fēng)流 857
6 歸去 812 7 春風(fēng) 802 8 西風(fēng) 779 9 歸來(lái) 771 10 江南 765
11 相思 753 12 梅花 732 13 千里 676 14 回首 656 15 明月 651
16 多少 648 17 如今 642 18 闌干 630 19 年年 613 20 萬(wàn)里 590
21 一笑 582 22 黃昏 550 23 當(dāng)年 542 24 天涯 537 25 相逢 528 310
26 芳草 527 27 尊前 516 28 一枝 512 29 風(fēng)雨 505 30 流水 472
31 依舊 472 32 風(fēng)吹 471 33 風(fēng)月 461 34 多情 457 35 故人 451
36 當(dāng)時(shí) 450 37 無(wú)人 445 38 斜陽(yáng) 438 39 不知 430 40 不見(jiàn) 429
41 深處 422 42 時(shí)節(jié) 403 43 平生 398 44 凄涼 398 45 春色 394
46 匆匆 383 47 功名 383 48 一點(diǎn) 378 49 無(wú)限 377 50 今日 369
51 天上 368 52 楊柳 362 53 西湖 356 54 桃花 354 55 扁舟 353
56 消息 351 57 憔悴 344 58 何事 339 59 芙蓉 338 60 神仙 334
61 一片 334 62 桃李 333 63 人生 332 64 十分 331 65 心事 329
66 黃花 328 67 一聲 325 68 佳人 324 69 長(zhǎng)安 321 70 東君 319
71 斷腸 316 72 而今 315 73 鴛鴦 314 74 為誰(shuí) 313 75 十年
76 去年 309 77 少年 308 78 海棠 307 79 寂寞 306 80 無(wú)情 306
81 不是 305 82 時(shí)候 304 83 腸斷 303 84 富貴 303 85 蓬萊 303
86 昨夜 303 87 行人 302 88 今夜 301 89 誰(shuí)知 300 90 不似 299
91 江上 298 92 悠悠 296 93 幾度 295 94 青山 295 95 何時(shí) 294
96 天氣 293 97 惟有 293 98 一曲 291 99 月明 291 100 往事 290
于是一些網(wǎng)友便以各種各樣的數(shù)字帶入這個(gè)“密碼”來(lái)填詞。比如網(wǎng)友“達(dá)芬奇的雞蛋”將圓周率的數(shù)字,與“宋詞”的高頻詞表序號(hào)一一對(duì)照,“創(chuàng)作”出一首《清平樂(lè)·圓周率》:“回首明月,悠悠心事空,西湖何事寂寞中,風(fēng)吹斜陽(yáng)匆匆,芳草平生斜陽(yáng),風(fēng)吹寂寞今日,一枝富貴年年,斷腸長(zhǎng)安不知。我們發(fā)現(xiàn),這些網(wǎng)友的所謂“詞”只是靈活地利用了這些常用駢字,再加上一些自己選擇的單字而成的。盡管不夠地道,但是究竟有那么一些味道。
三
關(guān)于句子,如何定義同樣是眾說(shuō)紛紜。印歐語(yǔ)言所謂簡(jiǎn)單句是一個(gè)主語(yǔ)與一個(gè)謂語(yǔ)組成的,謂語(yǔ)必須要有一個(gè)動(dòng)詞作核心,即S=NP+VP,一個(gè)句子只能有一個(gè)謂語(yǔ)動(dòng)詞,而且必須跟主語(yǔ)保持一致。但漢語(yǔ)并非如此。連動(dòng)句的動(dòng)詞沒(méi)有任何形態(tài)上的差異,而且一個(gè)句子中的多個(gè)動(dòng)詞其施事很可能并不一樣。如《左傳》“諫而不入”這個(gè)句子諫與入(=納)的施事就不相同。更不用說(shuō)“雞聲茅店月,人跡板橋霜”這樣純粹由名詞組成的句子了。漢語(yǔ)句子的任何成分都可以省略。因此相關(guān)的爭(zhēng)論時(shí)時(shí)可見(jiàn)。中國(guó)第一部語(yǔ)法著作《馬氏文通》的作者在《例言》中說(shuō),“是書(shū)本旨,專論句讀”。但正如呂叔湘、王海棻在《馬氏文通讀本》中所說(shuō)的那樣,“句讀可以說(shuō)是全書(shū)中最不容易弄懂的部分”。我們同樣不想對(duì)此置喙,我們知道,國(guó)學(xué)網(wǎng)為了制作輔助標(biāo)點(diǎn)系統(tǒng)已經(jīng)建立了一個(gè)非常龐大的句庫(kù),在進(jìn)行時(shí)代、文體辨析與分類后我們可以對(duì)獨(dú)詞句、兩字句、三字句……等進(jìn)行研究,并確定相應(yīng)的句型、句類,并說(shuō)明其功能。我們相信這將有巨大的意義,因?yàn)樵S多漢語(yǔ)語(yǔ)法學(xué)者,如王力先生,正是在對(duì)句型的分析中發(fā)展出自己的體系,做出其巨大的貢獻(xiàn)。
作者單位:黑龍江大學(xué)古籍所