關于古籍電子化的一些思考
古籍電子化正在改變中國文史哲古代研究的局面,這一點已經越來越清楚了。這里僅就自己在使用有關成果時的一些想法草成此文,由于長期從事漢語史的研究,所以不免于偏向語言學,這可能是一些片面之詞,不揣冒昧寫出來以就正于廣大古籍電子化的專家學者。
一
漢字隨著時代的發展有越來越多的趨勢,筆者在《漢語新論》中曾經指出:“據說,最早的字書是《史籀篇》,可惜已經亡佚了。小篆李斯有《倉頡篇》、趙高有《爰歷篇》、胡毋敬有《博學篇》,是當時的字形規范及識字課本,可惜都已亡佚了,據《漢書·藝文志》記載,漢人所增訂的《倉頡篇》“斷六十字為一章,凡五十五章”,共有小篆3300字。許慎統計自《倉頡》到《訓纂》等14種字書,共收字5340字。現存的有關小篆的字書是《說文解字》,有9353個字(不計重文,如計重文1163,則有10516個字)。反映漢代一般用字的有西漢元帝時的《急就篇》,流傳至今的不同本子字數各異,如34章本就有2144個字,不過其末尾的128字為后人所加。也就是說,當時的最常用字不過兩千字左右,常用字則為三千字左右。”“中國學者按數理語言學的齊普夫定律計算過漢字容量應該是12366個。但是實際上漢字的總數自秦以后是不斷增加的。三國魏張揖的《廣雅》收字18154個,晉呂忱的《字林》收12824個,梁顧野王的《玉篇》收16817個,隋陸法言的《切韻》收12158個,宋陳彭年的《廣韻》收26194個,而丁度的《集韻》收字53525個,為以前工具書之最(《康熙字典》收字47073個,《中華大字典》收字48000多個,都不及《集韻》,但是《集韻》往往一個字收了許多的異體字,有的七八個,有的甚至超過十個)。《漢語大字典》收字54678個,還有一本《中華字海》,據說收字超過8.5萬。當然這里絕大多數是極其罕用的字(有的其實只是個別人、特殊的社會集團所寫的‘錯字’或‘異體字’,有的則是早已‘死亡’的字)。實際運用的只是其中的一小部份,比如傳統的十三經,只使用了6544個漢字,《紅樓夢》則僅使用了4462個漢字。據新華社技術研究所的統計,1986年全年90627篇稿件中,使用了6001個漢字。看來,在任何一個共時階段,一般用字都不會超過7000的(這也是國家語委等單位所頒布的《現代漢語通用字表》的字數)。當然,從歷史的積淀來研究,我們就必須考慮到古今字、異體字、繁簡字、正俗字等等問題并由此出發進行論證。”計算機漢字庫的不斷變更也說明了中文信息處理的進步。而有關字頻研究的成果也證明了本文前述說法。
現代漢語字頻詞頻的研究成果很多,而古代漢語則相對較少。《國學寶典》據約十億字的語料推出了前5000字的漢字使用次數資料,書同文公司則據《四庫全書》和《四部叢刊》約八億字的語料出版了《古籍漢字字頻統計》一書,書中對30136個漢字的使用次數、使用頻率等進行了統計。筆者在自己的科研項目中也對十三經的6536個漢字使用情況做過統計,現將其中的前50詞使用情況列在下面(《國學寶典》僅以前5000字的出現次數為總數)。
國學寶典前50字字頻
漢 字 | 字 數 | 占總字數的百分比 |
之 | 4919015 | 1.7833 |
不 | 325%1693 | 1.284 |
以 | 2551477 | .925 |
人 | 2378126 | .8622 |
一 | 2305774 | .8359 |
為 | 2280907 | .8269 |
有 | 2193204 | .7952 |
其 | 1881838 | .6822 |
而 | 1824822 | .66616 |
也 | 1745517 | .6328 |
者 | 1629565 | .5908 |
無 | 1504830 | .25%56 |
子 | 1443096 | .5235 |
是 | 1442580 | .523 |
曰 | 1437511 | .5212 |
大 | 1380053 | .5003 |
十 | 1356877 | .4919 |
中 | 1196329 | .4337 |
所 | 1193504 | .4327 |
三 | 1147590 | .416 |
二 | 1142691 | .4143 |
上 | 1078124 | .3909 |
如 | 1072444 | .3888 |
于 | 1033983 | .3749 |
此 | 1033057 | .3745 |
年 | 993623 | .3602 |
得 | 966202 | .3503 |
道 | 942913 | .3418 |
下 | 94150%6 | .3414 |
天 | 931698 | .3378 |
事 | 921094 | .3339 |
書 | 905197 | .3282 |
日 | 901350% | .3268 |
王 | 898950 | .3259 |
生 | 883723 | .3204 |
自 | 882562 | .32 |
來 | 875973 | .3150% |
時 | 25%5960 | .3103 |
文 | 25%2833 | .3092 |
至 | 817310 | .2963 |
在 | 811009 | .294 |
可 | 79825%1 | .2895 |
言 | 793101 | .2875 |
行 | 789282 | .2861 |
見 | 787022 | .225%3 |
云 | 783283 | .284 |
故 | 50%0271 | .2756 |
與 | 739983 | .2683 |
知 | 739051 | .2679 |
四 | 737863 | .2675 |
? | 275832419 | 23.95156 |
書同文前50字字頻
漢字 | 出現次數 | 萬分之 | 累計覆 蓋率 | 序號 |
之 | 19891628 | 252.2099 | 2.5221 | 1 |
不 | 09733996 | 123.4193 | 3.7562 | 2 |
以 | 09486560 | 120.2059 | 4.9583 | 3 |
也 | 07881524 | 99.9314 | 5.9576 | 4 |
而 | 07697614 | 97.5996 | 6.9336 | 5 |
其 | 06896797 | 87.4458 | 7.8087 | 6 |
人 | 06750929 | 85.5964 | 8.6640 | 7 |
為 | 06625021 | 83.8731 | 9.5028 | 8 |
有 | 06209740 | 78.7345 | 10.2901 | 9 |
者 | 05587903 | 70.8501 | 10.9986 | 10 |
一 | 05279990 | 66.9460 | 11.6681 | 11 |
曰 | 05235232 | 66.3785 | 12.3319 | 12 |
子 | 04979575 | 58,0653 | 12.9125 | 13 |
於 | 04305732 | 54.5932 | 13.4585 | 14 |
十 | 04185422 | 53.0678 | 13.9891 | 15 |
大 | 03590583 | 45.5257 | 14.4444 | 16 |
所 | 03516804 | 44.5902 | 14.8903 | 17 |
二 | 03437197 | 43.5809 | 15.3261 | 18 |
三 | 03338241 | 42.3262 | 15.7494 | 19 |
中 | 03184692 | 40.3793 | 16.1532 | 20 |
無 | 03175745 | 40.2659 | 16.5558 | 21 |
丨 | 03166824 | 40.1528 | 16.9573 | 22 |
年 | 03163339 | 40.1686 | 17.3584 | 23 |
則 | 03054578 | 38.7156 | 17.7456 | 24 |
下 | 02960595 | 37.5379 | 18.1210 | 25 |
天 | 02919091 | 37.0117 | 18.4911 | 26 |
上 | 02887089 | 36.6059 | 18.8571 | 27 |
此 | 02834051 | 35.9335 | 19.2169 | 28 |
王 | 02754461 | 34.9243 | 19.5657 | 29 |
書 | 02619030 | 33.2072 | 19.8978 | 30 |
是 | 02602664 | 32.9997 | 20.2278 | 31 |
公 | 02576421 | 32.6669 | 20.5545 | 32 |
事 | 02519440 | 31.9444 | 20.8739 | 33 |
自 | 02480552 | 31.4514 | 21.1884 | 34 |
在 | 02428095 | 30.7863 | 21.4963 | 35 |
可 | 02422115 | 30.7104 | 21.8034 | 36 |
言 | 02368329 | 30.0285 | 22.1037 | 37 |
至 | 02344512 | 29.7265 | 22.4009 | 38 |
五 | 02342263 | 29.6980 | 22.6979 | 39 |
如 | 02338972 | 29.6563 | 22.9945 | 40 |
日 | 02325150 | 29.4810 | 23.2893 | 41 |
山 | 02299699 | 29.1583 | 23.5809 | 42 |
四 | 02293069 | 29.0742 | 23.8716 | 43 |
故 | 02268200 | 28.7589 | 24.1592 | 44 |
文 | 02232019 | 28.3002 | 24.4422 | 45 |
與 | 02204117 | 27.9464 | 24.7217 | 46 |
又 | 02194105 | 27.8195 | 24.9999 | 47 |
得 | 02190762 | 27.7771 | 25.2776 | 48 |
時 | 02172369 | 27.5439 | 25.5531 | 49 |
行 | 02106107 | 26.7037 | 25.8201 | 50 |
十三經前50詞語頻率表
1 | 之 | 22979 | 3.619817552 |
2 | 也 | 14356 | 2.261460498 |
3 | 不 | 12036 | 1.895997391 |
4 | 子 | 11986 | 1.888121031 |
5 | 以 | 10740 | 1.691842139 |
6 | 人 | 9856 | 1.552588093 |
7 | 其 | 9764 | 1.538095591 |
8 | 曰 | 9641 | 1.518719745 |
9 | 而 | 8621 | 1.691842139 |
10 | 有 | 6601 | 1.039837054 |
11 | 公 | 6392 | 1.006913869 |
12 | 于 | 6036 | 0.950834185 |
13 | 者 | 5830 | 0.918383582 |
14 | 為 | 5424 | 0.854427538 |
15 | 大 | 4988 | 0.785745679 |
16 | 君 | 4480 | 0.705721861 |
17 | 於 | 4411 | 0.694852484 |
18 | 則 | 3916 | 0.616876519 |
19 | 王 | 3728 | 0.587261405 |
20 | 侯 | 3617 | 0.569775886 |
21 | 月 | 3408 | 0.536852701 |
22 | 夫 | 3350 | 0.527716123 |
23 | 無 | 3289 | 0.518106964 |
24 | 何 | 3117 | 0.491012286 |
25 | 如 | 3035 | 0.478095055 |
26 | 齊 | 2808 | 0.44233638 |
27 | 晉 | 2625 | 0.413508903 |
28 | 三 | 2520 | 0.396968547 |
29 | 天 | 2506 | 0.394763166 |
30 | 國 | 2467 | 0.388619605 |
31 | 二 | 2462 | 0.387831969 |
32 | 師 | 2454 | 0.386571751 |
33 | 與 | 2441 | 0.384523898 |
34 | 十 | 2378 | 0.374599684 |
35 | 使 | 2227 | 0.350813077 |
36 | 矣 | 2220 | 0.349710386 |
37 | 是 | 2151 | 0.338841009 |
38 | 言 | 2142 | 0.337423265 |
39 | 可 | 2125 | 0.334745302 |
40 | 我 | 2119 | 0.333800139 |
41 | 諸 | 2110 | 0.332382394 |
42 | 禮 | 2107 | 0.331909813 |
43 | 命 | 2024 | 0.318835055 |
44 | 事 | 2020 | 0.318204946 |
45 | 乎 | 2014 | 0.317259783 |
46 | 下 | 1996 | 0.314424293 |
47 | 故 | 1991 | 0.313636657 |
48 | 上 | 1963 | 0.309225896 |
49 | 焉 | 1916 | 0.301822117 |
50 | 一 | 1854 | 0.292055431 |
《國學寶典》前50字的覆蓋率是23.95156%,書同文公司的是25.8201%,而十三經的則是37.70571083%。估計是因為十三經都是上古語料,且使用字數較少,而《國學寶典》與書同文公司的語料則時代跨度相對較大,用字更多。所以覆蓋率相對較小。
前50字對比如下:
《寶典》有而《十三經》沒有的漢字是(漢字后面的數字是該字在《十三經》中的序數):中68、所58、此109、年66、得116、道106、書150、日78、生157、自62、來87、時152、文140、至81、在61、行60、見113、云408(另有雲1390,合計其序數當在352或353)、知108、四56。
《寶典》有而《十三經》與書同文都沒有的漢字是:道106、生157、來87、見113、云408(353)、知108。
書同文有而《十三經》沒有的是:所58、中68、丨、年66、此109、書150、自62、在61、至81、五70、日78、山244、四56、文140、又178、得116、時152、行60。
書同文有而《十三經》與《寶典》都沒有的漢字是:丨、五70、山244、又178。
我們看到,其實三處差別不算太大,其他則基本只差幾位或幾十位,只有幾個字相差才有一百多位(相差最大的是云字,相差了287位)。這說明幾千年所使用的文言文其常用字還是比較穩定的,與先秦變化不大(另外書同文公司所統計的字符“丨”其他兩處均未見不知何故。)。
從發展來講,我們希望能按照語料的不同時代以及其性質進行統計,比如按照上古、中古、近古,或者更詳細一點來劃分,如先秦、兩漢、魏晉南北朝、隋唐、宋、元明清。而且要分清是文言文還是古白話或者近代漢語(如一些翻譯的佛經、 和尚以及道學家的語錄、一些筆記小說以及話本、戲曲等等)。當然,即使是文言文也有不同的文體,而且還有駢文、賦、詩詞。詩也要分古體、近體等等。只有這樣我們的字頻統計才會更有意義。
如果我們要做一個古今對比,也很有意思。下面是現代漢語使用頻率前50字的表:
ID | 字 | 頻度% |
1 | 的 | 3.235992 |
2 | 國 | 1.386861 |
3 | 人 | 1.055654 |
4 | 一 | 1.052022 |
5 | 中 | 1.00115 |
6 | 學 | 0.9439352 |
7 | 在 | 0.865377 |
8 | 大 | 0.772002 |
9 | 有 | 0.7666595 |
10 | 年 | 0.7550798 |
11 | 了 | 0.7341573 |
12 | 是 | 0.6876276 |
13 | 和 | 0.6010425 |
14 | 不 | 0.5645136 |
15 | 為 | 0.5436964 |
16 | 上 | 0.5385381 |
17 | 會 | 0.4849027 |
18 | 家 | 0.4707702 |
19 | 生 | 0.4635855 |
20 | 業 | 0.453611 |
21 | 地 | 0.4523478 |
22 | 出 | 0.4295567 |
23 | 個 | 0.4058709 |
24 | 工 | 0.4055287 |
25 | 這 | 0.3971071 |
26 | 以 | 0.3925278 |
27 | 成 | 0.3864221 |
28 | 發 | 0.3853957 |
29 | 作 | 0.3852641 |
30 | 我 | 0.3833956 |
31 | 日 | 0.3710789 |
32 | 來 | 0.3550251 |
33 | 科 | 0.3527355 |
34 | 行 | 0.3506827 |
35 | 到 | 0.3476299 |
36 | 市 | 0.3384976 |
37 | 多 | 0.3297075 |
38 | 要 | 0.3248914 |
39 | 時 | 0.3196016 |
40 | 經 | 0.3164961 |
41 | 高 | 0.3096009 |
42 | 外 | 0.2837833 |
43 | 員 | 0.283678 |
44 | 公 | 0.2811252 |
45 | 對 | 0.276967 |
46 | 海 | 0.2749405 |
47 | 部 | 0.2743352 |
48 | 們 | 0.2721508 |
49 | 分 | 0.2708613 |
50 | 進 | 0.2704929 |
? | ? | 27.6048753% |
如果我們以更多的漢字來進行比較,就可以發現同西方傳統的語言年代學不同的結論。
二
關于漢語有沒有“詞”以及如何劃分語素、詞、短語,這是一個爭論問題。,我們不想在此進行闡釋。我們主張以單字、駢字、三字串、四字格來進行劃分統計。所謂駢字,就是經常出現在一起的兩個字,清代的《駢字類編》就是很有名的工具書。只要是經常連用就沒有必要去區分詞還是短語。同樣三字串就是經常在一起連用的三個漢字的字符串,四字格則是成語、俗語、慣用語最常見的格式。這需要我們建立相應的字符串庫以便統計。
對于駢字,2011年初,網友yixuan統計了《全宋詞》中的高頻詞語,并在自己的博客上列出了一個特別的排行榜:
1 空 1485 2 東風 1382 3 何處 1230 4 人間 1202 5 風流 857
6 歸去 812 7 春風 802 8 西風 779 9 歸來 771 10 江南 765
11 相思 753 12 梅花 732 13 千里 676 14 回首 656 15 明月 651
16 多少 648 17 如今 642 18 闌干 630 19 年年 613 20 萬里 590
21 一笑 582 22 黃昏 550 23 當年 542 24 天涯 537 25 相逢 528 310
26 芳草 527 27 尊前 516 28 一枝 512 29 風雨 505 30 流水 472
31 依舊 472 32 風吹 471 33 風月 461 34 多情 457 35 故人 451
36 當時 450 37 無人 445 38 斜陽 438 39 不知 430 40 不見 429
41 深處 422 42 時節 403 43 平生 398 44 凄涼 398 45 春色 394
46 匆匆 383 47 功名 383 48 一點 378 49 無限 377 50 今日 369
51 天上 368 52 楊柳 362 53 西湖 356 54 桃花 354 55 扁舟 353
56 消息 351 57 憔悴 344 58 何事 339 59 芙蓉 338 60 神仙 334
61 一片 334 62 桃李 333 63 人生 332 64 十分 331 65 心事 329
66 黃花 328 67 一聲 325 68 佳人 324 69 長安 321 70 東君 319
71 斷腸 316 72 而今 315 73 鴛鴦 314 74 為誰 313 75 十年
76 去年 309 77 少年 308 78 海棠 307 79 寂寞 306 80 無情 306
81 不是 305 82 時候 304 83 腸斷 303 84 富貴 303 85 蓬萊 303
86 昨夜 303 87 行人 302 88 今夜 301 89 誰知 300 90 不似 299
91 江上 298 92 悠悠 296 93 幾度 295 94 青山 295 95 何時 294
96 天氣 293 97 惟有 293 98 一曲 291 99 月明 291 100 往事 290
于是一些網友便以各種各樣的數字帶入這個“密碼”來填詞。比如網友“達芬奇的雞蛋”將圓周率的數字,與“宋詞”的高頻詞表序號一一對照,“創作”出一首《清平樂·圓周率》:“回首明月,悠悠心事空,西湖何事寂寞中,風吹斜陽匆匆,芳草平生斜陽,風吹寂寞今日,一枝富貴年年,斷腸長安不知。我們發現,這些網友的所謂“詞”只是靈活地利用了這些常用駢字,再加上一些自己選擇的單字而成的。盡管不夠地道,但是究竟有那么一些味道。
三
關于句子,如何定義同樣是眾說紛紜。印歐語言所謂簡單句是一個主語與一個謂語組成的,謂語必須要有一個動詞作核心,即S=NP+VP,一個句子只能有一個謂語動詞,而且必須跟主語保持一致。但漢語并非如此。連動句的動詞沒有任何形態上的差異,而且一個句子中的多個動詞其施事很可能并不一樣。如《左傳》“諫而不入”這個句子諫與入(=納)的施事就不相同。更不用說“雞聲茅店月,人跡板橋霜”這樣純粹由名詞組成的句子了。漢語句子的任何成分都可以省略。因此相關的爭論時時可見。中國第一部語法著作《馬氏文通》的作者在《例言》中說,“是書本旨,專論句讀”。但正如呂叔湘、王海棻在《馬氏文通讀本》中所說的那樣,“句讀可以說是全書中最不容易弄懂的部分”。我們同樣不想對此置喙,我們知道,國學網為了制作輔助標點系統已經建立了一個非常龐大的句庫,在進行時代、文體辨析與分類后我們可以對獨詞句、兩字句、三字句……等進行研究,并確定相應的句型、句類,并說明其功能。我們相信這將有巨大的意義,因為許多漢語語法學者,如王力先生,正是在對句型的分析中發展出自己的體系,做出其巨大的貢獻。
作者單位:黑龍江大學古籍所