午夜精品免费视频,亚洲区欧美区,久久成人精品视频,成人免费网站观看

關于古籍電子化的一些思考

  古籍電子化正在改變中國文史哲古代研究的局面,這一點已經越來越清楚了。這里僅就自己在使用有關成果時的一些想法草成此文,由于長期從事漢語史的研究,所以不免于偏向語言學,這可能是一些片面之詞,不揣冒昧寫出來以就正于廣大古籍電子化的專家學者。

  漢字隨著時代的發展有越來越多的趨勢,筆者在《漢語新論》中曾經指出:“據說,最早的字書是《史籀篇》,可惜已經亡佚了。小篆李斯有《倉頡篇》、趙高有《爰歷篇》、胡毋敬有《博學篇》,是當時的字形規范及識字課本,可惜都已亡佚了,據《漢書·藝文志》記載,漢人所增訂的《倉頡篇》“斷六十字為一章,凡五十五章”,共有小篆3300字。許慎統計自《倉頡》到《訓纂》等14種字書,共收字5340字。現存的有關小篆的字書是《說文解字》,有9353個字(不計重文,如計重文1163,則有10516個字)。反映漢代一般用字的有西漢元帝時的《急就篇》,流傳至今的不同本子字數各異,如34章本就有2144個字,不過其末尾的128字為后人所加。也就是說,當時的最常用字不過兩千字左右,常用字則為三千字左右。”“中國學者按數理語言學的齊普夫定律計算過漢字容量應該是12366個。但是實際上漢字的總數自秦以后是不斷增加的。三國魏張揖的《廣雅》收字18154個,晉呂忱的《字林》收12824個,梁顧野王的《玉篇》收16817個,隋陸法言的《切韻》收12158個,宋陳彭年的《廣韻》收26194個,而丁度的《集韻》收字53525個,為以前工具書之最(《康熙字典》收字47073個,《中華大字典》收字48000多個,都不及《集韻》,但是《集韻》往往一個字收了許多的異體字,有的七八個,有的甚至超過十個)。《漢語大字典》收字54678個,還有一本《中華字海》,據說收字超過8.5萬。當然這里絕大多數是極其罕用的字(有的其實只是個別人、特殊的社會集團所寫的‘錯字’或‘異體字’,有的則是早已‘死亡’的字)。實際運用的只是其中的一小部份,比如傳統的十三經,只使用了6544個漢字,《紅樓夢》則僅使用了4462個漢字。據新華社技術研究所的統計,1986年全年90627篇稿件中,使用了6001個漢字。看來,在任何一個共時階段,一般用字都不會超過7000的(這也是國家語委等單位所頒布的《現代漢語通用字表》的字數)。當然,從歷史的積淀來研究,我們就必須考慮到古今字、異體字、繁簡字、正俗字等等問題并由此出發進行論證。”計算機漢字庫的不斷變更也說明了中文信息處理的進步。而有關字頻研究的成果也證明了本文前述說法。

  現代漢語字頻詞頻的研究成果很多,而古代漢語則相對較少。《國學寶典》據約十億字的語料推出了前5000字的漢字使用次數資料,書同文公司則據《四庫全書》和《四部叢刊》約八億字的語料出版了《古籍漢字字頻統計》一書,書中對30136個漢字的使用次數、使用頻率等進行了統計。筆者在自己的科研項目中也對十三經的6536個漢字使用情況做過統計,現將其中的前50詞使用情況列在下面(《國學寶典》僅以前5000字的出現次數為總數)。

國學寶典前50字字頻

漢 字 字 數 占總字數的百分比
4919015 1.7833
325%1693 1.284
2551477 .925
2378126 .8622
2305774 .8359
2280907 .8269
2193204 .7952
1881838 .6822
1824822 .66616
1745517 .6328
1629565 .5908
1504830 .25%56
1443096 .5235
1442580 .523
1437511 .5212
1380053 .5003
1356877 .4919
1196329 .4337
1193504 .4327
1147590 .416
1142691 .4143
1078124 .3909
1072444 .3888
1033983 .3749
1033057 .3745
993623 .3602
966202 .3503
942913 .3418
94150%6 .3414
931698 .3378
921094 .3339
905197 .3282
901350% .3268
898950 .3259
883723 .3204
882562 .32
875973 .3150%
25%5960 .3103
25%2833 .3092
817310 .2963
811009 .294
79825%1 .2895
793101 .2875
789282 .2861
787022 .225%3
783283 .284
50%0271 .2756
739983 .2683
739051 .2679
737863 .2675
? 275832419 23.95156

書同文前50字字頻

漢字 出現次數 萬分之 累計覆 蓋率 序號
19891628 252.2099 2.5221 1
09733996 123.4193 3.7562 2
09486560 120.2059 4.9583 3
07881524 99.9314 5.9576 4
07697614 97.5996 6.9336 5
06896797 87.4458 7.8087 6
06750929 85.5964 8.6640 7
06625021 83.8731 9.5028 8
06209740 78.7345 10.2901 9
05587903 70.8501 10.9986 10
05279990 66.9460 11.6681 11
05235232 66.3785 12.3319 12
04979575 58,0653 12.9125 13
04305732 54.5932 13.4585 14
04185422 53.0678 13.9891 15
03590583 45.5257 14.4444 16
03516804 44.5902 14.8903 17
03437197 43.5809 15.3261 18
03338241 42.3262 15.7494 19
03184692 40.3793 16.1532 20
03175745 40.2659 16.5558 21
03166824 40.1528 16.9573 22
03163339 40.1686 17.3584 23
03054578 38.7156 17.7456 24
02960595 37.5379 18.1210 25
02919091 37.0117 18.4911 26
02887089 36.6059 18.8571 27
02834051 35.9335 19.2169 28
02754461 34.9243 19.5657 29
02619030 33.2072 19.8978 30
02602664 32.9997 20.2278 31
02576421 32.6669 20.5545 32
02519440 31.9444 20.8739 33
02480552 31.4514 21.1884 34
02428095 30.7863 21.4963 35
02422115 30.7104 21.8034 36
02368329 30.0285 22.1037 37
02344512 29.7265 22.4009 38
02342263 29.6980 22.6979 39
02338972 29.6563 22.9945 40
02325150 29.4810 23.2893 41
02299699 29.1583 23.5809 42
02293069 29.0742 23.8716 43
02268200 28.7589 24.1592 44
02232019 28.3002 24.4422 45
02204117 27.9464 24.7217 46
02194105 27.8195 24.9999 47
02190762 27.7771 25.2776 48
02172369 27.5439 25.5531 49
02106107 26.7037 25.8201 50

十三經前50詞語頻率表

1 22979 3.619817552
2 14356 2.261460498
3 12036 1.895997391
4 11986 1.888121031
5 10740 1.691842139
6 9856 1.552588093
7 9764 1.538095591
8 9641 1.518719745
9 8621 1.691842139
10 6601 1.039837054
11 6392 1.006913869
12 6036 0.950834185
13 5830 0.918383582
14 5424 0.854427538
15 4988 0.785745679
16 4480 0.705721861
17 4411 0.694852484
18 3916 0.616876519
19 3728 0.587261405
20 3617 0.569775886
21 3408 0.536852701
22 3350 0.527716123
23 3289 0.518106964
24 3117 0.491012286
25 3035 0.478095055
26 2808 0.44233638
27 2625 0.413508903
28 2520 0.396968547
29 2506 0.394763166
30 2467 0.388619605
31 2462 0.387831969
32 2454 0.386571751
33 2441 0.384523898
34 2378 0.374599684
35 使 2227 0.350813077
36 2220 0.349710386
37 2151 0.338841009
38 2142 0.337423265
39 2125 0.334745302
40 2119 0.333800139
41 2110 0.332382394
42 2107 0.331909813
43 2024 0.318835055
44 2020 0.318204946
45 2014 0.317259783
46 1996 0.314424293
47 1991 0.313636657
48 1963 0.309225896
49 1916 0.301822117
50 1854 0.292055431

  《國學寶典》前50字的覆蓋率是23.95156%,書同文公司的是25.8201%,而十三經的則是37.70571083%。估計是因為十三經都是上古語料,且使用字數較少,而《國學寶典》與書同文公司的語料則時代跨度相對較大,用字更多。所以覆蓋率相對較小。

  前50字對比如下:

  《寶典》有而《十三經》沒有的漢字是(漢字后面的數字是該字在《十三經》中的序數):中68、所58、此109、年66、得116、道106、書150、日78、生157、自62、來87、時152、文140、至81、在61、行60、見113、云408(另有雲1390,合計其序數當在352或353)、知108、四56。

  《寶典》有而《十三經》與書同文都沒有的漢字是:道106、生157、來87、見113、云408(353)、知108。

  書同文有而《十三經》沒有的是:所58、中68、丨、年66、此109、書150、自62、在61、至81、五70、日78、山244、四56、文140、又178、得116、時152、行60。

  書同文有而《十三經》與《寶典》都沒有的漢字是:丨、五70、山244、又178。

  我們看到,其實三處差別不算太大,其他則基本只差幾位或幾十位,只有幾個字相差才有一百多位(相差最大的是云字,相差了287位)。這說明幾千年所使用的文言文其常用字還是比較穩定的,與先秦變化不大(另外書同文公司所統計的字符“丨”其他兩處均未見不知何故。)。

  從發展來講,我們希望能按照語料的不同時代以及其性質進行統計,比如按照上古、中古、近古,或者更詳細一點來劃分,如先秦、兩漢、魏晉南北朝、隋唐、宋、元明清。而且要分清是文言文還是古白話或者近代漢語(如一些翻譯的佛經、 和尚以及道學家的語錄、一些筆記小說以及話本、戲曲等等)。當然,即使是文言文也有不同的文體,而且還有駢文、賦、詩詞。詩也要分古體、近體等等。只有這樣我們的字頻統計才會更有意義。

  如果我們要做一個古今對比,也很有意思。下面是現代漢語使用頻率前50字的表:

ID 頻度%
1 3.235992
2 1.386861
3 1.055654
4 1.052022
5 1.00115
6 0.9439352
7 0.865377
8 0.772002
9 0.7666595
10 0.7550798
11 0.7341573
12 0.6876276
13 0.6010425
14 0.5645136
15 0.5436964
16 0.5385381
17 0.4849027
18 0.4707702
19 0.4635855
20 0.453611
21 0.4523478
22 0.4295567
23 0.4058709
24 0.4055287
25 0.3971071
26 0.3925278
27 0.3864221
28 0.3853957
29 0.3852641
30 0.3833956
31 0.3710789
32 0.3550251
33 0.3527355
34 0.3506827
35 0.3476299
36 0.3384976
37 0.3297075
38 0.3248914
39 0.3196016
40 0.3164961
41 0.3096009
42 0.2837833
43 0.283678
44 0.2811252
45 0.276967
46 0.2749405
47 0.2743352
48 0.2721508
49 0.2708613
50 0.2704929
? ? 27.6048753%

  如果我們以更多的漢字來進行比較,就可以發現同西方傳統的語言年代學不同的結論。

  關于漢語有沒有“詞”以及如何劃分語素、詞、短語,這是一個爭論問題。,我們不想在此進行闡釋。我們主張以單字、駢字、三字串、四字格來進行劃分統計。所謂駢字,就是經常出現在一起的兩個字,清代的《駢字類編》就是很有名的工具書。只要是經常連用就沒有必要去區分詞還是短語。同樣三字串就是經常在一起連用的三個漢字的字符串,四字格則是成語、俗語、慣用語最常見的格式。這需要我們建立相應的字符串庫以便統計。

  對于駢字,2011年初,網友yixuan統計了《全宋詞》中的高頻詞語,并在自己的博客上列出了一個特別的排行榜:

  1  空 1485    2  東風 1382   3  何處 1230   4  人間 1202   5  風流 857
  6  歸去 812   7  春風 802   8  西風 779   9  歸來 771   10  江南 765
  11 相思 753   12 梅花 732   13 千里 676   14 回首 656   15  明月 651  
  16 多少 648   17 如今 642   18 闌干 630   19 年年 613   20  萬里 590  
  21 一笑 582   22 黃昏 550   23 當年 542   24 天涯 537   25  相逢 528 310 
  26 芳草 527   27 尊前 516   28 一枝 512   29 風雨 505   30  流水 472 
  31 依舊 472   32 風吹 471   33 風月 461   34 多情 457   35  故人 451 
  36 當時 450   37 無人 445   38 斜陽 438   39 不知 430   40  不見 429 
  41 深處 422   42 時節 403   43 平生 398   44 凄涼 398   45  春色 394 
  46 匆匆 383   47 功名 383   48 一點 378   49 無限 377   50  今日 369 
  51 天上 368   52 楊柳 362   53 西湖 356   54 桃花 354   55  扁舟 353 
  56 消息 351   57 憔悴 344   58 何事 339   59 芙蓉 338   60  神仙 334  
  61 一片 334   62 桃李 333   63 人生 332   64 十分 331   65  心事 329    
  66 黃花 328   67 一聲 325   68 佳人 324   69 長安 321   70  東君 319    
  71 斷腸 316   72 而今 315   73 鴛鴦 314   74 為誰 313   75  十年    
  76 去年 309   77 少年 308   78 海棠 307   79 寂寞 306   80  無情 306    
  81 不是 305   82 時候 304   83 腸斷 303   84 富貴 303   85  蓬萊 303   
  86 昨夜 303   87 行人 302   88 今夜 301   89 誰知 300   90  不似 299    
  91 江上 298   92 悠悠 296   93 幾度 295   94 青山 295   95  何時 294    
  96 天氣 293   97 惟有 293   98 一曲 291   99 月明 291   100 往事 290

  于是一些網友便以各種各樣的數字帶入這個“密碼”來填詞。比如網友“達芬奇的雞蛋”將圓周率的數字,與“宋詞”的高頻詞表序號一一對照,“創作”出一首《清平樂·圓周率》:“回首明月,悠悠心事空,西湖何事寂寞中,風吹斜陽匆匆,芳草平生斜陽,風吹寂寞今日,一枝富貴年年,斷腸長安不知。我們發現,這些網友的所謂“詞”只是靈活地利用了這些常用駢字,再加上一些自己選擇的單字而成的。盡管不夠地道,但是究竟有那么一些味道。

  關于句子,如何定義同樣是眾說紛紜。印歐語言所謂簡單句是一個主語與一個謂語組成的,謂語必須要有一個動詞作核心,即S=NP+VP,一個句子只能有一個謂語動詞,而且必須跟主語保持一致。但漢語并非如此。連動句的動詞沒有任何形態上的差異,而且一個句子中的多個動詞其施事很可能并不一樣。如《左傳》“諫而不入”這個句子諫與入(=納)的施事就不相同。更不用說“雞聲茅店月,人跡板橋霜”這樣純粹由名詞組成的句子了。漢語句子的任何成分都可以省略。因此相關的爭論時時可見。中國第一部語法著作《馬氏文通》的作者在《例言》中說,“是書本旨,專論句讀”。但正如呂叔湘、王海棻在《馬氏文通讀本》中所說的那樣,“句讀可以說是全書中最不容易弄懂的部分”。我們同樣不想對此置喙,我們知道,國學網為了制作輔助標點系統已經建立了一個非常龐大的句庫,在進行時代、文體辨析與分類后我們可以對獨詞句、兩字句、三字句……等進行研究,并確定相應的句型、句類,并說明其功能。我們相信這將有巨大的意義,因為許多漢語語法學者,如王力先生,正是在對句型的分析中發展出自己的體系,做出其巨大的貢獻。

作者單位:黑龍江大學古籍所

  

Comments are closed.

主站蜘蛛池模板: 黑龙江省| 慈利县| 旌德县| 蓬溪县| 诸城市| 亚东县| 高碑店市| 和硕县| 措勤县| 郁南县| 诸城市| 定安县| 珲春市| 乌什县| 登封市| 炉霍县| 阳城县| 美姑县| 雅江县| 灵武市| 任丘市| 秭归县| 峨山| 达孜县| 乌苏市| 隆昌县| 泗水县| 长武县| 宜州市| 绥中县| 彰化市| 清流县| 楚雄市| 天门市| 阿坝| 山东省| 昌黎县| 新平| 高阳县| 喀什市| 高碑店市|