漢字正義(13)︰漢字的數量有定數嗎?

作者 : 子正
(Fotolia)
  人氣: 1116
【字號】    
   標籤: tags: ,

漢字產生以後,走過了四五千年不間斷的發展演變歷程。在這漫長的歷史過程中,歷朝歷代產生的新字不計其數。時至今日,漢字的數量究竟有多少?或說兩三萬、三四萬、四五萬,甚至有說七八萬,竟然沒人能大致說清楚。漢字的數量真沒有一個相對確定的數字嗎?

讓我們先看看歷代字書(及韻書)的收字情況:

商(公元前1600~前1046年):甲骨文已發現單字4378個(《甲骨文字編》,臺灣中央研究院歷史語言研究所李宗焜,2012年),其中已識2000餘字,公認1000餘字。

西周:《史籀篇》(周宣王期間,前827~前781),共十五篇,字數不詳。估計在1500~3000字之間。

秦(公元前221年):《倉頡篇》(李斯作)、《博學篇》(趙高作)、《爰歷篇》(胡毋敬作),共計3300餘字。

漢:《訓纂編》(楊雄,公元前53~公元18年),5340字(已佚);《說文解字》(公元100年,許慎著),9353字;加上重文(異體字),共10,516字。

晉:《字林》(公元514年,呂忱著):12,824字(已佚)。

南朝.梁:《玉篇》(公元534年,著顧野王):16,917字(後增補至22561字)。

宋:《廣韻》(1008年,陳彭年等編著),26,194字;《集韻》(1039年,丁度等編著),53,525字;《類篇》(1066年,司馬光等編著),31,319字。

明:《字彙》(1615年,梅膺祚等編著),33,179字;《正字通》(崇禎末年,張自烈著),33,549字。

清《康熙字典》(1716年,張玉書等編著),47,043字。

1915年,《中華大字典》(歐陽博存主編):48,000餘字。

1971年,《中文大辭典》(張其昀主編):49,888餘字。

1993年,《漢語大字典》(徐中舒主編):56,000餘字。

1994年,《中華字海》(冷玉龍主編):85,000餘字。

可是,漢字的數量真的有這麼多嗎?

其實,當我們明白了漢字造字的原理與方法,清楚漢字發展演變的來龍去脈,對於漢字的數量問題,就會有一個基本的判斷。

在《漢字的造字理念與原則》一文中談到,漢字的具體構字方法是「六書」(其中的「假借」與「轉注」,是後起的二法)。也就是說,真正的漢字,得符合「六書」才算數。一個人隨便寫一個「字」,其構造不符合「六書」的要求,使人無從解讀,那就不能算是一個真正的漢字。歷史上,這樣的「字」很多,有些是俗字,有些是錯別字。所以,「有效漢字」的數量,其實是可以有定數的。

這裏所說的「有效漢字」,主體是指符合六書的通用漢字(很多字後世發生了訛變,變得不符合六書),也包括後世歷代沿用下來的俗字。

下面我們再看看有關中國古籍的用字統計,看能不能找到確定漢字數量的線索。

由上表可以看出,中國歷代各類著作所用不重複字數很少有超過4000的,大多介於2000~4000之間,說明中國歷代社會常用字有一個恒量,即3000字左右。我國古代童蒙識字教材同時並用時的總字數,恰在3000~4000上下,說明當時圍繞漢字教育所進行的字頻研究和常用字研究,已經達到很高的水準。

有人曾統計過,十三經(《易》、《書》、《詩》、《周禮》、《儀禮》、《禮記》、《春秋左傳》、《春秋公羊傳》、《春秋穀梁傳》、《論語》、《孝經》、《爾雅》、《孟子》)中不相同的單字數為6544字。因此,實際上古人日常使用的漢字數不過六、七千上下而已。

以下,我們再分析大陸有關單位所作的漢字使用頻度統計資料。

現代語料字頻統計(清華大學):

統計字數:6,763(GB2313-80字元集)。

使用語料總字數:86,405,823字。

古籍字頻統計(北京書同文數字化技術有限公司所,2004年):

語料來源:

《四庫全書》用字:總字數:698,076,596字:不重複單字:29,081字。

《四部叢刊》用字:總字數: 90,616,538字;不重複單字:27,606字。

二者合併: 總字數:788,693,134字,不重複單字:30,135字。

由現代語料字頻統計結果可看出:

前1,000個常用字,對語料的覆蓋率達到91.9%以上;
前2,500個常用字,對語料的覆蓋率達到99.2%以上;
前3,500個常用字,對語料的覆蓋率達到99.8%以上;
前4,500個常用字,對語料的覆蓋率達到99.9%以上。

這與中國古時歷代社會常用字的數量基本一致。而對古籍字頻的統計,雖然統計字數擴大了將近五倍,達到3萬多字,但字頻與現代漢語相比,差別並不很大:

前1,000個常用字,覆蓋率達到80.9%以上;
前2,000個常用字,覆蓋率達到91.6%以上;
前4,000個常用字,覆蓋率達到97.5%以上;
前6,000字常用字,覆蓋率達到99.1%以上;
前8,000字常用字,覆蓋率達到99.6%以上;
前13,000字常用字,覆蓋率達到99.9%以上。

以後字數再增加,語料覆蓋率的增加就很少了。如果拋除古籍中大量的異體字、俗字,則古今語料漢字的使用頻度基本一致。

1988年,大陸發布的收錄3500字的《現代漢語常用字表》(常用字2500個、次常用字1000個),以及收錄7000的《現代漢語通用字表》(含《現代漢語常用字表》中的3500字),就是依據與上述漢字字頻統計相關的資料制定的。

2013年,大陸又發布了《通用規範漢字表》,將收字數量提高到8105(其中一級字仍為3500)。

香港城市大學研究中心的Benjamin K. Tsou教授關於漢字信息熵的研究表明:隨著漢字容量增大到一定數量,信息熵的增加趨緩;當漢字增加到12,370個以後,不再使信息熵有明顯的增加。據此,有關專家認為:漢字的容量極限為12,366個。

所謂信息熵,是指信息中排除了冗餘後的平均信息量。信息熵越高,意味著能傳輸的信息越多;信息熵越低,則能傳輸的信息越少。

由以上介紹可知,有效漢字的數量,也就在13,000個左右。

對於通常的出版印刷、信息處理、姓氏人名、地名、科技術語等方面的用字需要,8000通用漢字基本上都能滿足。對於專業人員而言,掌握4000~4500個漢字足矣;而對於普通人士,掌握2500~3500個漢字,則基本上就能滿足正常的工作與閱讀需要。

所以,2007年(民國民國九十六年)臺灣《國語小字典》第二版,收字4,305個。1997年(民國民國八十六年)臺灣教育部的《重編國語辭典修訂本》,收字11,930個;另有異體字1,848個,共計13,778字。2011年大陸第十一版《新華字典》,收字11,200餘個。

所以,那些所謂的漢字的數量有幾萬個,甚至是超過十萬個的說法,是不能成立的。因為,那其中的絕大部分,或是異體字、俗字、錯別字,還有大量的死字(歷史上曾經出現過而後世廢置不用的字)。@*

點閱【漢字正義】系列文章。

如果您有新聞線索或資料給大紀元,請進入安全投稿爆料平台。
  • 世代不同,名號也不同,皇、帝、王代表著三種不同的境界和三種不同的治理人民的方式。順便說一下,三皇五帝的存在,並不是神話傳說,而是在歷史上確有其事的,這一點,已經為考古學、考古天文學、古文字學所證實。所以中華民族的歷史上下五千年,是一個真實的歷史事實。
  • 從前面介紹的漢字造字理念、造字原則以及造字方法「六書」中我們可以看出,漢字創造是一個完整的系統工程。
  • 形聲是指根據事物的屬性將事物劃分成不同的屬類,用表示這一屬類的文(或字)標明意義範圍(形部,或稱意符),然後再找一個能夠曉喻讀音的文字,作為標聲部分(聲部,或稱聲符)與其結合而構成新字,如江、河,從水,讀若工、可。
  • 字的構形原則是:依類象形,形聲相益。漢字的具體構字方法是「六書」:象形、指事、會意、形聲、假借、轉注。
  • 前面的介紹我們知道,漢字的創造是一種有明確指導思想(「分理之可相別異」)與形體構造原則(「依類象形」、「形聲相益」)的自覺創造活動。那麼漢字形體構造的具體方法是什麼呢?這就是傳統的「六書」說。
  • 漢字是記錄、傳遞語言、思維的書寫符號系統,是語言的視覺形式。
  • 漢字是神傳文字,其內涵博大深奧,體系精密完整。
  • 華夏文化是神傳文化,中國漢字是神傳給人的,是交流思想、傳播信息、傳播中華文化的特殊工具,對亞洲一些國家的文字與文化都產生過巨大的影響。
  • 神傳文字天上來 凝聚精華文中載 敬天敬神遵天倫 以形達意示天理
  • 現在,我們來檢點中共當初組織那幫文字工作改革者的行為,就知道他們只是為了減少文字的筆畫而改字,根本不顧及字的意源和聲意。這種改字,使中國文字的有機體斷裂了。如上面所說的謝字,既然你這個「讠」是代表「言」字,為什麼「言」字又要原體呢?你統統都用「讠」來代替就好了。
評論