漢字正義(13)︰漢字的數量有定數嗎?

作者 : 子正
font print 人氣: 2015
【字號】    
   標籤: tags: ,

漢字產生以後,走過了四五千年不間斷的發展演變歷程。在這漫長的歷史過程中,歷朝歷代產生的新字不計其數。時至今日,漢字的數量究竟有多少?或說兩三萬、三四萬、四五萬,甚至有說七八萬,竟然沒人能大致說清楚。漢字的數量真沒有一個相對確定的數字嗎?

讓我們先看看歷代字書(及韻書)的收字情況:

商(公元前1600~前1046年):甲骨文已發現單字4378個(《甲骨文字編》,臺灣中央研究院歷史語言研究所李宗焜,2012年),其中已識2000餘字,公認1000餘字。

西周:《史籀篇》(周宣王期間,前827~前781),共十五篇,字數不詳。估計在1500~3000字之間。

秦(公元前221年):《倉頡篇》(李斯作)、《博學篇》(趙高作)、《爰歷篇》(胡毋敬作),共計3300餘字。

漢:《訓纂編》(楊雄,公元前53~公元18年),5340字(已佚);《說文解字》(公元100年,許慎著),9353字;加上重文(異體字),共10,516字。

晉:《字林》(公元514年,呂忱著):12,824字(已佚)。

南朝.梁:《玉篇》(公元534年,著顧野王):16,917字(後增補至22561字)。

宋:《廣韻》(1008年,陳彭年等編著),26,194字;《集韻》(1039年,丁度等編著),53,525字;《類篇》(1066年,司馬光等編著),31,319字。

明:《字彙》(1615年,梅膺祚等編著),33,179字;《正字通》(崇禎末年,張自烈著),33,549字。

清《康熙字典》(1716年,張玉書等編著),47,043字。

1915年,《中華大字典》(歐陽博存主編):48,000餘字。

1971年,《中文大辭典》(張其昀主編):49,888餘字。

1993年,《漢語大字典》(徐中舒主編):56,000餘字。

1994年,《中華字海》(冷玉龍主編):85,000餘字。

可是,漢字的數量真的有這麼多嗎?

其實,當我們明白了漢字造字的原理與方法,清楚漢字發展演變的來龍去脈,對於漢字的數量問題,就會有一個基本的判斷。

在《漢字的造字理念與原則》一文中談到,漢字的具體構字方法是「六書」(其中的「假借」與「轉注」,是後起的二法)。也就是說,真正的漢字,得符合「六書」才算數。一個人隨便寫一個「字」,其構造不符合「六書」的要求,使人無從解讀,那就不能算是一個真正的漢字。歷史上,這樣的「字」很多,有些是俗字,有些是錯別字。所以,「有效漢字」的數量,其實是可以有定數的。

這裏所說的「有效漢字」,主體是指符合六書的通用漢字(很多字後世發生了訛變,變得不符合六書),也包括後世歷代沿用下來的俗字。

下面我們再看看有關中國古籍的用字統計,看能不能找到確定漢字數量的線索。

由上表可以看出,中國歷代各類著作所用不重複字數很少有超過4000的,大多介於2000~4000之間,說明中國歷代社會常用字有一個恒量,即3000字左右。我國古代童蒙識字教材同時並用時的總字數,恰在3000~4000上下,說明當時圍繞漢字教育所進行的字頻研究和常用字研究,已經達到很高的水準。

有人曾統計過,十三經(《易》、《書》、《詩》、《周禮》、《儀禮》、《禮記》、《春秋左傳》、《春秋公羊傳》、《春秋穀梁傳》、《論語》、《孝經》、《爾雅》、《孟子》)中不相同的單字數為6544字。因此,實際上古人日常使用的漢字數不過六、七千上下而已。

以下,我們再分析大陸有關單位所作的漢字使用頻度統計資料。

現代語料字頻統計(清華大學):

統計字數:6,763(GB2313-80字元集)。

使用語料總字數:86,405,823字。

古籍字頻統計(北京書同文數字化技術有限公司所,2004年):

語料來源:

《四庫全書》用字:總字數:698,076,596字:不重複單字:29,081字。

《四部叢刊》用字:總字數: 90,616,538字;不重複單字:27,606字。

二者合併: 總字數:788,693,134字,不重複單字:30,135字。

由現代語料字頻統計結果可看出:

前1,000個常用字,對語料的覆蓋率達到91.9%以上;
前2,500個常用字,對語料的覆蓋率達到99.2%以上;
前3,500個常用字,對語料的覆蓋率達到99.8%以上;
前4,500個常用字,對語料的覆蓋率達到99.9%以上。

這與中國古時歷代社會常用字的數量基本一致。而對古籍字頻的統計,雖然統計字數擴大了將近五倍,達到3萬多字,但字頻與現代漢語相比,差別並不很大:

前1,000個常用字,覆蓋率達到80.9%以上;
前2,000個常用字,覆蓋率達到91.6%以上;
前4,000個常用字,覆蓋率達到97.5%以上;
前6,000字常用字,覆蓋率達到99.1%以上;
前8,000字常用字,覆蓋率達到99.6%以上;
前13,000字常用字,覆蓋率達到99.9%以上。

以後字數再增加,語料覆蓋率的增加就很少了。如果拋除古籍中大量的異體字、俗字,則古今語料漢字的使用頻度基本一致。

1988年,大陸發布的收錄3500字的《現代漢語常用字表》(常用字2500個、次常用字1000個),以及收錄7000的《現代漢語通用字表》(含《現代漢語常用字表》中的3500字),就是依據與上述漢字字頻統計相關的資料制定的。

2013年,大陸又發布了《通用規範漢字表》,將收字數量提高到8105(其中一級字仍為3500)。

香港城市大學研究中心的Benjamin K. Tsou教授關於漢字信息熵的研究表明:隨著漢字容量增大到一定數量,信息熵的增加趨緩;當漢字增加到12,370個以後,不再使信息熵有明顯的增加。據此,有關專家認為:漢字的容量極限為12,366個。

所謂信息熵,是指信息中排除了冗餘後的平均信息量。信息熵越高,意味著能傳輸的信息越多;信息熵越低,則能傳輸的信息越少。

由以上介紹可知,有效漢字的數量,也就在13,000個左右。

對於通常的出版印刷、信息處理、姓氏人名、地名、科技術語等方面的用字需要,8000通用漢字基本上都能滿足。對於專業人員而言,掌握4000~4500個漢字足矣;而對於普通人士,掌握2500~3500個漢字,則基本上就能滿足正常的工作與閱讀需要。

所以,2007年(民國民國九十六年)臺灣《國語小字典》第二版,收字4,305個。1997年(民國民國八十六年)臺灣教育部的《重編國語辭典修訂本》,收字11,930個;另有異體字1,848個,共計13,778字。2011年大陸第十一版《新華字典》,收字11,200餘個。

所以,那些所謂的漢字的數量有幾萬個,甚至是超過十萬個的說法,是不能成立的。因為,那其中的絕大部分,或是異體字、俗字、錯別字,還有大量的死字(歷史上曾經出現過而後世廢置不用的字)。@*

點閱【漢字正義】系列文章。

如果您有新聞線索或資料給大紀元,請進入安全投稿爆料平台。
related article
  • 傳統正體漢字源遠流長,博大精深,精湛典雅,是悠久文化藝術的結晶,美不勝收,是中華民族之寶。簡體字積非成是,詬病連連,唯一的訴求優點就是簡化方便快速,文字過於簡化造成語意混淆,甚至於完全抹煞了原本造字六源的涵義精髓..........
  • 平坐的、是平等的(「婦與夫齊者也」)關係,丈夫應該非常愛護自己的妻子,應該把妻子看得很珍貴(「古文妻從貴、女」)。「妻」字的本義就是一位女人(「從女」)手(「從又」)持一把掃帚(「從屮」)。
  • 漢字有深厚的文化道德內涵,因為漢字與萬物之間有對應關係,因此有人說漢字裡面藏著天機。而早期的漢字更是被廣泛用於占卜和祭祀。中國民間有根據人名來算命的事例,也是對早期漢字的占卜功能的延續。
  • 中國人的方舟—「斻」,其實就是一種「並船」,就是一種「連船」,它是將兩條(也可以更多)船並連著用繩索或鐵鏈綁在一起,用木板釘在一起,這樣就造成一隻「斻」了。「斻」在中國古代曾經是重要的交通工具..................
  • 不管「下雪」也罷、「下雨」也罷,中國古人將其視為「天」的行為,而不是象西方那樣將其視為 「客觀」的現象。
  • 這個「緣」是許多生命之間一種跨世代、超時空而又連續不斷的關係,而「緣」其實是一位無形的神,由她來管理和決定生命之間的因緣果報關係。
  • 一口一田一衣為福,我們從這裡看出古人對福字的理解是多麼的樸素和樂觀。田,人吃的糧食來源於田。
  • 中國的傳統文化是神傳的文化,「孝」就是其中之一,是神傳與人的,用於規範人的行為。
  • 伊甸園中有智慧樹和生命樹,智慧樹和生命樹。據說,吃了智慧樹的果子能辨善惡,吃了生命樹的果子則會長生不老。
  • 漢字是華夏文明承傳的載體,歷代文人用漢字創作了無量的絢麗詩篇,故書寫漢字也形成了一門藝術…
評論