汉字正义(13)︰汉字的数量有定数吗?

作者 : 子正
font print 人气: 2015
【字号】    
   标签: tags: ,

汉字产生以后,走过了四五千年不间断的发展演变历程。在这漫长的历史过程中,历朝历代产生的新字不计其数。时至今日,汉字的数量究竟有多少?或说两三万、三四万、四五万,甚至有说七八万,竟然没人能大致说清楚。汉字的数量真没有一个相对确定的数字吗?

让我们先看看历代字书(及韵书)的收字情况:

商(公元前1600~前1046年):甲骨文已发现单字4378个(《甲骨文字编》,台湾中央研究院历史语言研究所李宗焜,2012年),其中已识2000余字,公认1000余字。

西周:《史籀篇》(周宣王期间,前827~前781),共十五篇,字数不详。估计在1500~3000字之间。

秦(公元前221年):《仓颉篇》(李斯作)、《博学篇》(赵高作)、《爰历篇》(胡毋敬作),共计3300余字。

汉:《训纂编》(杨雄,公元前53~公元18年),5340字(已佚);《说文解字》(公元100年,许慎着),9353字;加上重文(异体字),共10,516字。

晋:《字林》(公元514年,吕忱着):12,824字(已佚)。

南朝.梁:《玉篇》(公元534年,着顾野王):16,917字(后增补至22561字)。

宋:《广韵》(1008年,陈彭年等编著),26,194字;《集韵》(1039年,丁度等编著),53,525字;《类篇》(1066年,司马光等编著),31,319字。

明:《字汇》(1615年,梅膺祚等编著),33,179字;《正字通》(崇祯末年,张自烈着),33,549字。

清《康熙字典》(1716年,张玉书等编著),47,043字。

1915年,《中华大字典》(欧阳博存主编):48,000余字。

1971年,《中文大辞典》(张其昀主编):49,888余字。

1993年,《汉语大字典》(徐中舒主编):56,000余字。

1994年,《中华字海》(冷玉龙主编):85,000余字。

可是,汉字的数量真的有这么多吗?

其实,当我们明白了汉字造字的原理与方法,清楚汉字发展演变的来龙去脉,对于汉字的数量问题,就会有一个基本的判断。

在《汉字的造字理念与原则》一文中谈到,汉字的具体构字方法是“六书”(其中的“假借”与“转注”,是后起的二法)。也就是说,真正的汉字,得符合“六书”才算数。一个人随便写一个“字”,其构造不符合“六书”的要求,使人无从解读,那就不能算是一个真正的汉字。历史上,这样的“字”很多,有些是俗字,有些是错别字。所以,“有效汉字”的数量,其实是可以有定数的。

这里所说的“有效汉字”,主体是指符合六书的通用汉字(很多字后世发生了讹变,变得不符合六书),也包括后世历代沿用下来的俗字。

下面我们再看看有关中国古籍的用字统计,看能不能找到确定汉字数量的线索。

由上表可以看出,中国历代各类著作所用不重复字数很少有超过4000的,大多介于2000~4000之间,说明中国历代社会常用字有一个恒量,即3000字左右。我国古代童蒙识字教材同时并用时的总字数,恰在3000~4000上下,说明当时围绕汉字教育所进行的字频研究和常用字研究,已经达到很高的水准。

有人曾统计过,十三经(《易》、《书》、《诗》、《周礼》、《仪礼》、《礼记》、《春秋左传》、《春秋公羊传》、《春秋穀梁传》、《论语》、《孝经》、《尔雅》、《孟子》)中不相同的单字数为6544字。因此,实际上古人日常使用的汉字数不过六、七千上下而已。

以下,我们再分析大陆有关单位所作的汉字使用频度统计资料。

现代语料字频统计(清华大学):

统计字数:6,763(GB2313-80字元集)。

使用语料总字数:86,405,823字。

古籍字频统计(北京书同文数字化技术有限公司所,2004年):

语料来源:

《四库全书》用字:总字数:698,076,596字:不重复单字:29,081字。

《四部丛刊》用字:总字数: 90,616,538字;不重复单字:27,606字。

二者合并: 总字数:788,693,134字,不重复单字:30,135字。

由现代语料字频统计结果可看出:

前1,000个常用字,对语料的覆盖率达到91.9%以上;
前2,500个常用字,对语料的覆盖率达到99.2%以上;
前3,500个常用字,对语料的覆盖率达到99.8%以上;
前4,500个常用字,对语料的覆盖率达到99.9%以上。

这与中国古时历代社会常用字的数量基本一致。而对古籍字频的统计,虽然统计字数扩大了将近五倍,达到3万多字,但字频与现代汉语相比,差别并不很大:

前1,000个常用字,覆盖率达到80.9%以上;
前2,000个常用字,覆盖率达到91.6%以上;
前4,000个常用字,覆盖率达到97.5%以上;
前6,000字常用字,覆盖率达到99.1%以上;
前8,000字常用字,覆盖率达到99.6%以上;
前13,000字常用字,覆盖率达到99.9%以上。

以后字数再增加,语料覆盖率的增加就很少了。如果抛除古籍中大量的异体字、俗字,则古今语料汉字的使用频度基本一致。

1988年,大陆发布的收录3500字的《现代汉语常用字表》(常用字2500个、次常用字1000个),以及收录7000的《现代汉语通用字表》(含《现代汉语常用字表》中的3500字),就是依据与上述汉字字频统计相关的资料制定的。

2013年,大陆又发布了《通用规范汉字表》,将收字数量提高到8105(其中一级字仍为3500)。

香港城市大学研究中心的Benjamin K. Tsou教授关于汉字信息熵的研究表明:随着汉字容量增大到一定数量,信息熵的增加趋缓;当汉字增加到12,370个以后,不再使信息熵有明显的增加。据此,有关专家认为:汉字的容量极限为12,366个。

所谓信息熵,是指信息中排除了冗余后的平均信息量。信息熵越高,意味着能传输的信息越多;信息熵越低,则能传输的信息越少。

由以上介绍可知,有效汉字的数量,也就在13,000个左右。

对于通常的出版印刷、信息处理、姓氏人名、地名、科技术语等方面的用字需要,8000通用汉字基本上都能满足。对于专业人员而言,掌握4000~4500个汉字足矣;而对于普通人士,掌握2500~3500个汉字,则基本上就能满足正常的工作与阅读需要。

所以,2007年(民国民国九十六年)台湾《国语小字典》第二版,收字4,305个。1997年(民国民国八十六年)台湾教育部的《重编国语辞典修订本》,收字11,930个;另有异体字1,848个,共计13,778字。2011年大陆第十一版《新华字典》,收字11,200余个。

所以,那些所谓的汉字的数量有几万个,甚至是超过十万个的说法,是不能成立的。因为,那其中的绝大部分,或是异体字、俗字、错别字,还有大量的死字(历史上曾经出现过而后世废置不用的字)。@*

点阅【汉字正义】系列文章。

如果您有新闻线索或资料给大纪元,请进入安全投稿爆料平台。
related article
  • 传统正体汉字源远流长,博大精深,精湛典雅,是悠久文化艺术的结晶,美不胜收,是中华民族之宝。简体字积非成是,诟病连连,唯一的诉求优点就是简化方便快速,文字过于简化造成语意混淆,甚至于完全抹煞了原本造字六源的涵义精髓..........
  • 平坐的、是平等的(“妇与夫齐者也”)关系,丈夫应该非常爱护自己的妻子,应该把妻子看得很珍贵(“古文妻从贵、女”)。“妻”字的本义就是一位女人(“从女”)手(“从又”)持一把扫帚(“从屮”)。
  • 汉字有深厚的文化道德内涵,因为汉字与万物之间有对应关系,因此有人说汉字里面藏着天机。而早期的汉字更是被广泛用于占卜和祭祀。中国民间有根据人名来算命的事例,也是对早期汉字的占卜功能的延续。
  • 中国人的方舟—“斻”,其实就是一种“并船”,就是一种“连船”,它是将两条(也可以更多)船并连着用绳索或铁链绑在一起,用木板钉在一起,这样就造成一只“斻”了。“斻”在中国古代曾经是重要的交通工具..................
  • 不管“下雪”也罢、“下雨”也罢,中国古人将其视为“天”的行为,而不是象西方那样将其视为 “客观”的现象。
  • 这个“缘”是许多生命之间一种跨世代、超时空而又连续不断的关系,而“缘”其实是一位无形的神,由她来管理和决定生命之间的因缘果报关系。
  • 一口一田一衣为福,我们从这里看出古人对福字的理解是多么的朴素和乐观。田,人吃的粮食来源于田。
  • 中国的传统文化是神传的文化,“孝”就是其中之一,是神传与人的,用于规范人的行为。
  • 伊甸园中有智慧树和生命树,智慧树和生命树。据说,吃了智慧树的果子能辨善恶,吃了生命树的果子则会长生不老。
  • 汉字是华夏文明承传的载体,历代文人用汉字创作了无量的绚丽诗篇,故书写汉字也形成了一门艺术…
评论