重码率方案重码率指标从主观上体现出设计者的设计技能,从客观上却反映出取码规则的优劣性。降低重码率是每一个开发者自始至终追求的目标,也是衡量输入法品质的一项硬指标。以国标6763个一二级简体汉字为标准,优秀的输入法其汉字重码率应控制在5%以内,即全部重码字少于338个。传统五笔之所以高效,是因为他的重码字仅为250组510个(不足编码汉字总数6763的十分之一)。全拼之所以低效,是因为它的重码字最多。超过6000字以上。全拼用户在输入编码后,汉字并不直接上屏,通常需要用户用数字键选择上屏,因数字键超出热键区之外,且输入时,要加以注视并选择,无法实现真正意义上的盲打,因而输入速度无法提高。可以说,键盘输入法效率的高低,是与重码率的高低密切相关的。(重码能够控制在总量10%以内的输入法,较难见到,绝大多数输入法,都程度较高地带有数字选字词的色彩,输入字词的时候,不能做到“干净利落”。这也是其他输入法多年来无法取代传统五笔的最根本原因。现代五笔,以创造最高效的汉字键盘输入法为已任,在解决重码问题上,已获得重大突破,将汉字键盘输入法重码降低到了极低限,仅116组236个重码字,用重码字的严格标准衡量,目前没有任何字母键编码的输入法能够达到这一指标(拨开虚假广告的迷雾,人们终将明白这一点)。重码率与输入法类型及编码方案关系最为密切。从各种类型输入法重码率结果上来分析,一般可以这样下结论(区位、电报等序号码不在比较之列):全音码输入法重码率最高。每个汉字都有同音字,也就意味着每个汉字都有重码。可以说此类输入法是“在重码堆里打滚”的输入法。全形码输入法能够较好地处理重码问题。一般能将重码字控制在800字以内。形音码与音形码输入法能够更好地处理重码问题。有经验的作者一般能将重码字控制在500字以内。形音码与音形码孰优孰劣?我们认为:由于音形码有诸多弱点,如陌生的字难输、简码数量达不上高指标、输入方法不够直观等原因(被业内嘲弄为女耕男织、倒行逆施),所以作为重码率方案应首选形音码编案方案。更进一步地说就是“先形后音、形主音辅”的编码方案。现代五笔就是这一方案的实践者。重码率、字根表规则、码元集三者之间存在着“此长彼消”的关系。要想降低重码率,往往要以牺牲字根表规则或扩大码元集范围作代价,这是许多输入法设计者“忍痛”以至不愿公开重码字的真实原因!现代五笔坚持“不突破26个标准码元集范围”、“最大限度强化字根表规则”这两个基本原则,在低重码与字根表规则两条设计线上,全面发挥数据库强大的筛选功能,找到了两者之间理想的磨合点(可以说是现代五笔设计思想最亮丽的“闪光”点)。此输入法虽有236个重码字,但其中的常用字极少。实际输入时,运用简码、词组、推字上屏等输入技巧,可以妥善消除重码所带来的负面影响,使输入更流畅。现实中,极少有输入法将自身的重码字公之与众。重码字让用户了解,有利于在实践中扬长避短,更好地应用。现代五笔率先将自身的重码字公开,让一些缺乏透明度,自栩品质高的输入法望洋兴叹。________________________________________________________________________________掩盖重码字的手法近年来,网上竟然有输入法宣称只有几十个重码字,实在令行家难以置信。当然他们的重码字是不能公布的。因为,一公布就会露马脚。这里有两种典型的情况:一、输入法作者自定重码字标准通常情况下,一个输入法作者,怀着成功的愿望,辛辛苦苦完成了全部单字的编码工作。可对单字编码一排序,才发现竟然有千儿八百重码字。这是众多设计者始料所不及的,最终成了输入法设计者的难言之隐(注:编码规则类型一经确定,重码字的大致数量也就“框”定了,减少重码只有在这个“框”内进行,其有效途径是反复调整字根在键盘上的位置或增设字根,然而这种办法是以减弱字根表规则、降低易用性为代价的,且奏效的程度不高)。痛定思痛,为了将自创输入法推广出去,在谈及重码字数量时,他们采用了灵活的说法。并堂而皇之地认为:有简码的重码字就不再是重码字,理由是这些字可以通过简码来输入。在这种心态支配下,他们只将没有简码的重码字确定为重码字,如此,情况就大不一样了,原来被认为的600个重码字,现在就只剩下不到200个了。确实,简码字作为重码字的挡箭牌,其掩饰作用非常之大,特别是三级简码,可以掩饰绝大多数重码字。我们认为:重码字作为输入法品质优劣性的重要指标,应以全码字为定义对象。二、采用“取头断尾”法来掩盖真实的重码字何为“取头断尾”法?这里举一例子,假设我的输入法真正的重码字有600个(设为300组),可是我想让用户认为无重码,那好办,只要从构成重码的每对中选取一个字,也就是选择300个字设置成简码字,然后将该字的全码舍去即可(如果设计者刻意这样做,是能够做到无重码的)。这种做法,因没有具体指明哪些字,所以不同于一般的硬性规定,应该说是“儿戏”编码规则、对用户不负责任的行为。显然,所设的简码可取代重码字的输入,但却造成输入法简码品质的下降。我们知道,简码字是从众多符合筛选条件的字中严格挑选出的高频字,如果将原本要安置高频字的简码空位让给某些重码字,让这些“滥竽充数”者占据主位,势必会影响总体输入效率。同时,用户学习起来,要特别留意这些“编码不全的字”,以免“惯性”录入了与之相对应的另一重码字。要知道传统五笔是专家学者们公认的低重码输入法,但就是这样一个重码少的输入法,也还存在250组510个重码字,对于个别输入法在宣传中大言不惭说自己只有几十个重码字,能信吗?在用26个字母键编码的输入法群体中,象现代五笔这样只有236个重码字的输入法,绝无仅有!如果存在比此重码字更少的输入法(只要规则简单,即使是字根表方案一般),一经证实,我们会大力举荐。________________________________________________________________________________典型输入法重码发生的绝对几率最为常见的是26个字母键、码位数为4的输入法。因此,我们就以这种典型的输入法来讨论重码字发生的几率。这种典型的输入法,其编码空间总量为:456976位(26的4次方),而编码对象是6763个国标简体汉字(不加入词组),在这种条件下,所编出的输入法,其编码空间占用的情况是:456976÷6763=67.57,也就是:6763个字占用了约六十八分之一的编码空间。此时,每输入1个汉字,其重码的发生几率为67.57分之1(456976除以(6763-1)=67.58),或者说每输入67.58个汉字后,就会产生一对重码,这样累计,输完6763个汉字,会产生6763乘以1/67.58=100.1对重码。从这个原理上来说,26个字母键、码位数为4的输入法,其重码发生的几率所产生的重码为100对。以上是从绝对均衡的条件下预测的。实际上,汉字外形结构与读音的类同性、编码规则、字根构字能力差异等因素,影响汉字在编码空间内均衡分布,其结果只会增大重码的发生几率。就全形码输入法来说,汉字结构的类同性造成重码发生几率的增加,首先表现在构字能力特强的一些部件上,如“口”、“亻”、“艹”、“钅”、“氵”、“木”等,造成某些汉字聚集在编码空间的某一区间或层面上,从而使重码的发生几率增高;其次表现在某些相近特征的汉字上,产生“惰性”重码。每一种编码规则类型,都有其相应的“惰性”重码。如“赢羸蠃嬴”、“微徽徵”、“彀觳嗀”、“龆龉”、“蝥蟊”等汉字相对全形码而言,就是“惰性”重码,在编码规则确定为“一二三末”之后,无论字根位置如何调整,这些重码都在所难免。以上编码空间占用原理告诉我们:以26个字母键、码位数为4编码的输入法,重码发生的绝对几率所产生的重码为100对,这是理论上的临界值,实践中,设计者降低重码的理性期望值,是不能少于这个临界值的。少于这个临界值的期望,是不现实的。