论“字”对汉语词汇和语法的影响0.引言“字”在汉语中有两个意义:第一是方块字的意思,这里的“字”是文字学的单位;第二是指汉语中可从语音、语义、语法(至少是构词法)角度来分析的一个单位。在下面的讨论中,如无特殊的说明,“字”都取第二个意义。当然,这一意义上的“字”与汉字是密切相关的。下文我们将谈到,汉字对汉语语素单音节特点的形成和存续有着深刻的影响。在现今为学术界普遍接受的、以西方语言为基础而形成的语言学理论体系中,没有“字”这一级单位,也没有“字”的概念。然而对于汉语来说,“字”却是确确实实的存在,是绕不过、躲不开的事实。“字”在汉语中,已超出了文字学的概念。在分析汉语的语义和语法时,以及在做中文的信息处理时,都不能无视“字”这一单位的存在。(赵元任,1968,1975;吕叔湘,1980;孔宪中,1992;徐通锵,1998)但是需要说明的是,本文所说的“字”是单音节的“字”。1.音节、语素、“字”语言底层最小的单位是单个的音素,即元音或辅音,然后音素构成音节,音节构成语素,语素构成词,词构成短语,短语构成句子,……,如此层层组合,直到最高层次的单位--语篇。在这个从下到上的层次结构中,意义最初从音节这个层次进入,也就是说,音节以下的语言单位不具备语义,开始附着语义的最小单位一般是音节,当人们约定俗成把音节用于指称某个事物时,音节就有了意义。具有意义的音节或音节组合叫做语素。语素是语言中承载意义的最小单位。语素是构词的单位,也称为词素。(Bolinger,1981:52)音素→音节→语素→词→短语→句子→语篇现代汉语的语素绝大部分是单音节的,双音节以上的语素数量不多,可列举无遗。汉语具有语素单音节的特点,绝大多数汉语研究者对此都不持异议。(赵元任,1968;朱德熙,1985;张永言,1988;杜永道,1992;吕叔湘,1996)汉语具有意义的音节是带声调的音节。脱离语境和没有上下文的单音节有时具有不止一个的备选义,亦即有可能等同于多个语素,但在具体的使用中,一个音节通常等同于一个语素。汉语音节的书写形式是汉字,一个汉字代表一个音节,代表一个或几个语素。汉字有解歧的功能,汉字的备选义要少于上述单音节的语音单位。①音节、语素和汉字三位一体,集音、义、形于一身,构成了汉语独有的一种现象。“字”可以充任语素,而且用现行的、以西方语言为基础的语言学理论来分析汉语,我们只能把它看作是语素。但是“字”具有语素所没有的特点。语素中的“素”是指“成素”(formative),含有是更大的单位的组成部分的意思,意味着其本身不具有独立性。在多数情况下,语素融化、隐身于词之中。然而汉语中的许多“字”却不仅可以成为高一级单位的组成分子,而且可以独立使用。即便是厕身词中,“字”的存在也昭然显豁。2.语言的基本单位,在英语是词,在汉语是“字”②美国语言学家鲍林杰认为,英语的词“是语言中不断重新组合、传达信息的常用片段”(commonpiecesofthelanguagethatareconstantlyregroupedtoformmessages),是“独立编码的最小成分”(thesmallestelementsthatareindependentlycoded)(着重号笔者加)。(Bolinger,1981:52-53)鲍林杰的这两句话言简意赅地描述了词这个英语基本单位的性质。“独立编码的最小成分”道出了词作为基本单位的语义属性,这就是说,虽然语素是承载语义的最小单位,但是词是语义依附的主要单位,是英语中记识语义的基本单位。③“不断重新组合”说的是词的语法属性,即它组合成更大语段的自由程度。“常用”应是基本单位的本质属性。词在英语中的这一地位是无可争议的,其佐证是:(1)词是英语口语和书面语最小的使用单位,说和写一般都不能从中间断开;(2)儿童首先通过语义与词的联系学会使用语言并接受教育;(3)各类辞典以词为基本条目安排内容。如果说英语中“独立编码的最小成分”是词的话,汉语中则是比词低一级的“字”。“字”是汉语中“不断重新组合”的“常用片段”,它是“独立编码的最小成分”。鲍林杰用于描述英语词的这两句话,完全适用于描述汉语的“字”。我们说,“字”是讲汉语的人记识语义的基本单位,是汉语中可以不断重新组合的最小单位。“字”与“词”的组合性质虽然不尽相同,但两者作为基本单位的独立性和离散性是一样的,都具有很高的自由度。上述有关英语词的三个佐证也同样适用于汉语的“字”。(1)汉语的“字”是口语和书面语的最小单位,中间不能断开,也不能插入任何内容。(2)以汉语为母语的人非常熟悉意义同“字”的联系,因为这些“字”大多数都有独立的意义。讲汉语的儿童上学从识“字”开始,汉字是作为最基本的单位同意义一块儿教给学生的。“字”的概念在汉语社会中已不仅仅指文字,而且也是口语中的一个单位。④(3)如同英语的词可以列举,汉语的“字”可以列举。大多数汉语辞典以“字”为基本条目安排内容,因此它们是“字”的集书。汉语有列举“字”的集书,却没有列举词的集书,而英语有列举词的集书,却没有列举语素的集书。汉语的“字”和英语的词在各自的语言中都具有自足的意义,同时具有很高的独立性和自由度,既可独立使用,又可与别的成分结合使用。它们是语义记识的基本单位,然而按照现行的语法理论,它们毕竟属于不同的语法层面。英语的词可独立填充句子中的语法功能槽,而汉语的“字”从整体而言却不能(尽管有些“字”就是词),必须与其他“字”组合成词后才能完成这一功能,因而,从整体而言,“字”还应归于语素这个层次。⑤3.“字”对汉语词汇系统的影响3.1汉语语义编码的基本符号集小,常用“字”有极高的能产性简单地说,编码是一种映射(mapping)行为,即把符号赋予需要编码的事物。任何编码行为都需要一套基本的符号集。如自然数的符号集包括0、1、2、3、4、5、6、7、8、9这10个阿拉伯数字符号。基本符号是符号系统使用者最初记识、最常使用的单位,也是有关符号系统的手册、教材、辞典等必须首先收录和描写的基本的单位。语言的编码可分为语音编码和语义编码两大类。语音编码即用符号代表语音,而语义编码则是用符号代表语义。拼音文字用于语音编码的基本符号是数十个字母,它们的语音编码经济便捷,用基本的音码—字母(或字母组合)—代表一个个的音,字母及组合发什么样的音需经过学习,但向上的组合(词)可按照拼音规则读出。由于基本的音码数量不多,拼音文字的发音较容易掌握。就英语而言,尽管因其正字法和正音法都不规则,按照字母拼合读音不能全部做到,但总的来说,掌握其发音比较容易。英语的语义编码,如上文所述,其基本符号是词,即语义主要是附着在词这个单位上,而汉语语义编码的基本符号是“字”,汉语的语义主要附着在“字”上。基本单位的特点是可以穷尽性地列举。汉语的“字”可以列举,而词不能。形成鲜明对照的是,英语的词可以列举,但比词低一级的语素则不能。汉语的辞典(有的称作字典)一般以“字”为基本条目,先注释单音节的“字”,也就是语素,然后在单字的条目下列出词汇,包括词和词组。汉语辞典因此可称为语素辞典。同印欧语相比,这是一大特色。印欧语辞典的条目都是以词为单位的。用于汉语编码的基本符号集(由“字”组成)小,而英语的大(由词组成)。比较汉语辞典收集的“字”数和同规模的英语词典收集的词数,后者的数字远远大于前者,如《康熙字典》收“字”4万多个,著名《牛津大词典》收词41万多个。(马新军,2000)这样的比较也许意义不大,因为大型辞书一般都收录许许多多早已退出流通的旧的字词。但我们可举一例比较英汉基本符号集的多寡。据说《毛泽东选集》一至四卷总字数为660273个,但只用了2951个不同的汉字,(马新军,2000)而根据笔者用语料库索引软件WORDSMITH所做的统计,仅《毛泽东选集》第四卷的英译本就用了7859个不同的词(动、名词、形容词各种变化形式只算一词)。这个数字是汉字的两倍还多。相同的信息,仅就分立、需要分别记忆的符号的数量而言,英文远远超出了中文。仔细比较还可以发现:表达同样的意思英语采用的音节数总是大于汉语所用的音节数,统计上大约是1∶0.6的比值。也就是说,表达同样内容,英语的有效性只有汉语的60%。值得注意的是,汉语辞典的规模远远低于同类型的英语辞典。这是“字”的性质使然。辞典列出一种语言中的词语总汇(lexicon)。辞典一般应该或必须反映词汇不可预见的性质(unpredictableproperties)或者特殊性(idiosyncracies),凡属于普遍性的问题没有必要在辞典中列出。如德语单词发音是有规则的,因此德语词典一般只标重音而不必注音,偶有特殊的发音才注出。再如英语,名词复数加S,这是一条普遍适用的语法规则,词条中没必要每个名词都列出加S的形式,但是那些不规则的名词(men、children、sheep、criteria)就必须列出,它们属于特殊情况。具有普遍性的语法规则应在语法书中阐释。汉语词的组成和属于句法范畴的短语组成有共同的地方,即按照规则把下层的分子链接起来(concatenation)。就造词法而言,这叫做合成,就造句法而言,这叫做组合,两者的性质其实是大致相同的(其佐证是:对汉语复合词的分析,用的是与分析句法一样的术语)。链接后的语言片段的整体意义要么是其组成分子意义的综合(这种情况英语称为compositional),要么另获得一个与其组成分子意义无干的整体意义。后者具有特殊性,链接后的结果不管是词或短语都应在辞典中列出。整体意义为compositional的情况具有普遍性,辞典不可能也没必要列出语言中所有可能出现的这类语言片段。汉语的辞典在所列出的词中,有一部分是不能从组成分子直接推得语义的,如“木耳”、“哑铃”、“打手”等,但也有一部分是透明的,即基本上可从组成分子推得总体意义,如“打倒”、“地震”、“智慧”。此外,实际使用的汉语中有很多赵元任称为“临时词”、冯志伟称为“未登录词”、程雨民称为“话语字组”的词汇(赵元任,1968:90;冯志伟,2001;程雨民,2003)。这些词汇不在辞典中列出,因此汉语辞典的规模就小。汉语辞典之所以列出许多意义透明的词汇,如“述职”、“刷洗”、“评比”、“军旗”、“推翻”、“打倒”等,是因为它们使用频率极高。汉语基本符号集小于英语,还有其他间接的佐证。尤金·奈达曾说过:“一篇汉语文本译成英语后往往要长得多。这倒不一定是由于文化差异的结果,而是由于汉语词的文字符号所占的篇幅相对要少一些。”(Nida,1993)此外,据说在联合国的五种正式文本(中文、英文、俄文、法文、西班牙文)中,中文文本的页数最少,文件最薄。汉语常用“字”的使用频率和能产性极高。许多“字”可身兼数任,既可单独成词,又可与别的语素不断重新组合,构成词或词组。如“成”字。可用于应答:“成!”(方言),意思是“行!”,又可组成“促成”、“达成”、“玉成”、“坐享其成”、“一事无成”(《现代汉语词典》中有),“化成”、“炼成”、“学成”、“长成”、“写成”、“成素”(《现代汉语词典》中无)等等。类似的例子不胜枚举。所谓“临时词”或“未登录词”,也大都是由常用“字”组成。1989年6月国家语言文字工作委员会公布的《现代汉语常用字频度统计》一书表明,在研究者用计算机抽样选取的200万字的语料里,使用频度最高的前2500个汉字覆盖了97.97%;另据1928年以来的6种有关汉字频度的统计进行分析,按照词频降序排列,至第1000字时,其累计频度已达87.39%。另据原北京语言学院语言教学研究所的1985年的研究,“中小学语文课本用作统计材料的全部篇幅,有近五分之四是用1000个高频汉字写成的。”(《汉语词汇的统计与分析》)这些都说明了汉语常用“字”有极高的能产性。3.2“字”的重组灵活,创制新词容易“字”可不断重新组合的特点使汉语词汇的内部结构松散,词汇的组成成分容易重组,形成新词。汉语中大量实际使用的词汇是临时词,包括专用于某个特定的情景或事件的特设(adhoc)词。在鲁迅的著作中,临时词就很多,如“揭出病苦,以引起