1统计分析《红楼梦》代词使用特色及作者辨析作者:卫晶淼单位:吉林大学中文摘要:本文通过对《红楼梦》中代词的穷尽考察,简要分析其特色,并在获取数据经过筛选后,对部分代词在前八十回与后四十回中的使用频率分别做参数估计,并对结果进行比对、分析、阐述,进而得到结论:《红楼梦》前八十回与后四十回确非同一人所著。关键词:《红楼梦》代词统计学参数估计SystemicstudyonDreamoftheRedChamberWeijingmiaoJinlinUniversityAbstract:DreamoftheRedChamberhasthetitleof“pearloftheartisticimperialcrownoflanguage”,hasbeenalwayspraisedbypeople.Therearealotofpeoplewhostudyit,butSofar,therehasn'tbeenanyworksthatdosystemicresearchonthegrammarofDreamoftheRedChamber”,althoughsomeprogresshasbeenmade.Thatiswhyitisnecessarytomakeasystemicstudyon“DreamoftheRedChamber”andhaveanall-roundanalysisofitsgrammarwithstatistics.Thepurposeofthispaperisalsobasedonthispoint.Usedpointestimateandintervalestimatetothebothindependentsampleofthetwopartof“DreamoftheRedChamber”,itprovethat“DreamoftheRedChamber”isnotwrittenbytheonlyonewriter.Keywards:DreamoftheRedChamberPronounfunctionStatisticspointestimateintervalestimate《红楼梦》是我国古典小说的巅峰之作。自其问世以来,研究者甚众,研究领域甚广,从索引、考证到人物形象、艺术成就等诸多方面成果丰硕,而《红楼梦》的语言研究较之颇为清冷。普遍认为:用统计方法研究语法演变,值得仿效。而且此前已经有学者运用统计学方法,判定某些有争议的作品,作者谁属的问题。而代词系统可以说是比较能反映一种语言某个时期语法特点的一个方面,在研究近代汉语时,吕叔湘先生就是从“指代词”这一角度着手进行研究的。而且代词在文章中可替代性强,所以能够很好地反映出作者的语言习惯和叙事风格。因而本文以代词为突破口,用正态分布(或经验分布)描述作者使用代词的频率,正态分布的参数可以体现作者使用代词的风格,进而统计、分析《红楼梦》前八十回与后四十回语言特色的差异并且加以讨论,或者说验证前八十回与后四十回是否为一人所著。我在考察过程中,以人民文学出版社出版的《红楼梦》为准,逐个找出所2要研究的代词,统计了每个章节各个代词出现的次数,然后算出其均值与方差,再对前八十回中一些有代表性的词汇做参数估计的区间估计,再以后四十回的均值与之比对,得出结论。一、数据地获得和预处理通过字数统计,知《红楼梦》前八十回的总字数为550725字,后四十回为275019字。各词项在前八十回和后四十回出现的总次数如下:表1前八十回词项出现次数统计值词项我我家我们吾咱咱们余出现次数5403218071614047词项侬俺你你们你家汝奴出现次数10443006871582词项尔他他们他家伊渠自己出现次数1345066155320503词项自家这此那彼每各出现次数1252041034292978252397词项谁孰甚什么何如何何妨出现次数659230116656421417词项多少早晚怎么怎样怎出现次数105346431319表2后四十回词项出现次数统计值词项我我家我们吾咱咱们余出现次数238015402302161词项侬俺你你们你家汝奴出现次数011707336631词项尔他他们他家伊渠自己出现次数3619802362770331词项自家这此那彼每各出现次数5242233419851329185词项谁孰甚什么何如何何妨出现次数220214731191472词项多少早晚怎么怎样怎出现次数49144872824按照人称代词、指示代词、疑问代词分类后,用excel画出各个词项在其所属的类别中的比例的圆环图,可以比较直观的看到多数词在前八十回和后四十回中的比例是有很明显差异的,但是也有少数无明显差异的词汇。为下一步分析准备;用SPSS给每列数据画直方图,剔除不符合正态分布的,如:尔、吾、伊等等。再分析留下的数据,考虑每章长短不一,字数本有差异,我我家我们吾咱咱们余侬俺你你们你家汝奴尔他他们他家伊渠自己自家3算出其在一章中所占比例就可以消除这种差异;然后计算其比例的均值和方差,结果如下:表3前八十回中词项比例的统计量词项我我们咱们你你们他他们均值0.0097270.0014140.0007160.0078180.0011930.0082190.001064方差0.0039970.0008990.0005450.0035410.0008610.0029640.000848词项自己这此那彼每各均值0.0009150.0093910.0019520.0012100.0004610.0007240.001195方差0.0005230.0023750.0014100.0004600.0005940.0006470.000647词项谁什么何如何多少怎么怎均值0.0020960.0010440.0003890.0001870.0011510.0053550.000148方差0.0011010.0008120.0003310.0001940.0007220.0016100.000174表4后四十回中词项比例的统计量词项我我们咱们你你们他他们均值0.0086900.0014600.0007710.0062000.0012000.0071200.000850方差0.0022840.0008150.0005690.0019820.0005620.0027670.000511词项自己这此那彼每各均值0.0012100.0087200.0012200.0071200.0000470.0001150.000672方差0.0006120.0017670.0007830.0018150.0000880.0001710.000532词项谁什么何如何多少怎么怎均值0.0007810.0026480.0007090.0001780.0001880.0017610.001950方差0.0004950.0010780.0006190.0002010.0001770.0007180.000740小结:数据预处理的过程,不仅仅是为下一步工作打下坚实的基础,从中我们也可以比较直观的看到:“吾”“余”“尔”“汝”“彼”使用频率远远小于“我”“你”“那”的使用频率,被其全面替代;疑问代词“奚、胡、恶、孰、焉、安”等,在《红楼梦》中已经很难看到了,即使在诗词歌赋中偶有闪现,也不能体现明清时期文学作品的语言特色;“怎”“此”“何”也以“怎么”“怎样”“如此”“因此”“彼此”“如何”“何妨”等形式出现较多,单用情况比较少;“咱们”“俺”“侬”等方言词汇亦时有出现,俚语俗语杂陈其间,不仅很好地刻画了人物形象,也让我们窥探到了明清语言文化的纷繁多样,同时也能够比较直观地看出《红楼梦》前后两部分语言特色确有不同。以下,我将用参数估计的方法来科学地验证。4二、数据分析过程通过对统计数据的点估计和区间估计,可以得到以下结果(一)以前八十回为原总体样本的比对结果:以前八十回为原总体的样本,估计出的置信区间,和以后四十回为新总体的样本,估计出的均值比对,发现只有“我们、咱们、你们、多少”五个词项的新总体样本的点估计值落在了原总体样本以95%的置信度估计出的置信区间内,可以认为两个样本的均值没有明显差别,不能排除前八十回和后四十回来自同一样本的可能性,其他词项的新总体样本的点估计值均不能落在原总体样本以95%的置信度估计出的置信区间内,所以可以认为两个样本的均值有明显差别,排除前八十回和后四十回来自同一样本的可能性。具体比对结果由下表列出:表5估计均值落在置信区间内的统计量词项我们咱们你们多少置信下限0.001200.000590.001030.00013估计均值0.001410.000720.001190.00019置信上限0.001720.000950.001380.00024表6估计均值小于置信下限的统计量词项自己那什么怎么怎估计均值0.000920.005360.002100.001150.00121置信下限0.001010.006550.002310.001530.00172置信上限0.001400.007700.002990.001990.00218表7估计均值大于置信上限的统计量词项我你他他们这此置信下限0.007970.005570.006240.000690.008160.00097置信上限0.009410.006820.007990.001010.009280.00146估计均值0.009730.007820.008220.001060.009390.00195词项彼每谁何如何置信下限0.000020.000060.000630.000510.00011置信上限0.000070.000170.000940.000900.00024估计均值0.000150.000460.001200.001040.000395小结:通过直观的图形展示和具体的参数估计,对《红楼梦》前八十回和后四十回代词的使用频率分析我们可以看出,“我、你、他、他们、自己、这、此、那、彼、每、谁、什么、何、如何、怎么、怎”这16个词项的在前八十回和后四十回中的使用频率的均值都存在明显差异,在95%的置信度下,可以排除其来自同一样本的可能性。虽然“我们、咱们、你们、多少”这4个词项在前八十回和后四十回中的使用频率的均值没有明显差异,但是由于“我们、你们、咱们”为人称代词“我、你、咱”的复数形式,而“我,你,咱”的可替代性强,“吾、俺、汝、尔、余、伊”等等通常都是可以表示单指的人称代词的,但是自宋代“我们,你们,咱们”等词汇开始出现后,至明清时期已经被广泛使用,成为复指代词的主流,同时“尔等、吾辈”等代词亦退出历史舞台,致使“我们、你们、咱们”的替代性就远不如其单指形式的人称代词强。而且此类代词与故事情节密切相关,虽然学术界已基本达成共识《红楼梦》的前八十回和后四十回系两人所著,但是故事情节是一脉相承的,其替代性又不强,所以前八十回和后四十回中的使用频率的均值没有明显差异也是合情合理的。(第三人称表示复制的“他们”,可以由“姑娘们、丫头们,奴才们”等,以“名词+们”的形式代替,所以说替代性较强;与“我们、你们、咱们”还是有差别的。)疑问代词“多少”是问数量的,不像“谁”和“孰”,“什么”与“何”之类可互相替代的疑问代词那样有较强的可替代性,所以前八十回和后四十回中的使用频率的均值没有明显差异也是较为合理的。通过以上分析、阐述,可以看出:在置信度为95%时,“我、你、他、他们、自己、这、此、那、彼、每、谁、什么、何、如何、怎么、怎”这十六个代词的使用频率的均值在前八十回的样本与后四十回的样本中差异显著,能够排除其来自同一样本的可能性;虽然“我们”“咱们”“你们”“多少”这四个替代性较弱的代词,其使用频率的均值在前八十回与后四十回的样本中差异不显著,不能排除来自同一样本的可能性,但是鉴于前文所述因由,对结论的影响微乎其微。所以,由上文的分析可以得出结论:《红楼梦》前八十回与后四十回的作者确非一人。本文虽然得到了以上结论,但是,《红楼梦》地成书过程本身就十分复杂、争议不断;成书历时也