学位论文开题报告论文题目:《左传》与《史记》同事异文的自动发现与分析学号:110102031姓名:李越申请学位:硕士学位所在学院:文学院学科专业:语言学及应用语言学指导教师:陈小荷教授报告时间:2012年11月17日南京师范大学研究生部制表一、论文选题的理由或意义(一)选题理由1.人工查找异文存在困难由于客观历史条件的限制,人们使用的现代汉语同古籍中使用的古代汉语相比,存在着显著的差异,这给非专业人士阅读和利用古代汉语造成了严重的障碍。古籍异文的研究一直是汉语史研究的重要内容,历来为学者所重视,但是通过人工查找古籍中的异文本身是一项工作周期较长、工作量极大、质量要求极高的工作,仅靠少数专家学者的努力难以很好的完成。因此到目前为止,都没有人对古籍之间存在的异文进行过系统全面的研究。而且,专家学者建立的理论知识体系,一般是从大量古籍中古汉语的使用现象归纳得来,由于人的生理条件的限制,很难穷尽所有的语言现象,进而导致这些结论难免会存在偏差。2.古汉语句子相似度研究的要求当前,计算机已经与人们的生活紧密相关,汉语信息处理也在不断地发展,现代汉语的语句相似度匹配已经有了比较深入的研究,但是专门针对古文的相应工作还很少。随着越来越多的有关中华古文化的站点出现在网上,国内各大图书馆、研究机构等收藏的古籍,也有了数字化处理的需求,以便更好地保存、传播和研究。大量的实验和研究表明,古文和现代文具有不同的特点,古文是一种已经不再广泛应用于社会日常生活的语言有必要从分析古文本身的特点入手,研究更有效的检索方法。如果不考虑考古方面的发现的话,虽然古文的句法文法结构比较复杂,但古文中所使用的字词句以及文法却相对来说是静止的,而且其文献数量也是比较固定的。从这个方面来考虑,我们认为将句子相似度的算法运用到《左传》《史记》两本文献的数字化处理上,并从中提取出对古籍异文识别有指导性作用的关键点是可行的,同时也是亟待解决的。3.《左传》和《史记》的异文研究较少《左传》和《史记》是我国汉语史研究的重要研究资料。《左传》是一部断代史,起自鲁隐公元年(前722年),迄于鲁悼公十四年(前453年);而《史记》是我国第一部纪传体通史,记载了上自上古传说中的黄帝时代,下至汉武帝元狩元年间共3000多年的历史。因此,它们在记载从公元前722年到公元前468年之间的这段历史时,有很多重合的地方。在《史记》成书过程中,作者司马迁采用了大量的历史资料,但他并不是简单地抄袭《左传》,而是通常用自己的语言来叙述这段历史,因此二书之间存在着大量的异文。但是到目前为止,却没有人对它们之间存在的异文进行过穷尽式的系统全面的研究。(二)选题的意义1.对语言学研究的意义左传》与《史记》的异文是一份十分宝贵的研究资料,历来研究者多将《史记》与《汉书》相比,至于《左传》与《史记》,很少有人将其联系起来考察。异文的根本特点就是差异,这是异文对立的一面;但是差异之中又存在着各种各样的关系,这是异文统一的一面。异文双方既有差异又有联系,既对立又统一的特点,使得我们有可能根据正确校订讹误,根据已知推求未知,甚至根据改易论证史实,根据差异比较优劣,根据变化来看发展。这也是我们研究《左传》和《史记》异文的目的所在。在对这些异文研究的过程中,我们会发现某个字、词、句有不同的写法,可以为语言学及相关学科的研究提供丰富的论证依据,具有广泛的学术价值,这对我们研究语言的流变有极大的价值。2.对自然语言处理研究的意义句子相似度计算是自然语言处理领域中比较重要的研究课题,有着非常广泛的应用,直接决定某些领域的发展。例如,在基于实例的机器翻译、信息检索、信息过滤、自动问答等方面,相似度计算都是一个非常关键的问题。随着计算机在各个研究领域的广泛使用,以及古籍文献异文的研究需要,句子相似度计算的应用对古籍的处理起到很重要的作用。对于古文句子相似度的计算来说,如何利用古汉语句子自身的特点来综合考虑并研究是关键。本文首次使用句子相似度计算的方法查找《左传》和《史记》中的异文,并针对古文的特点进行查找规则调整,其成果亦可稍作修改用于其他古籍异文的处理研究,对专业研究人员及非专业人员研究古籍提供了一个方便实用的工具和方法,对古文的数字化处理研究具有重要意义。二、国内外关于该课题的研究现状及趋势(一)典籍异文的研究古文献中保存着极为丰富的异文材料,中国的典籍异文的校订有着悠久的历史。西汉时,刘向奉汉成帝之命进行大规模的古籍校勘工作。东汉郑玄诠释诸经,也多参照各版本异文。唐陆德明的《经典释文》,采辑汉魏南北朝以来诸家读音、训诂及文字异同,是考释古文字的宝贵资料。到了宋代,学者对典籍异文进行了考辨,如朱熹的《昌黎先生集考异》是这方面的代表之作。不过清代以前,学者们对于异文的利用很少超出校勘的范围。清代时,文字、音韵、训诂诸学都得到了很大的发展,学者们也开始使用异文来从事校勘以外其他各门学科的研究了。比如,钱大昕在论证其著名的“古无轻唇音”“古无舌上音”的音韵学命题时,就列举了大量的古书异文材料才佐证。总之,清代学者已经开始积极自觉的应用异文进行语言学的研究了。近年来,异文的研究越来越受到重视,异文的概念进一步扩大,不再仅限于传统“小学”的范畴,而是将围绕同一个主题的不同叙述、描写文本也叫异文。研究比较多的是史汉异文,如徐朔方的《史汉论稿》(1984)和朴宰雨《史记汉书比较研究》(1994)。除此之外,大量的出土文献为异文研究提供了新材料,陆锡兴《诗经异文研究)(2001)等顺应了这一新潮流。与此同时,出现了对于古籍异文进行理论总结的专著。王彦坤在《古籍异文研究》(1993)中分析了古籍异文现象,是对异文进行全面总结的第一部专著。朱承平《异文类语料的鉴别与应用》(2005)详细讨论了异文的分类以及不同异文的鉴别和应用,系统研究了异文考据学。总而言之,前人对于古代典籍异文所作出的贡献丰富了汉语史的研究,并提供了宝贵的经验,为我们研究《左传》和《史记》异文提供了有利的条件。(二)句子相似度的研究整体来说,目前研究句子相似度的方法有基于关键词的、基于语义词典的、基于语义依存的、基于语境框架的、基于统计的方法,还有计算编辑距离的方法等等。这些方法分别体现了句子在词形、语义以及句法结构三个重要层面的相似度情况。其中,编辑距离法应用广泛,计算方法相对成熟。编辑距离(EditDistance)是首先由Levenshtein在1965年提出的,故又叫Levenshtein距离,是一种常用的距离函数度量方法,在相似性匹配领域得到了广泛的应用。两序列之间的编辑距离是指只用插入、删除和替换三种基本操作把一个字符串(S)转换成另一个字符串(T)所需要的最少基本操作次数。编辑距离值越大,则相似度越小。求两个字符串之间的编辑距离实际上转化为一个求最优解的问题,可以利用动态规划的思想(Lowrance.1975)来计算,其中传统的编辑距离算法将每一种基本操作的代价值都简单设定为1。Monge(1997)等使用一种可调节的编辑距离计算方法来识别重复记录,Cohen(2003)提出一种应用子串进行相似度计量的编辑距离方法。清华大学冯建华(2008)等提出一种基于NFA(NondeterministicFinitestateAutomation)(非确定性的有限状态自动机)的编辑距离方法。将匹配字符串看作是一个查找树,通过建立一个查找树索引,从而有效地提高了识别准确率。以发现100万条记录中的1000条相似重复记录为例,识别所需时间仅是普通编辑距离算法的0.2%。国内对于利用编辑距离算法计算汉语句子的相似度计算研究方面也取得了一定的成果。车万翔等人的《基于改进编辑距离的中文相似句子检索》(2004)采用改进编辑距离的方法,吸取了基于语义词典的方法和编辑距离方法的优点,同时克服了它们的一些不足。与普通编辑距离不同之处在于,改进编辑距离的方法,同时使用了HowNet和《同义词词林》两种语义辞典,计算词汇之间的语义距离,同时赋予不同编辑操作不同的权重,在不用经过词义消歧和句法分析的前提下,兼顾了结构和词汇等信息,使得对中文识别的准确性更高。该方法获得了81.33%的查准率和95.31%的查全率。但在这篇文章中将句子分成了较长的子结构,使得查询结果不容易匹配,这需要使用较复杂的句法分析技术。北京理工大学的夏天等人发表《改进编辑距离算法与汉语句子相似度计算》(2004.12),通过对编辑距离进行有效扩展,提出了一种衡量句子相似度的定量计算方法和对应的多项式时间算法。该方法以词取代字符作为基本的编辑单元,基于词汇语义计算替换代价,引入块交换操作计算语义编辑距离,并对距离进行归一化以计算句子的相似度。改进之后的编辑距离算法与之前比较,得到的结果更为合理。刘宝艳等在《基于改进编辑距离和依存文法的汉语句子相似度计算》(2008)中了一种基于改进编辑距离和《同义词词林》的汉语句子相似度计算方法,该方法把语法结构信息同依存文法分析结合起来,在计算依存树之间的相似度时仅计算有效搭配对之间的相似程度,使计算的时间复杂度大大降低。将方法与只用改进编辑距离方法进行对比,实验结果证明该方法要优于单单用改进编辑距离的方法。但由于同义词词林收录的词是有限的,例如一些专有名词就没有收录到其中,使得该方法在用于某些特殊领域时需要增加一些专业领域的词典来提高正确率。由于交换操作与编辑距离值结果的准确性具有重要的关系,赵作鹏等的《一种改进的编辑距离算法及其在数据处理中的应用》(2009)在Lowrance的基础上提出了非相邻位置字符的交换操作动态规划方法,通过扩展计算点前后非相邻字符间的交换操作,改进了编辑距离算法,实现了编辑操作的最小化,平均执行时间可以缩小10%~20%,同时对交换操作的识别准确性大大提高。刁兴春等在《一种融合多种编辑距离的字符串相似度计算方法》(2010)中针对中西文混合字符串,采用了将汉字作为西文字符的等价单位计算编辑距离的方法,并从输入法的角度提出了采用拼音编码和五笔编码计算编辑距离的方法,最后给出了融合三种编辑距离计算字符串相似度的算法。该方法在提高相似重复检测算法查全率的同时也能够获得较高的查准率,从而获得了更好的综合检测效果。(三)《左传》《史记》的对比研究《左传》《史记》是我国古代汉语史研究的重要资料,有着极其重要的地位。对《左传》《史记》的研究由来己久,其中对单书进行的研究占绝大多数,两书对比的研究过去也有一些,主要是论文,就所发表的文章而言,其研究内容多是从文学和史学方面进行论述,如书中所涉及的人物形象、叙事手法、取材、史学价值等,朱志纯《从史记对左传的取材透视司马迁的一家之前》分析了《史记》对《左传》在政治和文学思想方面材料改造的进步;车颖的硕士论文《左传、史记叙事艺术比较研究》分析了二者的叙事角度以及人物塑造;廖颖的《左传与史记》对《左传》、《史记》材料进行了详细的考察。对《左传》《史记》在语言学领域的对比研究也已有一些论文涉及到,如词汇方面唐子恒的《论汉语词汇发展中的更替现象——以左传史记用词差异为例》(2012)、词法方面何乐士《左传史记名词作状语的比较》(1997)以及句法方面解植永《左传、史记判断句比较研究》(2006)等等。但这些论文直接从作者要研究的某种既定的语言现象出发,无法对当时社会语言如何流变做到概览。目前研究《左传》及《史记》异文的专著和论文尚不多见。张云涛的硕士论文《左传史记异文研究》(2007)对异文的表现和产生原因进行分类,同时也通过对比分析了汉语的发展。可是,对古籍进行人工查找异文毕竟数量有限,至今还没有人对《左传》《史记》中出现的异文通过计算机进行自动识别,甚至在整个古籍处理的领域,这项工作都鲜少有人涉及。三、研究目标、研究内容和拟解决的关键问题(一)研究目标本文拟在利用编辑距离的方法对《左传》《史记》进行文本相似度查找,同时加入人名、地名词表,用计算机查找到两种文献中尽可能多的记述同一件事的异文。(二)研究内容《汉语大词典》把“异文”解释为:凡同一书的不同版本,或