第4章文本操作技术主讲:张春元(信息学院213室)联系电话:13876004640课程邮箱:haidair2009@126.com密码:ir2009海南大学信息学院张春元主讲2009秋季-2-提纲4.14.1引言引言4.24.2文本词汇基本特性文本词汇基本特性4.34.3英文词法分析英文词法分析4.44.4汉语文本词法分析汉语文本词法分析4.54.5相关资源相关资源4.64.6英文拼写检查英文拼写检查海南大学信息学院张春元主讲2009秋季-3-4.1引言文本操作是指对文本文档进行预处理操作。文本操作是指对文本文档进行预处理操作。文本操作是信息检索、信息抽取、自然语言处理、机器文本操作是信息检索、信息抽取、自然语言处理、机器翻译等后续工作的基础。翻译等后续工作的基础。琐碎但重要琐碎但重要自然语言的复杂性和多样性,对文本进行预处理时自然语言的复杂性和多样性,对文本进行预处理时将面临各种意想不到的问题,费时费力将面临各种意想不到的问题,费时费力工程性强,许多商用系统都用到这项技术工程性强,许多商用系统都用到这项技术3海南大学信息学院张春元主讲2009秋季-4-4.1引言我知道你不知我知道你不知道我知道你不道我知道你不知道我知道你知道我知道你不知道不知道海南大学信息学院张春元主讲2009秋季-5-提纲4.14.1引言引言4.24.2文本词汇基本特性文本词汇基本特性4.34.3英文词法分析英文词法分析4.44.4汉语文本词法分析汉语文本词法分析4.54.5相关资源相关资源4.64.6英文拼写检查英文拼写检查海南大学信息学院张春元主讲2009秋季-6-4.2文本词汇基本特性4.2.14.2.1ZipfZipf分布分布4.2.2Heaps4.2.2Heaps分布分布4.2.34.2.3词分辨力词分辨力4.2.424.2.42--PoissonPoisson分布分布4.2.54.2.5词的长度词的长度海南大学信息学院张春元主讲2009秋季-7-4.2.1Zipf分布(省力法则)一篇文本文档中不同词的使用有什么特点,它们在文本文档中出现的频率有没有一定的规律,其表现形式应是怎样?Zipf定律较好地描述了词频与词序之间的关系:即将某一篇较长的文本文档(约5000字以上)中每个词出现的频率按照递减顺序排列起来(高频词在前,低频词在后),并用自然数给这些词编上等级序号,频次昀高的是1级,其次是2级,3级…,这样一直到D级。如果用r表示词的频次排序等级序号,用rf表示等级为r的词在文档中出现的频次,则有:Crfr=式中C是一个参数,它的取值区间为:NC1.00,N为文档拥有的总词数。海南大学信息学院张春元主讲2009秋季-8-4.2.1Zipf分布(省力法则)0词频排序等级r频次rfZipf分布海南大学信息学院张春元主讲2009秋季-9-Zipf定律较好地描述了词频与词序之间的关系,但仍存在一定的局限性,该定律对文档中的中高频词比较适合,对低频词而言,其分布则与公式的描述存在较大偏差。Booth提出的修正模型较好地描述了低频词在文档中的分布规律,解决了Zipf定律对低频词不能圆满解释这一缺陷,被称为Zipf第二定律。Zipf第二定律可表述为:设文档中频次为rf的词总数为rfI,频次为1的词的总数为1I,则有:)1(21+=rrfffIIr4.2.1Zipf分布(省力法则)海南大学信息学院张春元主讲2009秋季-10-自Zipf定律发现以来,许多语言学家、统计学家对英文的各个层次结构进行了统计研究,人们发现,英文的音素级、单词级、词性级、语句级、二元组(bigram)、三元组(trigram),甚至名词短语的词性系列等各个层次结构,都近似地遵循不同形式的Zipf定律。汉语的字、词、二元组等层次结构同样存在Zipf形式的词频-词序关系。4.2.1Zipf分布(省力法则)海南大学信息学院张春元主讲2009秋季-11-4.2文本词汇基本特性4.2.14.2.1ZipfZipf分布分布4.2.2Heaps4.2.2Heaps分布分布4.2.34.2.3词分辨力词分辨力4.2.424.2.42--PoissonPoisson分布分布4.2.54.2.5词的长度词的长度海南大学信息学院张春元主讲2009秋季-12-4.2.2Heaps分布Heaps分布模型揭示了文本文档中不同词汇的数量与文本文档长度之间的关系。Heaps模型可表达如下:一篇具有n个词的文本文档,其不同词汇数量的记为V,则有:)(ββnOKnV==文本文档中不同词汇组成的集合称为词汇表,则V就是该词汇表集合的基。参数K和β的取值依赖于具体的文本,K的取值通常在10到100之间,β是小于1的正数。TREC-2文档集的一些实验表明,β的取值一般在0.4到0.6之间,因此,文本的不同词的数量随着文本的大小呈次线性(sublinear)增长,基本上与文本文档的大小的平方根成正比。海南大学信息学院张春元主讲2009秋季-13-4.2.2Heaps分布文本大小0词汇量Heaps分布海南大学信息学院张春元主讲2009秋季-14-4.2文本词汇基本特性4.2.14.2.1ZipfZipf分布分布4.2.2Heaps4.2.2Heaps分布分布4.2.34.2.3词分辨力词分辨力4.2.424.2.42--PoissonPoisson分布分布4.2.54.2.5词的长度词的长度海南大学信息学院张春元主讲2009秋季-15-4.2.3词分辨力Luhn在分析词频的基础上提出了词分辨力(resolutionpower)的概念。他设想在文本文档中每个词都具有一定的分辨力,即帮助人或计算机区分不同文本文档的能力。Luhn发现文档集中在大多数文档中出现的频率太高的词(高频词)分辨力很低,有些甚至于接近零。因为它们一般都是一些只起语法作用而无实际内容的功能词(如介词、连词等),或是一些很泛的词。它们既然不能给文本文档本身增添什么实际内容,也就起不到区分不同文本文档的作用。频率过低的词(低频词、罕用词)在文本文档中很少出现,不能依靠它们来区分不同文本文档,所以分辨力一般也很低。中频词的分辨力较强,称为有效词(Significantterm),可用来作为文档标引词。海南大学信息学院张春元主讲2009秋季-16-4.2文本词汇基本特性4.2.14.2.1ZipfZipf分布分布4.2.2Heaps4.2.2Heaps分布分布4.2.34.2.3词分辨力词分辨力4.2.424.2.42--PoissonPoisson分布分布4.2.54.2.5词的长度词的长度海南大学信息学院张春元主讲2009秋季-17-4.2.42-Poisson分布Zipf定律揭示了词汇在单一文本文档中的分布规律,但这一规律对词汇在整个文档集中的分布并不适用,2-Poisson分布模型较好地解决了这一问题。这一模型是Bookstein,Swenson,Harter等三人在研究文本文档自动标引过程中提出来的,其主要思想是从概率论的角度来描述词汇在整个文本文档集中的分布规律。海南大学信息学院张春元主讲2009秋季-18-一篇文本文档的词大致可分为“特征词”和“非特征词”两大类。特征词就是能反映文本文档的主题内容的词;非特征词就是不能反映文本文档的主题内容的词,只是为了语法或写作风格上的需要才出现。文本文档自动标引的实质就是通过对文档的自动分析,根据词在文档中出现的特点,选择一部分特征词作为标引词。4.2.42-Poisson分布海南大学信息学院张春元主讲2009秋季-19-4.2.42-Poisson分布非特征词通常词分辨力比较低,它们在文本文档集合的各篇文档中都有可能出现,而且出现的概率是等同的,服从Poisson分布。假定iλ为非特征词it在文本文档集中出现频率的期望值,那么在文本文档集中非特征词it出现k次的概率为:!)(kekPkiiλλ−=由上式可知,非特征词的出现频率可以由一个参数iλ来确定。海南大学信息学院张春元主讲2009秋季-20-4.2.42-Poisson分布特征词能够在一定程度上反映文本文档的主题内容。能够反映某篇文本文档主题内容的某个标引词,一般来说在该文档中出现的频率比较高,而且在与该文档有同一主题内容的各篇文档构成的相关文档子集中出现的频率也较高。但在非相关文档子集中出现的频率就相对比较低,甚至等于零。这样看来,特征词在整个文档集合中的发生频率不能由一个参数来确定,因而在整个文档集中不服从Poisson分布。海南大学信息学院张春元主讲2009秋季-21-4.2.42-Poisson分布特征词能反映其相关文档子集中各篇文档的主题内容,于是我们可以认为它在该相关文档子集中的出现概率是等同的,即特征词在相关文档集中服从Poisson分布。因而,特征词在整个文档集合中所服从的分布,是它在相关文档子集中所服从的Poisson分布与在非相关文档子集中所服从的Poisson分布二者的结合。即特征词在整个文档集合中的分布可以由两个参数u和v来确定。海南大学信息学院张春元主讲2009秋季-22-4.2.42-Poisson分布假定iu为特征词it在相关文档子集中出现频率的期望值,iv为特征词it在非相关文档子集中出现频率的期望值。那么特征词it在相关文档子集与无关文档子集中出现k次的概率分别为:!)(kuekPkiuRi−=!)(kvekPkivIi−=海南大学信息学院张春元主讲2009秋季-23-4.2.42-Poisson分布进一步假定特征词it属于相关文档子集的概率为α=)(RP,属于非相关文档子集的概率则为α−=1)(IP。那么在整个文档集合中,特征词it出现k次的概率为:!)1(!)(kvekuekPkivkiuii−−−+=αα海南大学信息学院张春元主讲2009秋季-24-4.2文本词汇基本特性4.2.14.2.1ZipfZipf分布分布4.2.2Heaps4.2.2Heaps分布分布4.2.34.2.3词分辨力词分辨力4.2.424.2.42--PoissonPoisson分布分布4.2.54.2.5词的长度词的长度海南大学信息学院张春元主讲2009秋季-25-4.2.5词的长度不同语言的词的平均长度不大一样。就英语而言,例如在TREC-2文献集中的不同子集中,单词的平均长度是5个字母,在不同子集之间平均长度的变化很小(从4.8到5.3),如果排除停用词(是指在自然语言中没有多少实际意义且出现频率较高的词,为了减少系统开销,在对文本文档进行正式分析处理前通常加以去除,如英语中的“a”、“the”、“by”、“for”,汉语中的“的”、“地”、“得”等),单词的平均长度会增加到6-7个字母;如果只对词汇表中的单词进行统计,平均长度更大一些,在8-9个字母之间。海南大学信息学院张春元主讲2009秋季-26-表4-1汉语词条长度分布统计表版本总词条数字长123456789-12平均词长词条数105403505657034364260114274142198356147百分比18.7862.4710.167.780.460.020.050.070.072.10词条数87953954849014798218104485019199658481百分比15.0467.638.408.200.370.180.080.090.032.134.2.5词的长度海南大学信息学院张春元主讲2009秋季-27-提纲4.14.1引言引言4.24.2文本词汇基本特性文本词汇基本特性4.34.3英文词法分析英文词法分析994.3.14.3.1断词断词994.3.24.3.2词干提取词干提取4.44.4汉语文本词法分析汉语文本词法分析4.54.5相关资源相关资源4.64.6英文拼写检查英文拼写检查海南大学信息学院张春元主讲2009秋季-28-4.3英语词法分析4.3.1断词