无线网络技术课程(论文)题目:模糊理论在信息检索中的应用学生姓名1:孟朋朋学号:130101062学生姓名2:王磊学号:130101063所在系院:计算机工程学院专业班级:13计科2班指导教师姓名:裴培职称/学位:助教硕士完成时间:2016年6月计算机工程学院制安徽三联学院课程论文摘要:模糊理论是为了解决真实世界中普遍存在的模糊现象而发展的一门学问。模糊理论以模糊集合为基础,基本精神是接受模糊性现象存在的事实,而以处理概念模糊不确定的事物为其研究目标,并积极地将其严密量化成计算机可以处理的信息。本文首先简介模糊理论,而后将模糊理论在信息检索上的应用做一探讨。希望通过本文,使大学对模糊理论有更深入的了解,并且思考如何将之更广泛地应用于图书信息学上。关键词:模糊理论模糊集合信息检索1.对模糊理论的一般解释基于康托经典集合论的精确数学要求:一个元素a和一个集合A的关系只存在a∈A和aA两种情况。集合可以通过特征函数描述,每个集合A都有一个特征函数CA(a),其定义用下式表示:1当a∈ACA(a)=0当aA该式表明,经典集合论容不得模糊概念。这对现实世界存在的大量模糊现象的解释造成困难。针对这一情况,美国自动控制专家查德(L.A.Zaden)于60年代初提出了“模糊集合”(Fuzzyset)概念。其基本出发点是用“隶属函数”概念来描述差异的中间过渡。这是首次从精确性向模糊性的逼进。通过隶属函数对经典集合论中的特征函数加以推广,并由此引入了“模糊子集”概念。模糊子集定义如下:设给定论域u,u到闭区间[0,1]的任一映射μA为:μA:u→[0,1]确定u的一个模糊子集~A,μA为~A的隶属度。正如经典集合论是传统精确数学的基础一样,模糊子集论也正是模糊理论的基础,同样也可以定义模糊子集上的运算。总之,模糊理论可以将传统的二值逻辑{0,1},推广至可取[0,1]闭区间任意值即无穷多个值的连续值逻辑。安徽三联学院课程论文2.信息检索中引入模糊理论的必要性2..1传统信息检索方法存在的问题2.11通过检索语与索引语的精确匹配来进行检索,只能检索到二者完全相同的信息。传统的信息检索以精确数学、普通的集合理论为基础,检索系统主要基于三种经典检索模型:布尔模型、向量空间模型和概率模型。这三种模型的检索过程是通过检索者输入的关键词(或称检索语)与信息所登录的关键字(或称索引语)之间的精确匹配来完成的,只能检索到检索语与索引语完全相同的信息,而对于二者在一定程度上一致或意义相近、相关的信息却无法查询。2.12传统的检索方式中检索者虽然可以利用检索语之间的逻辑运算及其组合来表达检索要求,但却无法描述检索者对检索语的重视程度以及检索语对信息是否贴切等许多问题。2.13只能对一些具有确定含义的信息进行访问和处理。在客观世界中,许多事物都表现出其不完全或不精确的一面,例如,我们常说的“高与矮”、“胖与瘦”、“美与丑”,这些词都是属于模糊概念,既难以准确地加以度量,也难以明确地划分界限。在检索此类信息时传统的检索方法无法进行。2.2信息发展的模糊性2.21信息的模糊性现代科学技术的发展及其渗透,许多新兴学科、边缘学科、交叉学科不断涌现,使学科的分类呈现出模糊性。如“生物电子学”,它既涉及到生物学范畴,又与电子学有关,在对文献进行学科分类时,只能根据文献对这两门学科的侧重点多少来大概划分是属于生物学还是属于电子学方面。在情报学范畴,学科分类的模糊性必将反映到分类法和叙词表中,使分类类目和叙词表达范围变得模糊。因此,随着科学技术的发展,信息也呈现出模糊性。2.22信息检索结果评判的模糊性我们经常用“文献是否相关”、“文献是否切题”来对信息检索的结果进行评判,相应的“相关性”、“切题性”也就成了评判信息检索结果的两个重要指标。“相关性”是指信息检索时检索系统中被命中文献与用户需安徽三联学院课程论文求文献相吻合的程度。文献的相关与不相关不是绝对的,它本身就是模糊的,且它们之间没有明确的界限。对用户来说,由于受多种因素(比如表达信息要求不完整,或表达不够明确,或在检索过程中对所需信息有所调整等)的影响,检索出的文献与实际需求只有一定程度的主题相关。而用户检索出的相关文献并不一定意味着所检文献与用户的需求相吻合。信息需求与文献相符的性质称为切题性。切题性体现了用户在作判定时,文献满足用户需求的程度,是否切题只有在用户阅读后才能确定。其原因在于:提问一般是固定不变的,而信息需求是不稳定的、可变的。在检索过程中,用户阅读已获文献可能会影响他原来的信息需求,从而影响他对后来检索出文献的切题性判断。因此,判断文献是否切题也没有严格的界限,它更具模糊性、主观性。3.模糊理论在信息检索中的应用针对传统信息检索方法存在的问题和现代信息发展的特点,许多学者对如何利用模糊集合理论来完善和改进信息检索方法做了大量的研究,使检索效果更理想,检索过程更具人性化。3.1对信息检索结果进行模糊聚类分析该分析方法建立在下述假设基础上:(1)信息集合中任一单元都可以用若干标引词ti(i=1,2,…,n)表示;(2)一篇文献中抽取的各个标引词对原文内容的揭示程度存在差异;(3)一篇文献中所使用的标引词个数和各标引词的数值,可以作为反映文献信息主要内容的有用数据。具体步骤如下:(1)确定相似系数。确定相似系数的方法有多种,一般常用的有贴近度法、绝对值减数法和余弦计算法。(2)利用相似系数,建立模糊相似矩阵R。所建立的模糊相似矩阵R,一般具有自反性、对称性。(3)模糊聚类分析。有两种方法:①利用模糊等价关系进行模糊聚类分析将模糊相似矩阵R根据传递闭包法改造成模糊等价矩阵t(R),然后进行分类。使用模糊集的λ水平截集来实现模糊集与普通集之间的相互转化。对于任意给定的置信水平λ∈[0,1],则模安徽三联学院课程论文糊等价矩阵的λ截矩阵t(R)λ只有0和1两种结果(当相似系数大于或等于λ时结果为1,反之当相似系数小于λ时结果为0)。因此,对不同的置信水平,可以得到不同的水平截集,从而得到不同的λ截矩阵。当λ从1降至0时,按λ所得的分类结果将由细变粗,逐步归并,从而形成一个动态的聚类图。这样,就可根据实际情况和置信水平来鉴别文献之间的接近程度,并把彼此接近的文献归为一类。②利用最大树方法进行模糊聚类分析将相似系数从大到小排列,以所有文档作为顶点,将相似系数相同的顶点连接,并在相应的线段上注明该相似系数作为该边的权(不能出现相交线)。若在连接某两个顶点时出现回路,则不连接此边,直到全部对象连通为止,从而得到了最大树(此树不一定惟一)。通过这种方法得到的树,其边的权最大,所以称为最大树。取λ∈[0,1],去掉线段上值小于λ的连线,就可得到一个不连通的图,而剩下互相连接的连通分支就在水平λ上聚于一类。根据不同的λ,可以得到结果不同的聚类图,再根据实际情形,分析得到聚类结果。3.2对自然语言的加权标引自然语言表示中带有大量含有模糊性的词汇,为了描述这些模糊词汇,首先需要为之建立表现其含义的隶属函数,在具体运用中,由于事物本身具有的不确定性和人们认识事物的局限性,所以只能建立近似的隶属函数表示。隶属函数的确定方法有多种,其中利用模糊分布函数去逼近隶属函数的方法使用最为广泛,常用的几种最主要的模糊函数分布为:(1)左大右小的偏小型下降函数1X≤Cμ(x)=[1+a(x-c)b]-1XC其中:C是论域U中任意一点,a和b是两个参数,且a0,b0。(2)右大左小的偏小型上升函数安徽三联学院课程论文1X≥Cμ(x)=[1+a(x-c)b](-1)XC其中:C是论域U中任意一点,a和b是两个参数,且a0,b0。(3)对称中间型正态凸函数μ(x)=e-k(x-c)2其中:C是论域U中任意一点,k是参数,且k0。用自然语言来描述的信息是模糊的,但有时模糊词汇的程度不同也会引起表示含义的不同,例如,“漂亮”与“很漂亮”两个模糊词汇表示的含义是有所区别的。因此,为了更好地表述自然语言,需要对模糊词汇作定量分析,以区分和确定模糊性的不同程度,常见的修饰词如:非常、特别、很、比较、相当、有点、稍微、大略、大约等,称为语言算子,并分为三类:(1)语气算子用来描述模糊词汇的表示程度,一种为集中化算子,如:“很”、“极”等,具有强化作用,可以使隶属函数的分布呈尖锐化;另一种为松散化算子,如:“较”、“稍微”等,具有使隶属函数分布趋于平坦化的作用,带有语气算子的模糊词汇隶属函数表示为:μHλA(X)=[μA(X)]λ其中:A为模糊词汇,Hλ为语气算子。可以假设:H4代表“极”,定义为描述的模糊词汇的4次方;H2代表“很”,定义为描述的模糊词汇的2次方;H1/2代表“稍微有点”,定义为描述的模糊词汇的1/2次方。由于集中化算子的幂次大于1(λ1),经过乘方运算后,隶属函数曲线向中央集中,幂次越高分布越集中,表示的范围越狭窄;相反,松散化算子的幂次小于1(λ1),经过乘方运算后,隶属函数曲线向两边散开,幂次越低分布越平坦,表示的范围越宽广。(2)模糊化算子用于将肯定词汇转为模糊词汇或将模糊词汇变得更加模糊,如:“大约”、“近似于”、“约等于”等修饰词都属于模糊化算子,带有模糊化算子的模糊词汇隶属函数表示为:安徽三联学院课程论文μFA(X)=μEA(X)=vy∈U(μE(x,y)∧TA(y)(或μA(X)))其中:A若为精确词汇,其特征函数为TA(x),若为模糊词汇,其隶属函数为μA(x);F为模糊化算子;E是论域U上的一个相似关系;μE(x,y)=e-x-yδ20x-y≥δδ(δ0)为参数,用于调节模糊词汇的表示范围。(3)判定化算子与模糊化算子具有相反作用,如:修饰词“倾向于”、“偏向于”等,是将模糊词汇进行肯定化处理并作出倾向性判断,具体处理方法有点类似于“四舍五入”,判定化算子在实际应用中并不多见。2.3提高用户需求提问与检索系统输入的相关性由于传统的检索模型对不确定性知识的处理有其固有的局限性,在文档信息或是用户查询具有模糊性的时候,它就不能很好地满足用户的查询需求。为了克服这一缺点,可以采用基于模糊语言方法的信息检索系统模型,通过引入语言变量的概念,在信息表示中考虑语言值权重,用语言值权重替代数值权重,而在文档表示上,引入了数值权重。权重系数语言变量采用有序语言值集合S,假设S={si},i{0,1,2,…,N}为一语言值集合。其中的每个元素均为描述某个语言变量的同种类型的语言值,该集合中元素的个数称为集合的势,势表征了语言值集合描述语言变量信息模糊程度大小的粒度,势值越小,则语言值集合描述该语言变量越模糊,反之,越精细。但该值越大,所需的计算量也越大,综合权衡,取势值的大小为7或9。若S具有下列性质:如果i≥j,有si≥sj。其中si、sj为语言值在[0,1]上所代表的模糊数。则称S为有序语言集合。如果其元素在[0,1]上呈对称分布,则它满足如下运算:(1)求极大:MAX(si,sj)=si,如果si≥sj;(2)求极小:MIN(si,sj)=sj,如果si≤sj;(3)求反:Neg(si)=sj,其中j=N-i。随着科技发展的多元化和现代信息发展的特点,模糊集合理论在信息检索中的应用日趋广泛,因此许多学者对此进行了大量的研究,取得了一些成果,但绝大部分的研究仅仅是局限于理论研究,目前我们所使用的数据库检索系统仍然安徽三联学院课程论文主要是基于传统的集合理论,对于如何将模糊集合理论的优势有效的运用于实际信息检索之中,还是一个亟需解决的问题。4.模糊理论在信息检索中应用现状的分析综上所述,模糊检索对用户查询的检索结果是一个建立在文献集上,且其隶属函数就是文献信息对用户查询的相关程度的模糊子集。就目前的水平来说,隶属函数在很大程度上并没能完全反映出文献对用户查询相关度的真实情况。其主要原因是:(1)在对文献信息进行加权标引时,设定文献信息是标引词集上的模糊子集,它假定了标引词集中各个标引词之间是相互独立的,这符合模糊理论的要求,但由于概念相关的模糊性,两个标引词在不同程度上总存在着语义上的关联。另外,上述模糊子集的隶属