数据挖掘中的文本挖掘张聪目录Contents一三二四结语文本挖掘过程文本挖掘的主要研究方向关于数据挖掘和文本挖掘一数据挖掘与文本挖掘DataMiningandTextMining数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Associationrulelearning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。文本挖掘一般指文本处理过程中产生高质量的信息,其主要处理过程是对大量文档集合的内容进行预处理、特征提取、结构分析、文本摘要、文本分类、文本聚类、关联分析等操作。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘基于单文档的文本挖掘文本摘要信息提取基于文档集的文本挖掘文本分类文本聚类个性化文本过滤文档作者归属因素分析文本挖掘的分类二文本挖掘的主要研究方向MainResearchDirectionofTextMining文本挖掘12534文本检索文本分类文本聚类网络浏览文档总结网络浏览文本挖掘技术可以通过分析用户的网络行为等,帮助用户更好地寻找有用信息一个典型的例子是CMU的WebWatcher。这是一个在线用户向导,可以根据用户的实际点击行为分析用户的兴趣,预测用户将要选择的链接,从而为用户进行导航。文本检索文本检索主要研究对整个文档文本信息的表示、存诸、组织和访问,即根据用户的检索要求,从数据库中检索出相关的信息资料。主要检索方法有三种:布尔模型是简单常用的严格匹配模型;概率模型利用词条间和词条与文档间的概率相关性进行信息检索;向量空间模型在于将文档信息的匹配问题转化为向量空间中的矢量匹配问题处理。文本分类文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。这样用户不仅可以方便地阅读文档,而且可以通过限制搜索范围来使文档查找更容易。近年来涌现出了大量的适合于不同应用的分类算法,如:基于归纳学习的决策树、基于向量空间模型的K-最近邻、基于概率模型的Bayes分类器、神经网络、基于统计学习理论的支持向量机方法等文本聚类与文本分类相对应的是文本自动聚类。文本聚类是一种典型的无监督机器学习问题。它与文本分类的不同之处在于,聚类没有预先定义好的主题类别,它的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能大,而不同簇间的相似度尽可能小。文档总结文档总结也是Web文本挖掘的一个重要内容。它是指从文档中抽取关键信息,用简洁的形式,对文档内容进行摘要和解释,这样用户不需阅读全文就可了解文档或文档集合的总体内容。搜索引擎向用户返回查询结果时,通常需要给出文档摘要,这就是文档总结的一个实例。三文本挖掘过程ProcessofTextMining文本挖掘过程图示文本预处理文本预处理是文本挖掘的第一个步骤,对文本挖掘效果的影响至关重要,文本的预处理过程可能占据整个系统的80%的工作量。与传统的数据库中的结构化数据相比,文档具有有限的结构,或者根本就没有结构即使具有一些结构,也还是着重于格式,而非文档的内容,且没有统一的结构,因此需要对这些文本数据进行数据挖掘中相应的标准化预处理;此外文档的内容是使用自然语言描述,计算机难以直接处理其语义,所以还需要进行文本数据的信息预处理。信息预处理的主要目的是抽取代表文本特征的元数据(特征项),这些特征可以用结构化的形式保存,作为文档的中间表示形式。文本的表示基于自然语言处理和统计数据分析的文本挖掘中的文本特征表示指的是对从文本中抽取出的元数据(特征项)进行量化,以结构化形式描述文档信息。这些特征项作为文档的中间表示形式,在信息挖掘时用以评价未知文档与用户目标的吻合程度,这一步又叫做目标表示。文本表示的模型常用的有:布尔逻辑模型,向量空间模型潜在语义索引和概率模型。其中VSM是使用最多的方法也是效率最好的方法。VSM的基本思想是使用词袋法表示文本,这种表示法的一个关键假设,就是文章中词条出现的先后次序是无关紧要的,每个特征词对应特征空间的一维,将文本表示成欧氏空间的一个向量。特征集约减通常,特征子集的提取是通过构造一个特征评估函数,对特征集中的每个特征进行评估,每个特征获得一个评估分数,然后对所有的特征按照评估分大小进行排序,选取预定数目的最佳特征作为特征子集。特征集约减的目的有三个:1)为了提高程序效率,提高运行速度;2)数万维的特征对文本分类的意义是不同的,一些通用的、各个类别都普遍存在的特征对分类的贡献小,在某个特定的类中出现的比重大而在其他类中出现比重小的特征对文本的贡献大。3)防止过拟合(Overfit)。对每一类,去除对分类贡献小的特征,筛选出针对反映该类的特征集合。一个有效的特征集直观上说必须具备以下两个特点:1)完全性:确实体现目标文档的内容;2)区分性:能将目标文档同其他文档区分开来。文本挖掘方法常用的文本分类方法有基于概率模型的方法,如朴素Bayes方法,隐马尔可夫模型等;基于关系学习的决策树方法等;基于统计学习的支持向量机方法等;基于向量空间模型的K-近邻分类法和神经网络方法等。常用的聚类划分方法有K-平均算法和K-中心算法。K-平均算法是划分方法中基于质心技术的一种算法,以K为参数,把n个对象分为K个簇,以使簇内具有较高的相似度,而簇间的相似度较低,相似度的计算根据一个簇内对象的平均值(质心)来计算。K-平均算法对于孤立点敏感,为消除这种敏感性不采用簇中对象平均值作为参考点,而选用簇中位置最中心的对象为参考点,这就是K-中心算法。四结语Summary文本挖掘和数据挖掘在目的上是一致的,都是试图从大量的信息中抽取知识。数据挖掘是从原始数据中抽取,而文本挖掘则是从文本材料中抽取。文本挖掘也就可以看成一种数据挖掘,但是数据挖掘倾向于非常精确和结构化,多数研究只考虑从数据库中抽取知识,这正是许多数据挖掘技术并不能自如地应用于文本挖掘领域的原因。另外在对文本集进行相关分析时,往往会损失文本中的大量信息,这种信息的遗漏,会影响到挖掘的效果,因此还要探索更高效的文本挖掘新方法。文本挖掘最大的动机来自于潜藏在电子形式的文本中的大量数据。将来的工作①如何将现存的数据挖掘技术应用与文本挖掘领域很好地融合,那样文本挖掘就能够更有效地进行;②发展全新的非结构化文本挖掘算法;③将文本挖掘与自然语言处理、计算语言学等有效集成,处理文档中的语义关系。感谢聆听!张聪