文本特征提取技术03

heaven__18
1 ℃
2020-02-11

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

文本特征提取2020/2/12五校联合大数据分析硕士培养非结构化数据分析主要内容2020/2/12非结构化数据分析文本表示特征提取特征权重文本表示第一讲：文本挖掘简介2020/2/12非结构化数据分析文本表示及文本预处理2020/2/12非结构化数据分析去掉html一些tag标记停用词(stopwords)去除、词根还原(stemming)(中文)分词、词性标注、短语识别、…词频统计(TFIDF)数据清洗：去掉噪声文档或文档内垃圾数据向量空间模型[G.Salton,1971]2020/2/12非结构化数据分析向量空间模型(VectorSpaceModel)自然语言处理常用模型基本概念文档（Document）：句子、段落、整篇文章特征项（Term/Feature）：词根/词/短语/其他项的权重（Weight）：每个特征项在文档中的重要程度。𝐷1=𝐷1(𝑤11,𝑤12,…,𝑤1𝑛)𝐷2=𝐷1(𝑤21,𝑤22,…,𝑤2𝑛)VSM示意图—数据结构化一般思路2020/2/12非结构化数据分析特征词1特征词2特征词3……特征词n文档1权重11权重12权重13……权重1n文档2权重21权重22权重23……权重2n文档3权重31权重32权重33……权重3n文档4权重41权重42权重43……权重4n………………………………文档m权重m1权重m2权重m3……权重mnVSM示意图相似度比较内积计算Cosine计算2020/2/12非结构化数据分析𝑆𝑖𝑚𝐷1,𝐷2=𝑤1𝑘,𝑛𝑘=1𝑤2𝑘𝑆𝑖𝑚𝐷1,𝐷2=cosθ=𝑤1𝑘,𝑛𝑘=1𝑤2𝑘𝑤1𝑘2𝑤2𝑘2𝑛𝑘=1𝑛𝑘=1文本表示注解2020/2/12非结构化数据分析文本表示注解2020/2/12非结构化数据分析用单个汉字（对应英语语系中的字符串）做特征，不考虑词语的含义。直接利用汉字在文本中出现的统计特性对文本进行划分；直观明了，且操作简单，尤其对于英文文本或其他西语文本的划分非常容易，计算机可以直接利用空格进行分隔。但是基于单个汉字表示方法往往无法很好的代表语义信息。比较之下，使用词做特征成为一种更好的选择。词是中文语义的最小信息单位，词可以更好的反映句子中的信息，但是分析难度也提升了。以中文文本为例，词与词之间没有明确的分隔标记，计算机无法自动识别词语的边界，因此正确分词是这种表示方法的关键。该方法比较常用。文本表示注解2020/2/12非结构化数据分析词性（PartOfSpeech，POS）作为特征可以更好的识别词语之间的关系。让计算机来自动地给文本中的词标注词性，然后利用词性进行词义分析。如：什么样的名词经常和什么样的动词同时出现，这对于词语之间关系的研究开拓了新的思路。词性标注技术的成熟为词组组块（PhraseChunking）的界定与实体及关系（EntitiesandRelationship）的识别打下了良好的基础，有利于我们更深入的探索文本语义的信息。且词组的形式提高了特征向量的语义含量，使得向量更稀疏。近年来，词性标注（POS-tagging）、词组组块（PhraseChunking）、实体及关系(EntitiesandRelationship)相关的研究也开展了很多，取得了很多可喜的成果，有兴趣的读者可以参考后面所附的文献进行深入学习。特征权重2020/2/12非结构化数据分析特征权重2020/2/12非结构化数据分析衡量某个特征项在文档表示中的重要程度或者区分能力的强弱更好的对文本进行表示一般利用文本的统计信息：词频常用的权重计算方法2020/2/12非结构化数据分析布尔权重𝑤𝑖𝑗=1,0绝对词频TF𝑤𝑖𝑗=𝑡𝑓𝑖𝑗倒排文档频度（IDF）𝑤𝑖𝑗=𝑙𝑜𝑔𝑁𝑛𝑖TF-IDF𝑤𝑖𝑗=𝑡𝑓𝑖𝑗𝑙𝑜𝑔𝑁𝑛𝑖TF-IWF𝑤𝑖𝑗=𝑡𝑓𝑖𝑗(𝑙𝑜𝑔𝑛𝑡𝑖𝑀𝑖=1𝑛𝑡𝑖)2𝑛𝑖:训练集中出现特征𝑡𝑖的文档数𝑛𝑡𝑖:特征𝑡𝑖在训练语料中出现的次数TF-IDF例子（Saltonetal.,1983）2020/2/12非结构化数据分析假设抓取了来自门户网站“经济”“娱乐”“科技”三个版块各300篇文章，其中有一篇文章，共有100个词，其中“粒子”“和”“应用”三个词分别出现了5次、35次和15次，我们想将该文档进行归类，看它属于“经济”“娱乐”“科技”文档中的哪一类。初步分析认为，“粒子”、“应用”两个词应该对文章分类的作用较大，而“和”对于文章的分析意义不大。更进一步的，如果目标是进行文档的归类，有理由认为“粒子”一词对于该文章的归属的贡献要高于“应用”。“应用”一词的专业性不及“粒子”。TF-IDF应用举例2020/2/12非结构化数据分析词语词频（TF）文档频率(DF)文档逆频率(IDF)权重（TF*IDF）粒子0.05509000.063和0.359009000应用0.154509000.045但是如果只关注词频，“应用”一词的权重更高。这时候，可以利用IDF的计算公式进行权重的处理，计算三个词的文档频率和文档逆频率，假设50篇文章中出现了“粒子”一词，450篇文章中出现了“应用”一词，900篇文章中均出现了“和”这个词语。那么采用TF*IDF方法计算得到的权重如下：特征权重注解2020/2/12非结构化数据分析特征加权方法最初用于信息检索，特征加权主要有三个层次，局部加权、全局加权和标准化(Chisholmetal.,1999)。一般化的特征加权表示式如下：是词语w在文档d中的局部权重。是词语w在文档集合中的全局权重，是文档d的标准化因子。局部加权仅使用词语在文档中出现的统计量，而全局加权则使用整个数据集中的统计量进行计算。()()ddLwGwN()dLw()GwdN特征提取2020/2/12非结构化数据分析特征提取的意义2020/2/12非结构化数据分析文本集合包含的特征太多10,000–1,000,000uniquewords…andmore特征减少后，某些算法才能使用有些分类方法无法处理1,000,000以上的特征减少训练时间有些分类方法的训练时间与特征个数的平方成正比，或更糟使预测模型更快、更小能提升总体性能EliminatesnoisefeaturesAvoidsoverfitting特征提取思路2020/2/12非结构化数据分析特征选择(FeatureSelection)文档频率信息增益卡方统计量互信息特征重构(Re-parameterisation)潜在语义分析文档频率（DocumentFrequency,DF）2020/2/12非结构化数据分析文档频率（DF）指文本数据中包含某个词条的文档的个数。通过文档频率进行特征选择就是按照文档频率的大小对词条进行排序，将文档频率小于某一阈值的词删除，从而降低特征空间的维数。文档频率2020/2/12非结构化数据分析基于DF的启发式要点太频繁的词项没有区分度,DF大于某个阈值去掉太稀有的词项独立表达的类别信息不强稀有词项的全局影响力不大在训练集中，某些文档如果有某个稀有词项，它们通常也会有一些常见词项（对那一类）和通常信息获取观念有些抵触：稀有的更有代表性（这是一种adhoc方法，不依据什么理论）最容易实现，可扩展性好文档频率2020/2/12非结构化数据分析Baeza-YatesandRibeiro-Neto（1990）研究表明，若一个特征在语料集80%的文档中都出现了，它对于分类来说是无意义的。这样的词语主要是指停用词等，通过对这部分词语的压缩，可以使特征向量空间压缩到原始的40%或者更多。对于出现频率过低的词语，考虑到增加一个变量对于现实带来的成本，一般不利用这样的词语，而是尽可能少的选取其他词条。YangandPedersen（1997）试验表明：在分类效果没有变差的前提下将特征空间的维数约减为原来的1/10是可能的，约减为1/100所带来的损失很小。熵2020/2/12非结构化数据分析对分类系统来说，文档类别C的可能取值是每一个类别出现的概率是为类别的总数，熵定义为：21(MiiiEntropy(C)=-pC)logp(C)12(),(),()iPCPCPCM12,,iCCC熵/平均熵2020/2/12非结构化数据分析在观察到特征项以后，文档落入某个文档类的概率就应该是条件概率此时系统的熵为：该特征项的熵：该值越大，说明分布越均匀，越有可能出现在较多的类别中；该值越小，说明分布越倾斜，特征项可能出现在较少的类别中t(|)iPCt21|)|)MiiiEntropy(t)=-p(Ctlog(Ct信息增益(InformationGain,IG)2020/2/12非结构化数据分析该term为整个分类所能提供的信息量特征项出现与否导致的熵的变化考虑和不考虑特征的熵的差值信息增益2020/2/12非结构化数据分析特征选择文档属于Cm类文档不属于Cm类总数Tj出现在文档中mjPmjQmjmjPQTj未出现在文档mjUmjVmjmjUV总数mjmjPUmjmjQVI1111111logloglogMMmjmjmjmjjjmjmjjmmmjmjmjmjMjjmjmjmmjmjmjmjPUPUPUPPIGIIIPQPQVUUUIUVUV111()log()()(|)log(|)()(|)log(|)MMMjmmjmjmjjmjmjmmmIGpCpCpTpCTpCTpTpCTpCT信息增益2020/2/12非结构化数据分析信息量与变量可能的变化有关，跟变量具体的取值没有任何关系，只和变量所取的种类多少以及发生概率有关），种类和发生概率决定了信息量的大小。Quinlan提到了这一点，信息增益的方法总是倾向于选择有多种属性的特征。只能考察特征对整个系统的贡献，而不能具体到某个类别上，这就使得它只适合用来做所谓“全局”的特征选择（指所有的类都使用相同的特征集合），而无法做“局部”的特征选择（每个类别有自己的特征集合，因为有的词，对这个类别很有区分度，对另一个类别则无足轻重）。χ2统计量2020/2/12非结构化数据分析基本思想通过观察实际值与理论值的偏差来确定理论的正确与否。假设两个变量确实是独立的，然后观察实际值与理论值的偏差程度。如果偏差足够小，认为误差是很自然的样本误差，两者确实独立；如果偏差大到一定程度，使得这样的误差不太可能是偶然产生或者测量不精确所致，认为两者相关。2020/2/12非结构化数据分析那么偏差为：χ2统计量2020/2/12非结构化数据分析χ2统计量2020/2/12非结构化数据分析卡方度量两者(term和类别)独立性的缺乏程度χ2越大，独立性越小，相关性越大若ADBC,则类和词独立,N=A+B+C+D低频词缺陷2020/2/12非结构化数据分析只统计文档中是否出现词条T，却忽略了词条T在文档中出现频率的信息，使得卡方检验对低频词有所偏袒，这就夸大了低频词的作用。如果某一特征只在一类文档中频繁出现，通过卡方法计算出来的卡方统计量很低，在特征选择时这种特征词就会被排除掉，但是这种在少量文档中频繁出现的特征词很有可能对分类的贡献很大，比如专指概念。互信息法(MutualInformation,MI)2020/2/12非结构化数据分析MI越大,特征项t和c共现程度越大(N=A+B+C+D)互信息特点2020/2/12非结构化数据分析MI(t,C)的值越大，t对于C的区分能力越强对同一个类，不同的词项，在同样P(t|C)情况下，相对稀有的t会得到较大的值，即MI受到词条边际概率的影响，从下面的公式中可得：􀂙log(|)log()mjjmjMIpTCpT(&)*loglog()*