基于随机森林的文本分类模型研究

mu5101
2 ℃
2020-01-04

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

基于随机森林的文本分类模型研究张华伟王明文江西师范大学计算机信息工程学院2020/1/4提纲研究背景相关工作随机森林模型实验进一步工作研究背景•泛化能力：设计分类器的中心目标是能够对新样本做出正确的分类，即“泛化能力”。–目前，大多数分类器尽可能地降低同一算法在特定训练样本集上的经验风险----经验风险最小化。•当前做的较好的方法：–统计学习理论：vc维-----svm。–随机森林：误差上界*2/PESDecisionTrees•基本思想：Divide-and-Conquer•基本算法（贪心算法）–自上而下分而治之的方法–开始时，所有的数据都在根节点–所有记录用所选属性递归的进行分割–属性的选择是基于一个启发式规则或者一个统计的度量(如,informationgain)•集成机器学习起源于Hebb对于神经细胞工作方式的假设：信息加工是由神经集合体共同完成的.•1990年，Schapire证明了一个关键定理：一个学习方法可以提升为强可学习的充要条件是其为弱可学习•由此，派生了弱分类器的概念，即，比随机猜想稍好的分类器。它告诉我们：多个弱分类器可以集成为一个强分类器。集成机器学习•几乎所有成功的决策树集成都用了随机模型•应用随机的主要目的是离散化模型•各模型结果的集成比单个模型的预测精度要好集成机器学习•给定K个分类器和随机向量x、y，定义边缘函数（mg）如下：–其中，I(•)是示性函数。该边缘函数刻画了对向量X正确分类y的平均得票数超过其它任何类平均得票数的程度。可以看出，边际越大分类的置信度就越高。•于是，分类器的泛化误差定义如下：随机森林和其理论背景(,)(())max(())kkjykkmgxyavIhxyavIhxj*,((,)0)xyPEPmgxy•将上面的结论推广到随机森林。–边缘函数如下：–随着树的数目增加，趋向于()(,)kkhXhX(,)((,))max((,))jYmrxyPhxyPhxj（1）*PE,(((,))max((,))0)xyjYPphxyphxj（2）•分类器的强度•假设，根据切比雪夫不等式，（1）,（2）可以得到：{(,)}hX,(,)XYsEmrxy（3）0s*2var()/PEmrs（4）•根据引文[6]可知：•于（4）、（5）我们可以得到以下结论：随机森林的泛化误差上界22var()(())var()1mrEsdEs（5）*22(1)/PEss集成学习的文本分类过程新文本预处理训练文本预处理特征项抽取训练文本再处理构造集成分类器训练过程分类过程分类结果同集成分类器权重组合成最终结果计算集成分类器权重集成学习的文本分类算法*1212**1*101011lg1.()::Pr:1.,10:12.3.4.(max&){1111)0,(,,,),,2)1,2,TkkTAorithmWRFATRocessTTTTTMMMMMwhilekxkxxMxnnnxk输入训练集输出集成分类器把训练集分成（）在上构造集成分类器Ｒ将作为Ｒ的输入对它进行分类并且得到分类距阵令，用冥法迭代求出的最大特征向量。命*1*;,}.kkkkkxxMxxR5将和Ｒ结合，既集成分类器试验设计及初步结果•文档集：Reuters-21578，共135类，保留训练集和测试集都有正例的90个类。•文档类别分布不均匀，最多时一篇文档属于14个类。•类别矩阵构造：否则类篇文档属于第第01212222111211jiyyyyyyyyyyYijmnmmnn•特征提取：统计。•权重：LTC权重。•性能指标：宏平均F1和微平均F12Reuters-21578上特征维数下的微平均和宏平均指标•各模型在Reuters-21578上前10类性能比较进一步工作•进一步完善实验,并将在中文数据上•采用群组决策特征根法，研究集成分类器的权重。