实习生:王漪指导导师:赵昕实习工作总结汇报目录2/23一、当数据遇上挖掘二、文本分类流程三、相关算法四、遇到的困难及解决办法五、数据挖掘利器一、数据遇上挖掘--------------------------------3/23一、数据挖掘解决四类问题--分类4/23描述--分类问题属于预测性的问题--预测结果是类别(类别A、B或C),而不是数字应用--电信行业:根据客户基本信息,预测他会不会离网--银行业:某客户的信用度是好/一般/差,是否批准其贷款请求--。。。--邮件应用:垃圾邮件过滤及邮件自动分类--网页自动分类:基于网页内容分类--。。。结构化数据非/半结构化数据二、数据挖掘解决的四类问题--聚类5/23描述--把一群对象划分为若干组--不属于预测问题--分类与聚类的区别应用--客户细分:选择客户消费行为习惯的若干指标对用户群进行划分:特征相似的用户聚为一类,特征相似度低的聚在不同类。三、数据挖掘解决的四类问题--关联6/23描述--从大量数据中挖掘出数据项之间相互联系的有价值的知识。--一群用户购买了很多产品,哪些产品同时购买的几率比较高?买了A产品的同时买哪个产品的几率比较高?应用--典型的应用:购物篮分析(啤酒与尿布)四、数据挖掘解决的四类问题--预测7/23描述--狭义的预测,不包括之前的分类问题--主要指预测变量的取值为连续数值型数据--e.g.天气预报预测气温、预计下一年度GDP增长率、电信运营商预测收入等解决方法--回归--Y=aX1+bX2+……nXn--一元回归线性回归多元回归非线性回归--逻辑回归(Logistic回归)数据挖掘预测二、文本分类流程--------------------------------9/23步骤概述10/23文本分词特征选择特征加权训练文本集语义映射文本分类器基于词的类别向量基于语义概念的类别向量预处理语义映射单篇文本测试文本集训练模块测试模块基于概念的各项分类参数计算查全率、查准率、F1值性能评估模块文本预处理输出类别python文本预处理12/23分词特征选择&加权--降维:提高分类准确率;提高运行速度语义映射文本-词频矩阵DocumentTermMatrix三、算法--------------------------------13/23一、分类算法(1)决策树KNN(最近邻)SVM(支持向量机)14/23一、分类算法(2)线性可分线性不可分15/23一、分类算法(3)--优缺点及适用情况决策树--由于词条数量大,决策树很庞大,不易生成。KNN--缺点:k值需要自己设定,不能自适应调整,需要大量实验。--样本分布不均衡时,影响分类精度SVM--优点:不容易过拟合--最终决策函数依赖于少量支持向量,与样本空间维数无关,避免了维数灾难。16/23二、其它算法聚类k-means--算法:1.选择k个点作为初始质心;2.将每个点指派到最近的质心;3.重新计算每个簇的质心;4.重复2-3直至质心不发生变化。关联规则Apriori--事务transaction--项集I={网球拍,网球,运动鞋,羽毛球}--求频繁二项集「网球拍,网球」的支持度与置信度--apriori算法--支持度--置信度17/23四、遇到的困难及解决办法--------------------------------18/17一、特征选择VS特征加权特征选择特征加权(10,3,4,20,5)(10,20,4,20,5)19/23二、准确率VS召回率20/23四、数据挖掘利器--------------------------------21/23数据挖掘利器--R柱形图饼图3D图地图文本挖掘谢谢大家!23/23