课内实验报告课程名:数据仓库与数据挖掘任课教师:专业:学号:姓名:二○一五至二○一六年度第二学期南京邮电大学管理学院《数据仓库与数据挖掘》课程实验第3次实验报告实验内容及基本要求:实验项目名称:分类挖掘任务的实践实验类型:综合型每组人数:1实验内容及要求:运用数据挖掘中的经典分类算法——ID3完成贷款审批分析和电信客户流失分析,并运用一元线性回归分析模型对黄瓜的销量进行预测。实验结果:实验一:分类挖掘在电信客户流失中的应用读excel文件,对excel文件中的缺失值进行删除操作,使得原excel中的客户记录减至131条,选择分类型决策树操作,选择“流失”为因变量,“学历”“工龄”“年龄”“互联网”“手机支付”“来点显示”“收入”为自变量,最后将实验结果输出成excel文件,对excel文件进行行操作,删除“流失”不等于PRODICT.class的行,最终得到106条记录。分析:使用分类型决策树能较好得进行决策,判断用户记录是否流失。在决策树中,橘色代表是,深色代表否,我们比较关心橘色或深色所占比例大的规则。规则1:框中完全是深色,表示流失可能性为0,在决策树中,这些人的属性为工龄19.5,年龄32.5,收入23.5,在记录中共有5条这样的记录,没有客户流失。规则2:橙色占较大比例,代表流失的可能性大。在决策树中,这些人的属性为工龄19.5,29.5=收入35,在记录中共有8条记录。其中7条记录不流失。规则3:深色占较大比例,代表不流失的可能性大。在决策树中,这些人的属性为工龄=19.5,在记录中共有32条记录,其中28条记录流失。实验二:回归分析读文本文件,对文本文件进行线性回归,选择price为自变量,weigh为因变量,得到线性回归结果,使用这个线性回归结果对预测进行控制,再读入一个文本文件,选择预测操作,将预测结果输出为一个文本文件。分析:由线性回归的表可以看出,自由变量个数为1,TTS=TTE+TTR,由第一个表可以看出,weigh=210.44-157.78price为拟合曲线,p检验为4.34E-6的值接近于0,由此看出拟合的结果比较符合实际,T=R+E,对R和P进行p检验,p检验的值均接近于0。Multipler-squared=R/T,所以,error的误差较少,实际值与拟合值相近。成绩评定:该生对待本次实验的态度□认真□良好□一般□比较差。本次实验的过程情况□很好□较好□一般□比较差对实验结果的分析□很好□良好□一般□比较差文档书写符合规范程度□很好□良好□一般□比较差综合意见:成绩指导教师签名日期2016.5.18