数据挖掘实验报告

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据挖掘实验报告一、实验名称:有线电视服务销售(C&R树)二、实验目的1、学习和了解数据挖掘的基础知识,学会使用SPSSClementine软件进行数据挖掘分析。2、掌握数据挖掘过程的一般流程。三、实验数据分类和回归树节点(C&R树)是一种基于树的分类和预测方法,此方法使用递归分区将训练记录分割为多个具有相似输出字段值的段。本示例将C&R树应用于某市场研究,其中的目标字段为有意预订有线电视交互服务。预测变量字段包括年龄、性别、教育、收入类别、每天看电视的时间和子女数(按有序集合编码,因为值8表示8个或更多)。此示例使用名为newschancart.str的流,该流引用名为NewsChan.sav的数据文件。这些文件可在任何ClementineClient安装程序的Demos目录中找到。此目录可通过Windows“开始”菜单的Clementine程序组进行访问。文件newschancart.str位于Base_Module目录下。四、实验过程1.在Demos文件夹中添加指向NewsChan.sav的SPSS文件源节点,为流添加类型节点。2.在“类型”选项卡中,单击读取值以将字段实例化。选择NEWSCHAN并将其类型设置为标志,将其方向设置为输出。其他所有字段用作预测变量(输入)。单击确定。3.将C&R树节点连接到类型节点。在“模型”选项卡上,选择启动交互会话作为构建选项。这样,在执行节点时将启动“交互树”窗口,通过该窗口可以在生成模型之前生成并编辑树。4.在“专家”选项卡上选择专家模式并选择修剪树和使用标准误规则。将最小杂质改变值设置为0.003。增加此值可避免进行改进意义十分微小的分割,从而倾向于生成较简单的树。5.要指定停止标准,可在“专家”选项卡上单击停止。在“停止标准”对话框中选择使用绝对值。将最小绝对临界值更改为25和10,然后单击确定。6.执行节点。此时将出现交互树窗口,在其中可以生成并编辑树。最初,仅显示根节点。统计指出训练数据中有442条记录。由于树已展开,所有记录将落入此节点。在整个示例中,有215个记录对预订的响应为是,其总响应率接近49%。使用树模型,我们可以尝试是否能够通过找到最有可能作出积极响应的子组来提高此匹配率。7.在“查看器”选项卡中,选择根节点(如果尚未选中),然后从菜单中选择:树生成树和修剪8.生成的树具有五层和五个终端节点。(要查看整个树,可单击减小缩放按钮或单击工具栏右侧的树映射窗口按钮。)如果尚未选中修剪选项,则树可能会复杂得多。修剪操作基于成本复杂性算法,此算法可根据终端节点数调整风险评估。9.放大前几个节点,可以看到第一个节点是按年龄进行分割的,第二个节点是按收入进行分割的。查看节点2,可以看到只要将样本限制在年龄超过40.5岁的用户,就可以将响应率增加到近68%。10.对于年龄低于40岁的用户,响应率较之非常低,但在此响应率较低的树分支的节点4之下,显示出即使对于此组,也可以将其分割成若干个响应率提高了35%(年龄低于40岁的用户的总响应率)的子组。例如,节点13的匹配率为60%。11.下一步,我们将检查此树的收益表。从收益指数百分比可看出每个节点上给定目标类别的比例与总体比例间的差异有多大。单击交互树窗口底部的收益选项卡检查收益。选择1作为目标类别以查看响应是的收益。与预期的一样,节点2和13显示具有最高的指数(%)值。指数值大于100%的节点表示,通过从这些节点中选择记录而不是从整个样本中随机选择记录,能够有更多的机会找到愿意接受预订的用户。查看此示例中的指数值可看到,节点2在整个示例中具有最高可能的指数值接近140%。这表示,从这些记录中获得积极响应的可能性几乎是随机选择的1.4倍。要查看提升图表,可单击工具栏上的分位数按钮并确保从下拉列表中选中十分位数。此操作可进一步在工具栏中激活“图表”按钮(因为只有在分位数视图中才可查看图表)。单击图表按钮并从相邻的下拉列表中选择提升以查看提升图表。提升图表对表中指数(%)列中的值进行了绘制。此图表将每个增量中具有积极响应的记录的百分比与训练数据集中具有积极响应的记录的总百分比作了比较。12.使用决策树时,共有几个选项可用于生成或导出会话结果。其中两个常用的选项为根据当前树生成模型或根据当前树生成选择节点。这些选项会在下面各节中进行说明。根据当前树生成模型可使用此流生成模型,该模型可根据分配到节点的记录的积极响应率对这些记录进行评分。在交互树窗口的“查看器”选项卡上,从“生成”菜单中选择生成模型。13.此时将出现“生成新模型”对话框。在“生成新模型”对话框中,输入新模型的名称(可选),然后单击确定。该模型位于流工作区中。14.在流工作区中,将生成的NEWSCHAN1模型连接到类型节点。在生成的NEWSCHAN1模型中,单击设置选项卡,选择计算置信度和规则ID,然后单击确定。15.连接表节点并执行流。16.已执行的表中显示了可能接受有线电视服务预订的用户的记录。$R-NEWSCHAN列显示了对这些记录的预测结果。如果某记录显示的值为1,则可以预测该用户对预订的响应为是。如果需要,可将此生成的模型保存到模型选项板上以备将来的数据使用。右键单击流中的NEWSCHAN1模型并选择添加到模型选项板。然后单击模型选项板上的模型并选择保存模型。17.生成选择节点还可以生成选择节点,该节点包括所有落在节点2和13中的记录。然后,可以使用具有新数据的选择节点确定哪些用户最有可能对预订做出积极的响应。在交互树窗口中,按住Ctrl键并单击以选择节点2和13。从“生成”菜单中,选择选择节点。生成的选择节点位于流工作区中。18.该生成的选择节点可根据在交互树窗口中为节点2和13选择的标准来构建表达式。将生成的选择节点连接到流中的类型节点上。将表连接到选择节点并执行该表以查看记录。注意,此次仅选中226个记录而不是原来的442个记录。今后还可将此选择节点应用于其他数据集中;可根据同样的已定义的年龄、收入、教育和性别属性过滤这些新数据。五、实验总结本示例演示了如何在市场研究中应用C&R树节点和决策树来确定那些愿意预订有线电视交互服务的用户。通过使用预测变量,例如年龄、性别、教育、收入类别、每天看电视的时间和子女数,我们可以预测和分类响应以便在商业竞争中获取最高响应率。树模型使用简单,易于理解。系统将构建树并递归分割每个分支直到符合一个或多个停止标准为止。然后,可根据使用的建模方法在每个分割处自动选择最合适的预测变量。下午13:00—17:00度。全体员工都必须自觉遵守工作时间,实行不定时工作制的员工不必打卡。3.1.2.2打卡次数:一日两次,即早上上班打卡一次,下午下班打卡一次。3.1.2.3打卡时间:打卡时间为上班到岗时间和下班离岗时间;3.1.2.4因公外出不能打卡:因公外出不能打卡应填写《外勤登记表》,注明外出日期、事由、外勤起止时间。因公外出需事先申请,如因特殊情况不能事先申请,应在事毕到岗当日完成申请、审批手续,否则按旷工处理。因停电、卡钟(工卡)故障未打卡的员工,上班前、下班后要及时到部门考勤员处填写《未打卡补签申请表》,由直接主管签字证明当日的出勤状况,报部门经理、人力资源部批准后,月底由部门考勤员据此上报考勤。上述情况考勤由各部门或分公司和项目文员协助人力资源部进行管理。3.1.2.5手工考勤制度3.1.2.6手工考勤制申请:由于工作性质,员工无法正常打卡(如外围人员、出差),可由各部门提出人员名单,经主管副总批准后,报人力资源部审批备案。3.1.2.7参与手工考勤的员工,需由其主管部门的部门考勤员(文员)或部门指定人员进行考勤管理,并于每月26日前向人力资源部递交考勤报表。3.1.2.8参与手工考勤的员工如有请假情况发生,应遵守相关请、休假制度,如实填报相关表单。3.1.2.9外派员工在外派工作期间的考勤,需在外派公司打卡记录;如遇中途出差,持出差证明,出差期间的考勤在出差地所在公司打卡记录;3.2加班管理3.2.1定义加班是指员工在节假日或公司规定的休息日仍照常工作的情况。A.现场管理人员和劳务人员的加班应严格控制,各部门应按月工时标准,合理安排工作班次。部门经理要严格审批员工排班表,保证员工有效工时达到要求。凡是达到月工时标准的,应扣减员工本人的存休或工资;对超出月工时标准的,应说明理由,报主管副总和人力资源部审批。B.因员工月薪工资中的补贴已包括延时工作补贴,所以延时工作在4小时(不含)以下的,不再另计加班工资。因工作需要,一般员工延时工作4小时至8小时可申报加班半天,超过8小时可申报加班1天。对主管(含)以上管理人员,一般情况下延时工作不计加班,因特殊情况经总经理以上领导批准的延时工作,可按以上标准计加班。3.2.2.2员工加班应提前申请,事先填写《加班申请表》,因无法确定加班工时的,应在本次加班完成后3个工作日内补填《加班申请表》。《加班申请表》经部门经理同意,主管副总经理审核报总经理批准后有效。《加班申请表》必须事前当月内上报有效,如遇特殊情况,也必须在一周内上报至总经理批准。如未履行上述程序,视为乙方自愿加班。3.2.2.3员工加班,也应按规定打卡,没有打卡记录的加班,公司不予承认;有打卡记录但无公司总经理批准的加班,公司不予承认加班。3.2.2.4原则上,参加公司组织的各种培训、集体活动不计加班。3.2.2.5加班工资的补偿:员工在排班休息日的加班,可以以倒休形式安排补休。原则上,员工加班以倒休形式补休的,公司将根据工作需要统一安排在春节前后补休。加班可按1:1的比例冲抵病、事假。3.2.3加班的申请、审批、确认流程3.2.3.1《加班申请表》在各部门文员处领取,加班统计周期为上月26日至本月25日。3.2.3.2员工加班也要按规定打卡,没有打卡记录的加班,公司不予承认。各部门的考勤员(文员)负责《加班申请表》的保管及加班申报。员工加班应提前申请,事先填写《加班申请表》加班前到部门考勤员(文员)处领取《加班申请表》,《加班申请表》经项目管理中心或部门经理同意,主管副总审核,总经理签字批准后有效。填写并履行完审批手续后交由部门考勤员(文员)保管。3.2.3.3部门考勤员(文员)负责检查、复核确认考勤记录的真实有效性并在每月27日汇总交人力资源部,逾期未交的加班记录公司不予承认。从群体上看,中专毕业生的劣势是阅历较少、知识层次相对不高;优势是学校专业设置大多贴近市场实际、贴近一线需要,且中专毕业生年青、肯吃苦、可塑性强。从个体来说,每位毕业生的优势与长项又各不相同,如有相当一部分毕业生动手操作能力较好;有些学生非常上进,上学期间还同时参加了职业资格考试或自学考试。所以,在实事求是,不弄虚作假的前提下,要特别注意扬长避短,从而在竞争中取得优势,打动聘任者。没有重点和章法的写作易使文章显得头绪不清、条理紊乱。非常热爱市场销售工作,有着十分饱满的创业激情。在××××两年从事现磨现煮的咖啡市场销售工作中积累了大量的实践经验和客户资源。与省内主要的二百多家咖啡店铺经销商建立了十分密切的联系,并在行业中拥有广泛的业务关系。在去年某省的咖啡博览会上为公司首次签定了海外的定单。能团结自己的同事一起取得优异的销售业绩。合理分配自我介绍的时间前文说过,自我介绍一般也就持续1—3分钟,所以应聘者得合理分配时间。常规安排是:第一段用于表述个人基本情况,中段重点谈自己的工作经历或社会实践经验,最后展望下自己的职位理想。但如果自我介绍被要求在1分钟完成,应聘者就要有所侧重,突出最有料的一点。在实践中,有些应聘者试图在短短的时间内吐露自己的全部经历,而有些应聘者则是三言两语就完成了自我介绍,这些都是不明智的做法。突出和应聘职位相关的信息自我介绍的内容不宜太多的停留在诸如姓名、教育经历等部分上,因为面试官可以在应聘者的简历上一目了然地看到这些内容。应聘者应该在自我介绍时选择一至两项跟自己所应聘的职位相关的经历和成绩作简述,以证明自己确实有能力胜任所应聘的工作职位。一个让人更有机会在面试中出彩的方法是在做一段自我介绍后适当停顿。比如在“我曾在大学期间组

1 / 19
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功