数据挖掘讲义完整版

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

2013年6月3日1软件培训之家激素水平影响因素分析@文彤老师软件培训之家研究背景•在某个消化内科的科研项目中,研究者认为某种激素水平可能会对胃癌的发生有一定的作用,因此设计了此项研究,将病人按照临床病理诊断结果分为对照组和试验组(出现病变组)两组,并采集了如下指标:•性别:男、女。•年龄:除记录实际年龄外,还根据临床研究的习惯,按照45岁、45~59岁、60岁及以上分为青年、中年、老年三组。•上述指标在两组间有大致的配额控制,但并未完全均衡。•此外,对于试验组,还进行了如下实验室检查:•萎缩程度:分为轻、中、重度三级。•胃粘膜细胞肠化生程度:分为无、轻度、中度、重度四级。32013年6月3日2软件培训之家研究背景•研究者希望回答的研究问题如下:•总目标:在控制了其他因素的作用之后,激素水平是否的确在两组间存在差异。•基于目标,又可进一步衍生出如下分目标:•分目标1:激素水平和年龄、性别等有无关联。•分目标2:在试验组中,激素水平和粘膜萎缩程度、肠化生程度等是否有关。4软件培训之家基本研究思路•确定研究问题所从属的统计框架•因变量的影响因素发现与确认?•进一步深入到变量预测问题?•变量间的内在关联结构发现?•元素分组/归类问题?•确定研究设计类型•成组设计?•配对/配伍设计?•更复杂的设计类型,比如嵌套设计?•核心研究指标确定•关键影响因素指标确定5软件培训之家分析思路/商业理解•本例是一个比较典型的要求控制其余影响因素下的两组数据比较。因此从基本思路上应当属于影响因素发现与确认的范畴,绝大多数情况下,此类问题的分析流程如下:•在数据理解的基础上,先进行单个因素对应变量的影响大小分析,对可能需要控制的其他影响因素进行预筛,并提前发现可能和因变量存在曲线关联的连续性自变量,以便后续分析中做出相应的数据准备和建模变换。•根据单因素分析的结果,尝试构建多因素模型,从而在控制其余影响因素的同时,得到分组变量是否对因变量有影响的结论。•继续深入分析,依次回答各个分目标。62013年6月3日3软件培训之家一般线性模型回顾•只研究A因素的影响•如果A因素水平1和2对X的平均水平不同,则应当有α1≠α2•H0:α1=α2•如果各个水平下X的平均水平均无差异,则应当有α1=α2=α3=…=0,此时如果采用适当的参照水平,就有•H0:αi=0,H1:至少有一个αi≠0),0(~,2ijijiijX软件培训之家只研究A因素的影响(全模型)同时考虑A,B两个因素的影响(不考虑交互项)数据可能不符合适用条件时,应当考虑做预处理一般线性模型表达式回顾),0(~,2ijkijkjiijkX9),0(~,2ijkijkjijiijkX2013年6月3日4软件培训之家线性回归模型仍然属于一般线性模型范畴•当考虑X1和X2两个自身变量对因变量Y的影响时:•本质上模型的适用条件是完全相同的10iiiiiexbxbaeyy2211ˆ2211ˆxbxbayei~N(0,2)软件培训之家数据理解•单变量描述•分类变量的频数分布•可以用什么工具?•连续变量的统计描述•可以用什么工具?•基于描述发现了什么问题?•关联强度探索•可选的分析思路有哪些?•如何选择合适的探索工具?122013年6月3日5软件培训之家这天杀的破数据该如何分析?!13软件培训之家:变量变换后分析•常见的变量变换方法•对数转换:可用于服从对数正态分布的资料;部分正偏态资料、等比资料,特别是各组CV相近的资料。•平方根转换(SquareRootTransformation):可用于服从Poisson分布的资料、轻度偏态资料、样本的方差与均数呈正相关的资料以及观察变量为率,取值在0~20%或80~100%的资料。•平方根反正弦转换:可用于原始数据为率,且取值广泛的资料。•平方变换:常用于方差与均数呈反比时或资料呈左偏时。•Box-Cox变换:不推荐使用。•变换的基本原则:能够在保留数据关联的前提下解决分布问题14软件培训之家具体操作•PP图考察分布趋势•如果效果不佳,则尝试其他变换方式•建模后考察残差分布•如果效果不佳,则尝试其他变换方式•简化模型,得到分析结果•失拟检验可以简化操作步骤152013年6月3日6软件培训之家变量变换策略的优缺点•优点•应用最广泛,其结果易于理解•如果找到合适的变换方式,则随后能够使用的分析模型非常丰富•缺点•在许多实际分析案例中,这种“合适的变换方式”可能不存在•变量变换实际上改变了变量间的数量关联趋势,有可能严重扭曲数据原本蕴含的信息•因此相应的分析结果在解释的时候需要比较谨慎17软件培训之家:秩变换分析•优点•适用范围广,样本量充足的情况下均可使用•分析结果更为稳健,不易受极端值影响•缺点•检验效能相对稍低,存在信息损失,不适用于中小样本•而且其分析结果相对没有那么“定量”,毕竟其描述的是影响因素对因变量秩次的作用•使用中需要考虑的问题•是否分组编秩?•是否考虑秩次的分布形状,比如指定为正态?•建模后是否做模型适用条件的诊断?182013年6月3日7软件培训之家:Cox模型•是针对特殊分布的一种特殊应用,不具普遍性•将因变量取值看作“生存时间”,假定所有观测均在该时点出现结局事件,然后对其影响因素做生存数据的建模•在比例风险模型中,假设在时点t个体出现观察结局的风险大小可以分解为两个部分•有一个基本(本底)风险量h0(t),代表没有任何自变量影响下的生存状况•第i个影响因素使得在任意一个时点t的死亡风险从h0(t)增加e(biXi)倍而成为h0(t)*e(biXi)软件培训之家比例风险模型回顾•因此,如果在k个因素同时影响生存过程的情况下,在时点t的风险量(常称为风险率hazardrate或风险函数(hazardfunction))就为:•h(t)=h0(t)e(b1X1)e(b2X2)…e(biXi)•h(t,X)=h0(t)e(b1X1+b2X2+…+bkXk)•上式取对数,移项得•Log[Rh(t)]=Log[h(t,X)/h0(t)]=b1X1+…+bkXk软件培训之家比例风险模型回顾•Log[Rh(t)]=Log[h(t,X)/h0(t)]=b1X1+…+bkXk•h0(t)•表示个体在时点t的基准死亡情况(基础风险函数,为发病密度或死亡密度)。•Betai•与以前相同,可直接理解为Xi的回归系数•β的实际含义是:当变量X改变一个单位时,引起的死亡风险改变倍数的自然对数值212013年6月3日8软件培训之家:Cox模型•优点•完全跳开了变量分布的问题,任何情况都可以应用•缺点•结果很难有直观的解释,比较适合于筛选影响因素,但进一步的定量解释比较难22软件培训之家分析结论•在本案例中,由于统计描述时发现因变量呈偏态分布,因此分别采用变量变换、秩变换分析和Cox模型进行了建模分析,结论一致,如下:•性别、年龄对激素水平未发现有影响,其中后者无论是原始年龄,还是年龄分组均无统计学意义。•试验组和对照组之间的激素水平存在差异,从平均水平看,试验组的激素水平大致为对照组的3倍。242013年6月3日9软件培训之家如果不同方法的分析结论不一致。。。?•如果方法学体系上应当是等价的方法,那么必然其中的某些方法有操作错误•例如:回归分析的结果和方差分析的结果不一致•没有最好的,只有最合适的•投票策略25软件培训之家年6月3日1软件培训之家探讨消费者购买保健品的动机@文彤老师软件培训之家研究背景•大环境:SARS之后新出现的的市场机遇•现状:激烈竞争的市场环境•目标:新产品进入•方法:市场细分•根据产品特点和公司营销能力做重点进攻32013年6月3日2软件培训之家基本研究思路•市场细分/市场机会评估•消费者用于细分市场的主要指标有哪些•整个市场可以被区分为哪些区块,各块的市场容量和特征如何•目标人群确定•同类产品在市场上的覆盖情况如何•发现可进入的细分市场•产品/品牌定位•从营销角度考虑的定位方式4软件培训之家研究的阶段设定•定性研究阶段:通过座谈会与深度访问方式,深入挖掘消费者使用保健产品的动机•定量研究阶段:通过随机抽样方式来了解目标市场消费者基本状况,并对市场进行细分•策略发展阶段:在前两个研究的基础上,根据市场细分结果,通过公司内部分析以及外部竞争分析,来确定公司品的市场定位5软件培训之家定量阶段研究目标的具体化•在所有可被直接测量的购买动机指标背后,究竟代表的是消费者怎样的内在购买需求?•不同保健品品牌的使用者在购买动机上有无明显差异?•基于上述内在购买需求,消费者是否可被分为若干群体?62013年6月3日3软件培训之家研究的阶段目标(细分)应当如何实现?•细分方式如何确定?•人口背景细分、购买行为细分、使用行为细分、生活形态细分。。。•各指标采用何种测量方式?•细分用指标如何确定?•候选指标如何选择?•怎样进行候选指标的进一步筛选?•细分结果如何用于指导实际工作?•有无可供进一步分析的辅助信息需要收集•有无专业知识可用于协助指导分析7软件培训之家研究手段的具体化•细分方向的确定•消费者对养颜产品的使用方式;购买方式;消费者的生活方式;消费者的购买动机等。•细分用变量的确定(这些变量可以从哪里来?)•虽然目前没什么问题,但觉得应该对自己好一点•看到广告的模特很漂亮•看到周围同龄人都在服用•……•量表尺度的确定•变量的出现顺序是否随机化?8软件培训之家如何确定分析用语句?•个人访问/小组讨论方式•生成约150句功能/情感表述语句•语句内容尽量特殊,避免一般化•可以采用阶梯法逼近出真实需求一、定性研究•进行5‐10分的尺度评分•删除分值过于极端,或评分变异过低的受访者数据•删除与整体平均水平有明显差异的语句•利用聚类分析或者因子分析归纳出语句组•对各语句组找出2‐4条最有代表性的语句二、定量研究2013年6月3日4软件培训之家基于分析目标的数据拓展•人口背景资料•婚姻状况、教育水平、个人收入级别。。。•主要使用的保健产品•太太**、乌鸡**、排毒**、阿*、红桃*、脑白*、朵**、其它10软件培训之家基于利益/动机的细分•采用利

1 / 111
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功