常用统计方法与SPSS软件的使用书籍介绍1、张文彤,“SPSS11.0统计分析教程(基础篇、高级篇)”北京希望电子出版社,2002(操作详细,有助于理解模块)2、马庆国,“管理统计”,科学出版社,2005(侧重于理论与实践的结合,分阶段学习容易接受)3、吴明隆,“SPSS统计应用实务”,科学出版社,2003年(适用于社会学、管理学、心理学使用问卷调查的实证研究)其余书籍4、余建英,何旭宏,“数据统计分析与SPSS应用”,人民邮电出版社,2003年5、阮桂海等,“统计应用分析教程——SPSS、LISREL&SAS实例精选”,清华大学出版社,2003年软件使用:SPSS11.5,目前最高版本:SPSS13.0一、量化研究量化研究与质化研究都重视研究的客观性、科学性与数据分析的正确性,这是两种不同的研究派别,量化研究的特征:量化研究注重减少“垃圾进、垃圾出”,研究者通过正确收集数据,选择合适而正确的统计方法,以客观的立场分析数据,使之形成有用的信息,以检验研究假设,进而发现研究结果,整理归纳形成结论。一、量化研究量化研究与质化研究的区别:1、“量”采用逻辑实证主义,将现象背后的原理简化为单一的客观实在,不因人的主观意志而转移(内部动力机制);“质”采用自然现象主义,认为自然和社会是多元的(描述多元的现象)。2、“量”注重变量间必然的因果关系或相关情形,“质”注重变量脉络间关系的诠释和分析。3、“量”重视假设演绎法,“质”注重经验归纳法。4、“量”的研究者保持中立,借助仪器或问卷等收集信息,“质”的研究者一般采用参与性的活动通过互动收集信息。5、“量”的研究重视由受试样本推论到总体,“质”的情景限制推论。二、量的研究步骤选择定义研究问题(设计问卷)研究问题必须是可以检验的、有研究价值或重要的问题方法:通过相关文献的研究分析,挖掘相关研究问题,制定研究主题,草拟研究问题,对于重要的关键词要给予完整解释执行研究程序实施程序包括:样本的选择、测量工具的改进、数据的搜集数据分析检验研究假设、选择合适而正确的统计方法(描述性统计、推断性统计)结果分析与结论根据数据分析的结果,结论应该与最初拟订的假设或研究问题有关,研究结论要指出假设是否得到支持。理论假设概念的操作性定义选取样本调查、相关设计访问或问卷调查实验设计设计实验组事实观察、访问、问卷搜集资料分析资料结果发现例1三、量表的编制变量的属性名义变量:变量分类,如性别、年级、企业性质等(控制性变量)次序变量:方向性,如表示优劣、多少、高低、次序等等距(比率)变量:间距相等、具有可加、可乘性,如经营额、学生成绩、各种财务杠杆等*不同的变量属性,所使用的统计方法也不同,如果设计的变量属性不符合所要求使用的统计方法,会导致统计结果的错误(在回归分析中应该特别注意)例如:多元回归分析的自变量与因变量应该都是“连续变量”,自变量如果是类别变量或次序变量应该首先转换为虚拟变量(与研究相关的变量的矢量方向一致及变量属性一致)。量表编制的原则(如何使用量表将定性问题转换为定量)量表的属性应该是次序变量,但次序变量与名义变量都属于“离散变量”,离散变量无法求平均数或进行相关性统计、回归等分析,因此必须转变成等距的虚拟变量来统计。五点量表法(Liket-fivepoint,李克特):最可靠的方法,适合与一般群体来设计,其好处在于不但能分清矢量的高低程度,而且等确定中心距,以保持变量的内部平衡。七点量表法(Liket-Sevenpoint,李克特):适合与高精确度的问卷设计,一般适合与专家群体,其确定的准确度更高,但如果受试群体没有能力分清这种高精确性的矢量,会导致问卷收集数据的不准确性。非常符合符合有时符合不符合非常不符合54521总是如此时常如此有时如此很少如此从为如此54321非常同意同意不能确定不同意非常不同意54321非常重要重要不能确定不重要非常不重要54321问卷设计:我认为参加在职训练能增进工作效率非常同意□□□□□非常不同意54321你认为安全在你外出旅游中的作用是:1.很不重要2.不重要3.无所谓4.较重要5.很重要例2四、统计与数据挖掘方法论DatabaseODBCInterfaceDatacleaningDatatransformingDataselectingObjectiveDataDataminingModeExplainingMan-machineinteractionDatapreprocessing五、数据处理常用方法将问卷各个题目按照关键字段依次输入EXCEL,形成二维的数据库编号字段1字段2字段3字段4字段5字段6字段7字段8134535245223542534选择合适的方法进行数据库的数据的转换字符性转换为数字性,尽量使用EXCEL强大的转换功能数据的非正常值的转换,如通过查找原始问卷、变量属性的转换数据格式的转换,如spss的强大的Restructure功能(行列转置等)导入SPSS可使用SPSS的OPENDATA文件单选编号1.A1.B1.C1.D2.A2.B2.C2.D2.E11001001112100111101多选2004新生原始数据六、SPSS软件的界面与数据控制接受域拒绝域α=0.05F=3.24Sig.=0.000466F=10.4862信度分析一般用于问卷(试卷)问题测量的稳定性和可靠性ReliablityAnalysis过程通过ALPHA(克郎巴哈系数)来截定α0.9稳定性很好,效果极佳0.9α0.8可以接受,应该做小幅改进0.8α0.7有价值,做部分改进0.6α0.7有价值,做较大改进0.6α应该重新设计注意:如果问卷数量较少,系数可以稍微降低。案例1和2七、常用的统计方法描述性统计——基本的数据分布状况参数假设检验——判别显著性相关分析——判别相关度(线性、非线性)回归——因素确定、因素间关系1、线性回归(多元回归)2、分类资料回归多元统计——因素结构1、聚类分析和判别分析2、因子分析描述性统计常用指标:平均值(Mean)、标准方差(S.D)、最小值(Min)、最大值(Max)、偏度系数(Ske)、峰度系数(Kur)目的:发现基本的数据分布状况,为下一步有针对性的数据分析做准备判断正态分布:偏度系数(Ske)=0、峰度系数(Kur)=3案例3课程体系评价描述性统计我国主要来源城市竞争力分析全国调查上海、苏州调查北京广州调查省内调查市内调查多项选择题分析MultipleResponse菜单只要数据输入没问题,才做更简单案例4均数间的比较(comparemean)——假设检验通过P值来判断P0.05,支持假设H0√P0.05,否定假设H1两个T检验案例一个单因素方差分析案例两种电子商务水平下企业各流程的差异检验相关分析(Bivariate过程、Partial过程)Bivariate过程——通过R值(相关系数)判断因素之间的线性相关程度。0.8R1高度相关0.5R≤0.8显著相关0.3R≤0.5低度相关0R≤0.3弱微相关R=0不相关注意:只有在0.05水平下具有显著作用的关系才具有分析价值案例7Partial过程(协相关分析)核心:因素过多会产生干扰,应该在消除这些干扰因素的情况下进行因素的分析。1、如果发现C变量的消失会导致原来两个变量(A、B)的显著性关系突然变的不显著了,则证明C变量是A、B变量的中间变量,A、B两个变量的相关性主要通过C变量来实现。2、如果C变量的消失没有使A、B变量之间的显著性关系消失,则证明C变量不是A、B变量的中间变量。ABC情况1情况2案例7支持电子商务战略的因素关系案例8多元线性回归适用条件:1、避免共线性(Torerlance,VIF=1/Torerlance10)2、残差独立性(Durbin-watson在2附近)★样本越多越好参差独立性观察:Durbin-watson,参差正态PP图解决:删除强影响点(结合Cook’s等距离计算方法);变量转换:对数、倒数等方法变换:赋予权重(Nonliner)共线性观察:VIF,相关性检验,因子分析解决:增大样本量主成分分析岭回归路径分析(结构方程建模)假设自变量因变量StandardizedCoefficientstSig.CollinearityStatisticsDurbin-Watson结论aToleranceVIFH1战略规划信息系统.6267.320.000(***)1.0001.0002.14接受H2a战略规划供应商就绪.5095.385.000(***)1.0001.0002.06接受H2b代理商就绪.5095.385.000(***)1.0001.0002.06接受H2c客户就绪.1341.233.2211.0001.002.19拒绝H3H4H5a战略规划复合型人力资源.3052.771.007(**).5601.7861.72接受信息系统.2612.366.020(*).5571.796供应商就绪.2342.337.022(*).6791.473H3H4H5b战略规划复合型人力资源.3052.771.007(**).5601.7861.72接受信息系统.2612.366.020(*).5571.796代理商就绪.2342.337.022(*).6791.473H3H4H5c战略规划复合型人力资源.3733.381.001(**).5951.6801.70接受信息系统.3373.087.003(**).6071.648接受客户就绪.025.286.775.9761.025拒绝分类资料回归(Optimalscaling)——在众多因素变量的属性不统一的情况下探索进入方程的变量(只具有借鉴意义,发现基本规律)关键:判断变量的属性等距变量(数值),次序变量(有序多分类),名义变量(无序)案例9话费的影响因素聚类分析聚类方法主要是把没有分类新的资料按照相似程度归类。R聚:对样本进行分类Q聚:对变量进行分类由于我们选用的变量一般是分类变量,为了使聚类更加科学和可靠,我们使用SPSS的系统聚类方法(HierarchicalCluster)。该方法能够通过“距离测量方法”确定合适的测距方法选取合适的聚类中心,然后经过叠代运算得出结论。1、城市旅游形象因素聚类(Q)2、电子商务流程能力的聚类(R)聚类分析K-mean(规定聚类数)根据人为规定的聚类数进行计算HierarchicalCluster(自行迭代计算)根据计算的结果结合专业需要进行判断(冰状图)VerticalIcicleXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXNumberofclusters12345678910111213城市交通经济实力总体印象导游素质景区管理形象促销形象包装资源档次建筑风格文化氛围市民素质城市环境市容卫生服务设施Case案例11旅游形象因素的聚类判别分析(Discriminant)——通过实际大量的数据来帮助判断未来事物的性质优点:建立判别函数的自变量可以是任意测量尺度的,对于数据的属性没有限制,虚拟变量也是可以的。适用条件:1.变量应该是连续型或有序分类变量2.样本来源于多元正态分布(该前提一般做不到,所以不用过多考虑)3.变量独立,无共线性注意事项:变量数量加以控制(N10P,8—10个为佳),可以结合主成分进行分析。Tes