数据分析资料

毅盖华夏
2 ℃
2019-12-25

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

回归分析1.回归分析的主要内容为：①从一组数据出发，确定某些变量之间的定量关系式，即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。②对这些关系式的可信程度进行检验。③在许多自变量共同影响着一个因变量的关系中，判断哪个（或哪些）自变量的影响是显著的，哪些自变量的影响是不显著的，将影响显著的自变量入模型中，而剔除影响不显著的变量，通常用逐步回归、向前回归和向后回归等方法。④利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的，统计软件包使各种回归方法计算十分方便。在回归分析中，把变量分为两类。一类是因变量，它们通常是实际问题中所关心的一类指标，通常用Y表示；而影响因变量取值的的另一类变量称为自变量，用X来表示。2.回归分析研究的主要问题是：（1）确定Y与X间的定量关系表达式，这种表达式称为回归方程；（2）对求得的回归方程的可信度进行检验；（3）判断自变量X对因变量Y有无影响；（4）利用所求得的回归方程进行预测和控制。3.回归分析步骤：（1）确定回归方程中的解释变量和被解释变量。（2）确定回归模型根据函数拟合方式，通过观察散点图确定应通过哪种数学模型来描述回归线。如果被解释变量和解释变量之间存在线性关系，则应进行线性回归分析，建立线性回归模型；如果被解释变量和解释变量之间存在非线性关系，则应进行非线性回归分析，建立非线性回归模型。（3）建立回归方程根据收集到的样本数据以及前步所确定的回归模型，在一定的统计拟合准则下估计出模型中的各个参数，得到一个确定的回归方程。（4）对回归方程进行各种检验由于回归方程是在样本数据基础上得到的，回归方程是否真实地反映了事物总体间的统计关系，以及回归方程能否用于预测等都需要进行检验。1.拟合优度检验（可决定系数）2.t检验和F检验（P值），模型整体和各自变量系数（5）利用回归方程进行预测。4.t检验和F检验的关系？一元线性回归里t检验和F检验等价，但在多元线性回归里，t检验可以检验各个回归系数显著性，F检验用来检验总体回归关系的显著性。t检验常能用作检验回归方程中各个参数的显著性，而F检验则能用作检验整个回归关系的显著性。各解释变量联合起来对被解释变量有显著的线性关系，并不意味着每一个解释变量分别对被解释变量有显著的线性关系。在一般情形下,t检验与F检验的结果没有必然联系;但当解释变量之间两两不相关时,若所有解释变量的系数均通过t检验,那么回归方程也能通过F检验。聚类分析1.聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中，如SPSS、SAS等。从机器学习的角度讲，簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同，无监督学习不依赖预先定义的类或带类标记的训练实例，需要由聚类学习算法自动确定标记，而分类学习的实例或数据对象有类别标记。聚类是观察式学习，而不是示例式的学习。聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类。聚类分析所使用方法的不同，常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析，所得到的聚类数未必一致。从实际应用的角度看，聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况，观察每一簇数据的特征，集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法（如分类和定性归纳算法）的预处理步骤。2聚类方法特征：（1）聚类分析简单、直观。（2）聚类分析主要应用于探索性的研究，其分析的结果可以提供多个可能的解，选择最终的解需要研究者的主观判断和后续的分析；（3）不管实际数据中是否真正存在不同的类别，利用聚类分析都能得到分成若干类别的解；（4）聚类分析的解完全依赖于研究者所选择的聚类变量，增加或删除一些变量对最终的解都可能产生实质性的影响。（5）研究者在使用聚类分析时应特别注意可能影响结果的各个因素。（6）异常值和特殊的变量对聚类有较大影响当分类变量的测量尺度不一致时，需要事先做标准化处理。3聚类分析缺点：（1）自动发现和告诉你应该分成多少个类——属于非监督类分析方法（2）期望能很清楚的找到大致相等的类或细分市场是不现实的；（3）样本聚类，变量之间的关系需要研究者决定；（4）不会自动给出一个最佳聚类结果；我这里提到的聚类分析主要是谱系聚类（hierarchicalclustering）和快速聚类（K-means）、两阶段聚类（Two-Step）；根据聚类变量得到的描述两个个体间（或变量间）的对应程度或联系紧密程度的度量。4可以用两种方式来测量：1、采用描述个体对（变量对）之间的接近程度的指标，例如“距离”，“距离”越小的个体（变量）越具有相似性。2、采用表示相似程度的指标，例如“相关系数”，“相关系数”越大的个体（变量）越具有相似性。计算聚类——距离指标D(distance)的方法非常多：按照数据的不同性质，可选用不同的距离指标。欧氏距离(Euclideandistance)、欧氏距离的平方(SquaredEuclideandistance)、曼哈顿距离(Block)、切比雪夫距离(Chebychevdistance)、卡方距离(Chi-Squaremeasure)等；相似性也有不少，主要是皮尔逊相关系数了！聚类变量的测量尺度不同，需要事先对变量标准化；聚类变量中如果有些变量非常相关，意味着这个变量的权重会更大欧式距离的平方是最常用的距离测量方法；聚类算法要比距离测量方法对聚类结果影响更大；标准化方法影响聚类模式：变量标准化倾向产生基于数量的聚类；样本标准化倾向产生基于模式的聚类；一般聚类个数在4－6类，不易太多，或太少；5聚类分析方法介绍K-means属于非层次聚类法的一种（1）执行过程初始化：选择（或人为指定）某些记录作为凝聚点循环：按就近原则将其余记录向凝聚点凝集计算出各个初始分类的中心位置（均值）用计算出的中心位置重新进行聚类如此反复循环，直到凝聚点位置收敛为止（2）方法特点通常要求已知类别数可人为指定初始位置节省运算时间样本量大于100时有必要考虑只能使用连续性变量过程特点：处理对象：分类变量和连续变量自动决定最佳分类数快速处理大数据集前提假设：变量间彼此独立分类变量服从多项分布，连续变量服从正态分布模型稳健算法原理：第一步：逐个扫描样本，每个样本依据其与已扫描过的样本的距离，被归为以前的类，或生成一个新类第二步，对第一步中各类依据类间距离进行合并，按一定的标准，停止合并系统聚类（层次聚类）系统聚类的步骤一般是首先根据一批数据或指标找出能度量这些数据或指标之间相似程度的统计量；然后以统计量作为划分类型的依据，把一些相似程度大的变量（或样品）首先聚合为一类，而把另一些相似程度较小的变量（或样品）聚合为另一类，直到所有的变量（或样品）都聚合完毕，最后根据各类之间的亲疏关系，逐步画成一张完整的分类系统图，又称谱系图。其相似程度由距离或者相似系数定义。进行类别合并的准则是使得类间差异最大，而类内差异最小。特点：事先无须知道分类对象的分类结构，而只需要一批地理数据；然后选好分类统计量，并按一定的方法步骤进行计算；最后便能自然地、客观地得到一张完整的分类系统图。判别分析判别分析是根据表明事物特点的变量值和它们所属的类，求出判别函数。根据判别函数对未知所属类别的事物进行分类的一种分析方法。核心是考察类别之间的差异。判别分析不同：判别分析和聚类分析不同的在于判别分析要求已知一系列反映事物特征的数值变量的值，并且已知各个体的分类。DA适用于定类变量（因）、任意变量（自）两类：一个判别函数；多组：一个以上判别函数DA目的建立判别函数检查不同组之间在有关预测变量方面是否有显著差异决定哪个预测变量对组间差异的贡献最大根据预测变量对个体进行分类主要步骤1.数据预处理，2.为衡量数据点间的相似度定义一个距离函数，3.聚类或分组，4.评估输出。数据预处理包括选择数量，类型和特征的标度，它依靠特征选择和特征抽取，特征选择选择重要的特征，特征抽取把输入的特征转化为一个新的显著特征，它们经常被用来获取一个合适的特征集来为避免“维数灾”进行聚类，数据预处理还包括将孤立点移出数据，孤立点是不依附于一般数据行为或模型的数据，因此孤立点经常会导致有偏差的聚类结果，因此为了得到正确的聚类，我们必须将它们剔除。既然相类似性是定义一个类的基础，那么不同数据之间在同一个特征空间相似度的衡量对于聚类步骤是很重要的，由于特征类型和特征标度的多样性，距离度量必须谨慎，它经常依赖于应用，例如，通常通过定义在特征空间的距离度量来评估不同对象的相异性，很多距离度都应用在一些不同的领域，一个简单的距离度量，如Euclidean距离，经常被用作反映不同数据间的相异性，一些有关相似性的度量，例如PMC和SMC，能够被用来特征化不同数据的概念相似性，在图像聚类上，子图图像的误差更正能够被用来衡量两个图形的相似性。将数据对象分到不同的类中是一个很重要的步骤，数据基于不同的方法被分到不同的类中，划分方法和层次方法是聚类分析的两个主要方法，划分方法一般从初始划分和最优化一个聚类标准开始。CrispClustering，它的每一个数据都属于单独的类；FuzzyClustering，它的每个数据可能在任何一个类中，CrispClustering和FuzzyClusterin是划分方法的两个主要技术，划分方法聚类是基于某个标准产生一个嵌套的划分系列，它可以度量不同类之间的相似性或一个类的可分离性用来合并和分裂类，其他的聚类方法还包括基于密度的聚类，基于模型的聚类，基于网格的聚类。评估聚类结果的质量是另一个重要的阶段，聚类是一个无管理的程序，也没有客观的标准来评价聚类结果，它是通过一个类有效索引来评价，一般来说，几何性质，包括类间的分离和类内部的耦合，一般都用来评价聚类结果的质量，类有效索引在决定类的数目时经常扮演了一个重要角色，类有效索引的最佳值被期望从真实的类数目中获取，一个通常的决定类数目的方法是选择一个特定的类有效索引的最佳值，这个索引能否真实的得出类的数目是判断该索引是否有效的标准，很多已经存在的标准对于相互分离的类数据集合都能得出很好的结果，但是对于复杂的数据集，却通常行不通，例如，对于交叠类的集合。