数据分析郭现伟数据分析知识点监督学习和非监督学习•监督学习监督学习针对有标签数据集,它通过学习出一个模型(其实就是一个函数)来拟合数据,按照模型(函数)的输出结果是否离散又可以分为两类,分别是:(1)输出结果为离散值,则为分类问题(常见的分类算法:KNN、贝叶斯分类器、决策树、SVM、神经网络、GBDT、随机森林等);(2)输出结果为连续值,则为回归问题(有线性回归和逻辑回归两种)。•无监督学习无监督学习针对没有标签的数据集,它将样本按照距离划分成类簇,使得类内相似性最大,类间相似性最小。通过观察聚类结果,我们可以得到数据集的分布情况,为进一步分析提供支撑。常见的聚类算法有K-means、高斯混合模型和LDA。•如何选择有监督和无监督?1、是否有标签和训练数据2、数据条件是否可改善3、看样本是否独立分布数据分析常用算法数据分析算法•回归算法回归分析是一种预测性的建模技术。它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如:司机的鲁莽驾驶与道路交通事故数量之间的关系;比如股票价格受到利率、GDP等的影响。•分类算法分类是找出数据中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中。例如:淘宝商铺将用户在一段时间内的购买情况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量。•聚类算法聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。针对客户特征进行客户群划分。由此,我们可以对不同客户群采取差异化的促销方式,如:航空客户价值分析。•关联规则算法关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。如:分析发现购买面包的顾客中有很大比例的人同时购买牛奶,由此我们可以将牛奶与面包放在同一个地方回归算法•线性回归使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系。•逻辑回归用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元(1/0,真/假,是/否)变量时,我们就应该使用逻辑回归。•多项式回归对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。如下方程所示:y=a+b*x^2,在这种回归技术中,最佳拟合线不是直线。而是一个用于拟合数据点的曲线。•逐步回归在处理多个自变量时,我们可以使用这种形式的回归。在这种技术中,自变量的选择是在一个自动的过程中完成的,其中包括非人为操作。•岭回顾岭回归分析是一种用于存在多重共线性(自变量高度相关)数据的技术。在多重共线性情况下,尽管最小二乘法(OLS)对每个变量很公平,但它们的差异很大,使得观测值偏移并远离真实值。岭回归通过给回归估计上增加一个偏差度,来降低标准误差。•套索回归它类似于岭回归,Lasso(LeastAbsoluteShrinkageandSelectionOperator)也会惩罚回归系数的绝对值大小。此外,它能够减少变化程度并提高线性回归模型的精度•ElasticNet回归ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时,ElasticNet是很有用的。Lasso会随机挑选他们其中的一个,而ElasticNet则会选择两个。分类算法•朴素贝叶斯分类贝叶斯分类法是基于贝叶斯定定理的统计学分类方法。它通过预测一个给定的元组属于一个特定类的概率,来进行分类。朴素贝叶斯分类法假定一个属性值在给定类的影响独立于其他属性——类条件独立性。•距离判别根据待判定样本与已知类别样本之间的距离远近做出判断.根据已知类别样本信息建立距离判别函数式,再将各待判定样本的属性数据逐一代入式中计算,得到距离值,再根据此将样本判入距离值最小的类别的样本簇.K最近邻算法则是距离判别法中使用最为广泛的,他的思路是如果一个样本在特征空间中的K个最相似/最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别。•决策树决策树是一种简单但广泛使用的分类器,它通过训练数据构建决策树,对未知的数据进行分类。决策树的每个内部节点表示在一个属性上的测试,每个分枝代表该测试的一个输出,而每个树叶结点存放着一个类标号。•在决策树算法中,ID3基于信息增益作为属性选择的度量,C4.5基于信息增益比作为属性选择的度量,CART基于基尼指数作为属性选择的度量。•支持向量机(SVM)支持向量机把分类问题转化为寻找分类平面的问题,并通过最大化分类边界点距离分类平面的距离来实现分类。•神经网络以人脑中的神经网络为启发,历史上出现过很多不同版本,著名的算法是1980年的backpropagation。•K-近邻(KNN)所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居),这K个实例的多数属于某个类,就把该输入实例分类到这个类中。•随机森林随机森林指通过多棵决策树联合组成的预测模型,可以对样本或者特征取bagging。聚类算法•K-Means(K均值)聚类是一种典型的划分聚类算法,它用一个聚类的中心来代表一个簇,即在迭代过程中选择的聚点不一定是聚类中的一个点,该算法只能处理数值型数据K-Means算法的思想很简单,对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。•高斯混合模型聚类(GMM)GMM利用高斯概率密度函数来量化事物,将事物分解为若干高斯分布的模型。将观测点数据及的分布,看做多个单一的高斯分布模型进行混合,每一个component就是一个聚类的中心。关联规则算法•Priori关联规则最常用、最经典的挖掘频繁项集的算法,核心思想是通过连接产生候选项及其支持度,然后通过剪枝生成频繁项集无法处理连续型数值变量,往往分析之前需要对数据进行离散化。•FP-Tree针对Apriori算法固有的多次扫描事务数据集的缺陷,提出的不产生候选频繁项集的方法。Apriori和FP-Tree都是寻找频繁项集的算法•Eclat算法一种深度优先算法,采用垂直数据表示形式,在概念格理论的基础上利用基于前缀的等价关系将搜索空间划分为较小的子空间•灰色关联法分析和确定各因素之间的影响程度,或是若干个子因素(子序列)对主因素(母序列)的贡献度而进行的一种分析方法神经网络知识点谢谢