数据分析师知识分类总结C1统计基本概念篇1.异常值指什么?请列举1种识别连续型变量异常值的方法?•1)异常值OUTLIER:一组观测值中与平均值的偏差超过两倍标准差的测定值•高度异常的异常值:与平均值的偏差超过三倍标准差的测定值•2)判断异常值的规则:•标准差已知:奈尔(NAIR)检验法•标准差未知:T检验法,格拉布斯(GRUBBS)检验法,风度检验法,狄克逊(DIXON)检验法,偏度检验法•3)盒形图用的比较多箱线图箱线图(或称箱形图)能在同一张图上体现多个距和四分位数,“箱”显示出四分位数和四分位距的位置,“线”则显示出上、下界2.数据标准化技术•(1)总和标准化。分别求出各要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即•(2)2.数据标准化技术3.缺失值处理方法•1)直接丢弃含缺失数据的记录•如:个案剔除法,这种方法却有很大的局限性。它是以减少样本量来换取信息的完备,会造成资源的大量浪费,丢弃了大量隐藏在这些对象中的信息。当缺失数据所占比例较大,特别是当缺数据非随机分布时,这种方法可能导致数据发生偏离,从而得出错误的结论。•2)补缺•A.用平均值来代替所有缺失数据:均值替换法•B.K-最近距离邻居法:先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。•C.用预测模型来预测每一个缺失数据:该方法最大限度地利用已知的相关数据,是比较流行的缺失数据处理技术。如:回归替换法•弊端:•A容易忽视随机误差•B研究者必须假设存在缺失值所在的变量与其他变量存在线性关系4.常用的抽样方法有哪些•1.简单抽样•即简单随机抽样,指保证大小为N的每个可能的样本都有相同的被抽中的概率。•2.系统抽样•将总体中的各单元先按一定顺序排列,并编号,然后按照不一定的规则抽样。其中最常采用的是等距离抽样,即根据总体单位数和样本单位计算出抽样距离(即相同的间隔),然后按相同的距离或间隔抽选样本单位。例如:从1000个电话号码中抽取10个访问号码,间距为100,确定起点(起点<间距)后每100号码抽一访问号码。•3.分层抽样•是把调查总体分为同质的、互不交叉的层(或类型),然后在各层(或类型)中独立抽取样本•4.整群抽样(CLUSTERSAMPLING)(层层深入抽样,不断缩小抽样的范围)5.统计学基础•1)随机变量均值,方差,标准差•2)方差:用来表示分布的散步大小•3)标准差:用σ表示,表示分布散步大小6.常用分布•1)离散变量---二项分布记为b(n,p)•均值:E(x)=np•方差:Var(x)=np(1-p)•标准差:•2)离散变量----泊松分布•3)连续型随机变量---正态分布7.统计定理•中心极限定理•N个相互独立同分布的随机变量X1,X2,……,Xn,均值μ和方差σ都存在,则n较大时,其样本均值服从或近似服从正态分布N(μ,𝜎2𝑛)8假设检验C2机器学习的数学基础•范数:向量的范数可以简单形象的理解为向量的长度,或者向量到坐标系原点的距离,或者相应空间内的两个点之间的距离。•向量的范数定义:向量范数可简单理解为向量的长度,或者向量到坐标系原点的距离,或者相应空间内的两个点之间的距离•向量范数性质:向量范数是一个函数||X||•满足非负性||X||=0,齐次性||CX||=|C|||X||,三角不等式||X+Y||=||X||+||Y||•L1范数:||X||为X向量各个元素绝对值之和。•L2范数:||X||为X向量各个元素平方和的开方,L2范数又称EUCLIDEAN范数或•者FROBENIUS范数•LP范数:||X||为X向量各个元素绝对值P次方和的1/P次方•L∞范数:||X||为X向量各个元素绝对值最大那个元素,如下:各类距离意义与Python实现•闵可夫斯基距离(MinkowskiDistance)---闵式距离•两个n维变量A(x11,x12,…,x1n)与B(x21,x22,…,x2n)间的闵可夫斯基距离定义为:•欧式距离•fromnumpyimport*•vector1=mat([1,2,3])•vector2=mat([4,5,6])•printsqrt((vector1-vector2)*((vector1-vector2).T))•曼哈顿距离•二维平面两点•N维向量•fromnumpyimport*•vector1=mat([1,2,3])•vector2=mat([4,5,6])•printsum(abs(vector1-vector2))•切比雪夫距离(ChebyshevDistance)•fromnumpyimport*•vector1=mat([1,2,3])•vector2=mat([4,7,5])•printabs(vector1-vector2).max()•夹角余弦机器学习中用来衡量样本向量之间的差异fromnumpyimport*cosV12=dot(vector1,vector2)/(linalg.norm(vector1)*linalg.norm(vector2))printcosV12•汉明距离(Hammingdistance)•定义:两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。例如字符串“1111”与“1001”之间的汉明距离为2。fromnumpyimport*matV=mat([[1,1,0,1,0,1,0,0,1],[0,1,1,0,0,0,1,1,1]])smstr=nonzero(matV[0]-matV[1]);printshape(smstr[0])[0]•杰卡德相似系数(Jaccardsimilaritycoefficient)•(1)杰卡德相似系数•两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示•(2)杰卡德距离•特征间的相关性•期望:衡量样本某个特征列取值范围的平均值•方差:衡量样本某个特征列取值范围的离散程度•协方差矩阵和相关系数:衡量样本特征列之间线性相关性•(1)相关系数取值范围[-1,1]•(2)相关距离𝐷XY=1−𝜌XY•fromnumpyimport*•featuremat=mat([[88.5,96.8,104.1,111.3,117.7,124.0,130.0,135.4,140.2,145.3,151.9,159.5,165.9,169.8,171.6,172.3,172.7],•[12.54,14.65,16.64,18.98,21.26,24.06,27.33,30.46,33.74,37.69,42.49,48.08,53.37,57.08,59.35,60.68,61.40]])•#计算均值•mv1=mean(featuremat[0])#第一列的均值mv2=mean(featuremat[1])#第二列的均值•#计算两列标准差•dv1=std(featuremat[0])dv2=std(featuremat[1])•corref=mean(multiply(featuremat[0]-mv1,featuremat[1]-mv2))/(dv1*dv2)•printcorref•#使用numpy相关系数得到相关系数矩阵•printcorrcoef(featuremat)•马氏距离•M个样本向量𝑋1−𝑋𝑚,协方差矩阵记为S,均值为向量𝜇,则其中样本向量X到U的马氏距离表示为:•向量𝑋1与𝑋𝑗之间的马氏距离定义为:•若协方差矩阵是单位矩阵,即各样本向量之间独立同分布,则即为欧式距离•fromnumpyimport*•Featuremat=mat([[88.5,96.8,104.1,111.3,117.7,124.0,130.0,135.4,140.2,145.3,151.9,159.5,165.9,169.8,171.6,172.3,172.7],[12.54,14.65,16.64,18.98,21.26,24.06,27.33,30.46,33.74,37.69,42.49,48.08,53.37,57.08,59.•35,60.68,61.40]])•covinv=linalg.inv(cov(featuremat))•tp=featuremat.T[0]-featuremat.T[1]•distma=sqrt(dot(dot(tp,covinv),tp.T))•printdistma矩阵---空间的变换•矩阵特征值与特征向量𝑨𝒗=𝝀𝒗•A=[[8,1,6],[3,5,7],[4,9,2]]•evals,evecs=linalg.eig(A)•print特征值:,evals,\n特征向量:,evecs•特征值和特征向量还原原矩阵•sigma=evals*eye(m)•printevecs*sigma*linalg.inv(evecs)C3数据挖掘算法篇IEEE数据挖掘国际会议ICDM---十大数据挖掘算法•C4.5---分类决策树算法改进ID3•K-Means---基于划分的聚类算法•SVM---支持向量机•Apriori---关联分析•EM---最大期望(EM)•PageRank---网页排名•AdaBoost---一种迭代算法(分类)•KNN---K邻近分类算法•NaïveBayes---贝叶斯分类算法•CART---分类回归树(CART,CLASSIFICATIONANDREGRESSIONTREE)机器学习分类•机器学习方法主要分为有监督学习(SUPERVISEDLEARNING)和无监督学习(UNSUPERVISEDLEARNING)•监督学习就是分类,通过已有的训练样本去训练得到一个最优模型,然后利用这个最优模型将所有输入映射为相应的输出,对于输出进行判断实现分类,这就对未知数据进行了分类。监督学习中的典型例子是KNN和SVM。无监督学习与监督学习的不同之处,主要是它没有训练样本,而是直接对数据进行建模。典型案例就是聚类了,其目的是把相似的东西聚在一起,而不关心这一类是什么。聚类算法通常只需要知道如何计算相似度就可以了,它可能不具有实际意义。如何选择监控学习还是无监督学习?可以从定义入手,如果在分类过程中有训练样本,则可以考虑采用监督学习的方法,否则不能使用监督学习。数据挖掘模型监督学习分类KNN决策树朴素贝叶斯分类Logistic回归SVM支持向量机回归半监督学习非监督学习聚类分析--Kmeans关联分析—Apriori数据降维【分类】kNN–k最邻近分类算法•思路:如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别•算法步骤:•STEP.1---初始化距离为最大值•STEP.2---计算未知样本和每个训练样本的距离DIST•STEP.3---得到目前K个最临近样本中的最大距离MAXDIST•STEP.4---如果DIST小于MAXDIST,则将该训练样本作为K-最近邻样本•STEP.5---重复步骤2、3、4,直到未知样本和所有训练样本的距离都算完•STEP.6---统计K-最近邻样本中每个类标号出现的次数•STEP.7---选择出现频率最大的类标号作为未知样本的类标号该算法涉及3个主要因素:训练集、距离或相似的衡量、K的大小。优点:简单,易于理解,易于实现,无需估计参数,无需训练;适合对稀有事件进行分类缺点:懒惰算法,对测试样本分类时的计算量大,内存开销大,评分慢;可解释性较差,无法给出决策树那样的规则ROC关注指标AOC(Areaunderroccurve)--度量分类模型好坏的标准•ROC曲线(receiveroperatingcharacteristic)•横坐标---负正类率(falsepostiverateFPR)特异度,划分实例中所有负例占所有负例的比例;(1-Specificity)•纵坐标---真正类率(truepostiverat