特征工程及XGBoost模型

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

特征工程及XGBoost模型1许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01)文献解读目录CONTENTS特征工程1XGBoost模型2第一部分特征工程许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01)引入文献解读3特征工程数据决定了机器学习的上限,而算法只是尽可能逼近这个上限!许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01)3.1相关概念文献解读3特征工程定义目的作用是把原始数据转变为模型的训练数据的过程获取更好的训练数据特征,使得机器学习模型逼近这个上限使模型的性能得到提升在机器学习中占有非常重要的作用构成特征构建特征提取特征选择许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01)3.2特征构建文献解读3特征工程特征构建:是指从原始数据中人工的找出一些具有物理意义的特征。方法:经验、属性分割和结合操作:使用混合属性或者组合属性来创建新的特征,或是分解或切分原有的特征来创建新的特征许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01)3.3特征提取文献解读3特征工程提取对象:原始数据(特征提取一般是在特征选择之前)提取目的:自动地构建新的特征,将原始数据转换为一组具有明显物理意义(比如几何特征、纹理特征)或者统计意义的特征。常用方法降维方面的PCA、ICA、LDA等图像方面的SIFT、Gabor、HOG等文本方面的词袋模型、词嵌入模型等许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01)3.3.1降维文献解读3.3特征提取—主要方法1.PCA(PrincipalComponentAnalysis,主成分分析)PCA是降维最经典的方法,它旨在是找到数据中的主成分,并利用这些主成分来表征原始数据,从而达到降维的目的。PCA的思想是通过坐标轴转换,寻找数据分布的最优子空间。对样本数据进行中心化处理求样本协方差矩阵对协方差矩阵进行特征值分解,将特征值从大到小排列取特征值前n个最大的对应的,这样将原来m维的样本降低到n维步骤许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01)3.3.1降维文献解读3.3特征提取—主要方法2.ICA(IndependentComponentAnalysis,独立成分分析)ICA独立成分分析,获得的是相互独立的属性。ICA算法本质寻找一个线性变换z=Wx,使得z的各个特征分量之间的独立性最大。PCA对数据进行降维ICA来从多个维度分离出有用数据步骤PCA是ICA的数据预处理方法许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01)3.3.2图像特征提取文献解读3.3特征提取—主要方法1.SIFT特征优点:具有旋转、尺度、平移、视角及亮度不变性,有利于对目标特征信息进行有效表达;SIFT特征对参数调整鲁棒性好,可以根据场景需要调整适宜的特征点数量进行特征描述,以便进行特征分析。缺点:不借助硬件加速或者专门的图像处理器很难实现。疑似特征点检测去除伪特征点特征点梯度与方向匹配特征描述向量的生成步骤许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01)3.3.2图像特征提取文献解读3.3特征提取—主要方法2.HOG特征方向梯度直方图(HOG)特征是2005年针对行人检测问题提出的直方图特征,它通过计算和统计图像局部区域的梯度方向直方图来实现特征描述。归一化处理计算图像梯度统计梯度方向特征向量归一化生成特征向量步骤许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01)3.3.3文本特征提取文献解读3.3特征提取—主要方法1.词袋模型将整段文本以词为单位切分开,然后每篇文章可以表示成一个长向量,向量的每一个维度代表一个单词,而该维度的权重反映了该单词在原来文章中的重要程度采用TF-IDF计算权重,公式为TF-IDF(t,d)=TF(t,d)×IDF(t)TF(t,d)表示单词t在文档d中出现的频率IDF(t)是逆文档频率,用来衡量单词t对表达语义所起的重要性,其表示为:许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01)3.3.3文本特征提取文献解读3.3特征提取—主要方法2.N-gram模型将连续出现的n个词(n=N)组成的词组(N-gram)作为一个单独的特征放到向量表示,构成了N-gram模型。另外,同一个词可能会有多种词性变化,但却具有相同含义,所以实际应用中还会对单词进行词干抽取(WordStemming)处理,即将不同词性的单词统一为同一词干的形式。许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01)3.4特征选择文献解读3特征工程特征选择(featureselection):从给定的特征集合中选出相关特征子集的过程。相关特征•对当前学习任务有用的属性或者特征无关特征•对当前学习任务没用的属性或者特征原因:维数灾难问题;去除无关特征可以降低学习任务的难度,简化模型,降低计算复杂度目的:确保不丢失重要的特征许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01)文献解读3.4特征选择模型性能•保留尽可能多的特征,模型的性能会提升•但同时模型就变复杂,计算复杂度也同样提升计算复杂度•剔除尽可能多的特征,模型的性能会有所下降•但模型就变简单,也就降低计算复杂度VS许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01)文献解读3.4特征选择—三类方法过滤式(Filter):先对数据集进行特征选择,其过程与后续学习器无关,即设计一些统计量来过滤特征,并不考虑后续学习器问题包裹式(Wrapper):就是一个分类器,它是将后续的学习器的性能作为特征子集的评价标准嵌入式(Embedding):是学习器自主选择特征许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01)3.4.1过滤式原理:先对数据集进行特征选择,然后再训练学习器特征选择过程与后续学习器无关也就是先采用特征选择对初始特征进行过滤,然后用过滤后的特征训练模型优点:计算时间上比较高效,而且对过拟合问题有较高的鲁棒性缺点:倾向于选择冗余特征,即没有考虑到特征之间的相关性文献解读3.4特征选择—三类方法特征维度过多,模型假设过于复杂,参数过多,训练数据过少,噪声过多,导致拟合的函数完美的预测训练集,但对新数据的测试集预测结果差。过度的拟合了训练数据,而没有考虑到泛化能力。许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01)3.4.1过滤式—主要方法1、Relief方法定义:RelevantFeatures是一种著名的过滤式特征选择方法。该方法设计了一个相关统计量来度量特征的重要性。该统计量是一个向量,其中每个分量都对应于一个初始特征。特征子集的重要性则是由该子集中每个特征所对应的相关统计量分量之和来决定的。最终只需要指定一个阈值k,然后选择比k大的相关统计量分量所对应的特征即可。也可以指定特征个数m,然后选择相关统计量分量最大的m个特征。Relief是为二分类问题设计的,其拓展变体Relief-F可以处理多分类问题。文献解读3.4特征选择—三类方法许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01)3.4.1过滤式—主要方法2、方差选择法先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。3、相关系数法先要计算各个特征对目标值的相关系数以及相关系数的P值。4、卡方检验检验定性自变量对定性因变量的相关性。假设自变量有N种取值,因变量有M种取值,考虑自变量等于i且因变量等于j的样本频数的观察值与期望的差距,构建统计量:22(AE)XE文献解读3.4特征选择—三类方法许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01)3.4.1过滤式—主要方法5、互信息法概念:经典的互信息也是评价定性自变量对定性因变量的相关性的。为了处理定量数据,最大信息系数法被提出。互信息计算公式如下:(,)(X;Y)(,)log()()xXyYpxyIpxypxpy文献解读3.4特征选择—三类方法许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01)3.4.2包裹式原理:包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价原则。其目的就是为给定学习器选择最有利于其性能、量身定做的特征子集。优点:直接针对特定学习器进行优化,考虑到特征之间的关联性,因此通常包裹式特征选择比过滤式特征选择能训练得到一个更好性能的学习器缺点:由于特征选择过程需要多次训练学习器,故计算开销要比过滤式特征选择要大得多。文献解读3.4特征选择—三类方法许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01)3.4.2包裹式—主要方法LasVegasWrapper是一个典型的包裹式特征选择方法。使用随机策略来进行子集搜索,并以最终分类器的误差作为特征子集的评价标准。由于LVW算法中每次特征子集评价都需要训练学习器,计算开销很大,因此它会设计一个停止条件控制参数T。但是如果初始特征数量很多、T设置较大、以及每一轮训练的时间较长,则很可能算法运行很长时间都不会停止。1.LVW使用一个基模型来进行多轮训练,每轮训练后,消除若干权值系数的特征,再基于新的特征集进行下一轮训练。2.递归特征消除法文献解读3.4特征选择—三类方法许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01)3.4.3嵌入式原理:嵌入式特征选择是将特征选择与学习器训练过程融为一体,两者在同一个优化过程中完成的。即学习器训练过程中自动进行了特征选择。常用的方法包括:利用正则化,如L_1,L_2范数,主要应用于如线性回归、逻辑回归以及支持向量机(SVM)等算法;优点:降低过拟合风险;求得的w会有较多的分量为零,即:它更容易获得稀疏解。使用决策树思想,包括决策树、随机森林、GradientBoosting等。文献解读3.4特征选择—三类方法正则化方法即为在此时向原始模型引入额外信息,以便防止过拟合和提高模型泛化性能的一类方法的统称,许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01)3.4.3嵌入式—主要方法在Lasso中,λ参数控制了稀疏性:如果λ越小,则稀疏性越小,被选择的特征越多相反λ越大,则稀疏性越大,被选择的特征越少在SVM和逻辑回归中,参数C控制了稀疏性:如果C越小,则稀疏性越大,被选择的特征越少如果C越大,则稀疏性越小,被选择的特征越多常见的嵌入式选择模型:文献解读3.4特征选择—三类方法许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01)文献解读3.5特征提取VS特征选择项目特征提取特征选择共同点都从原始特征中找出最有效的特征都能帮助减少特征的维度、数据冗余区别强调通过特征转换的方式得到一组具有明显物理或统计意义的特征有时能发现更有意义的特征属性从特征集合中挑选一组具有明显物理或统计意义的特征子集能表示出每个特征对于模型构建的重要性许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01)文献解读4XGBoostXGBoost简介:XGBoost是陈天奇等人开发的一个开源机器学习

1 / 39
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功