《数据科学》课程期末复习资料《数据科学》课程讲稿章节目录:第一章导论第一节了解数据科学的基本概念第二节了解数据科学的应用第三节了解数据科学的过程第四节掌握数据科学的方法第二章数据获取及预处理第一节了解获取数据的途径和方法第二节掌握数据质量检验的方法第三节掌握数据清洗第四节掌握数据集成第五节掌握数据规约第六节掌握数据变换第三章数据分析第一节了解探索性数据分析的概念第二节掌握单变量分析方法第三节掌握多变量分析方法第四节掌握样本相似性与相异性分析的方法第四章特征工程第一节了解特征的介绍和创建过程第二节了解降维的基本概念第三节掌握主成分分析-PCA第四节掌握奇异值分解-SVD第五节了解特征选择的基本概念第六节掌握过滤式方法第七节了解产生特征子集的搜索策略第八节了解封装式方法第九节了解嵌入式方法第五章关联规则算法第一节了解关联规则的基本概念第二节掌握频繁项集的产生过程第三节掌握Apriori算法第六章分类算法第一节了解分类问题基本概念第二节掌握k近邻算法第三节了解贝叶斯定理第四节掌握朴素贝叶斯第五节了解决策树的基本概念第六节了解决策树-特征选择第七节了解决策树-剪枝算法第七章线性回归算法第一节了解线性回归的基本概念第二节掌握一元线性回归第三节掌握多元线性回归第八章人工神经网络第一节了解神经网络的基本概念第二节掌握感知机的学习算法第三节掌握多层感知机-反向传播算法第九章聚类算法第一节了解聚类问题的介绍第二节掌握层次聚类第三节掌握K-means聚类第四节了解BFR聚类一、客观部分:(单项选择、判断)(一)、选择部分1、通过构造新的指标-线损率,当超出线损率的正常范围,则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的(C)A.简单函数变换B.规范化C.属性构造D.连续属性离散化★考核知识点:数据变换参见讲稿章节:2-6附1.1.1(考核知识点解释):数据变换是对数据进行规范化处理,将数据转换成“适当的”形式,更适用于任务及算法需要。包括简单函数变换、规范化、属性构造、连续属性离散化等。简单函数变换:对原始数据进行某些数学函数变换,常用来将不具有正态分布的数据变换成具有正态分布的数据。比如个人年收入的取值范围为10000元到10亿元,区间太大使用对数变换对其进行压缩是常用的一种变换处理方法。规范化:不同评价指标具有不同的量纲,数值间的差别可能很大。为了消除量纲和差异的影响,需要进行标准化处理。将数据按照比例进行缩放,落入特定区域,便于进行综合分析。例如将工资收入属性值映射到[-1,1]或者[0,1]内属性构造:利用已有的属性集构造新的属性,加入到现有的属性集合,提高结果精度,挖掘更深层次模式。连续属性离散化:在数据的取值范围内设定若干个离散的划分点,将取值范围划分为一些离散化的区间,最后用不同的符号或整数值代表落在每个子区间中的数据值。2、实体识别属于以下哪个过程(B)A.数据清洗B.数据集成C.数据规约D.数据变换★考核知识点:数据集成参见讲稿章节:2-4附1.1.2(考核知识点解释):数据集成是将多个数据源合并,存放在一个一致的数据存储(如数据仓库)中。数据集成是数据预处理的一部分。数据预处理通常包括数据清洗、数据集成、数据规约和数据变换。其中:数据清洗一般包括缺失值处理和异常值处理。数据集成一般包括实体识别和冗余属性识别。数据规约一般包括属性规约和数值规约。数据变换一般包括简单函数变换、规范化、属性构造等。3、数据质量检验的主要任务就是检查原始数据中是否存在“脏数据”,概括性来说,脏数据不包括以下(A)A.普通值B.异常值C.不一致的值D.重复值★考核知识点:数据质量检验参见讲稿章节:2-2附1.1.3(考核知识点解释):对于数据分析而言,只有一份高质量的基础数据,才可能得到正确、有用的结论。期望数据完美是不现实的,因为会受到人的错误、测量设备的限制、数据收集过程的漏洞等因素影响。比如以下情况都可能导致问题:数据的值、整个数据对象都可能会丢失,可能有不真实的或重复的对象,可能有不一致的对象。数据质量检验的主要任务就是检查原始数据中是否存在以上的“脏数据”。概括性来说,脏数据主要包括四点:缺失值、异常值、不一致的值、重复值。4、决策树在什么情况下结点需要划分(D)A.当前结点所包含的样本全属于同一类别B.当前属性集为空,或是所有样本在所有属性上取值相同C.当前结点包含的样本集为空D.还有子集不能被基本正确分类★考核知识点:决策树参见讲稿章节:6-5附1.1.4(考核知识点解释):决策树学习算法流程1.构建根结点node,将所有的训练数据都放在根结点。2.选择一个最优特征,按照这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下的最好分类。3.如果这些子集已经能够被基本正确分类,那么构建叶结点,并将这些子集分到所对应的叶结点中。(1)当前结点所包含的样本全属于同一类别a_i,无需划分;结点类别标记为a_i(2)当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;将当前结点标记为叶结点,将其类别设定为该结点所含样本最多的类别(3)当前结点包含的样本集为空,不能划分;将当前结点标记为叶结点,类别设定为其父节点所含样本最多的类别(4)如果还有子集不能被基本正确分类,那么就对这些子集选择新的最优特征,继续对其进行分割构建相应的结点,如此递归地进行下去,直至所有训练数据子集被基本正确分类或者没有合适的特征为止5、系统日志收集的基本特征不包括(D)A.高可用性B.高可靠性C.可扩展性D.高效率★考核知识点:获取数据参见讲稿章节:2-1附1.1.5(考核知识点解释):获取数据就是数据收集,按照确定的数据分析框架,为数据分析提供素材和依据,包括第一手数据(可直接获取的数据)和第二手数据(经过加工整理后得到的数据)。获取数据的途径有很多,我们可以通过系统日志采集、网络数据采集、数据库收集、公开出版物、开放数据平台和市场调查等。其中系统日志收集是公司业务平台每天产生大量日志数据,收集日志数据可以供公司分析系统使用研究,其具有以下基本特征:高可用性、高可靠性、可扩展性。“高可用性”(HighAvailability)通常来描述一个系统经过专门的设计,从而减少停工时间,而保持其服务的高度可用性。“高可靠性”(highreliability)指的是运行时间能够满足预计时间的一个系统或组件。可靠性可以用“100%可操作性”或者“从未失败”这两种标准来表示。一个被广泛应用但却难以达到的标准是著名的“5个9标准”,就是说工作的可靠性要达到99.999%。“可扩展性”可以通过软件框架来实现:动态加载的插件、顶端有抽象接口的认真设计的类层次结构、有用的回调函数构造以及功能很有逻辑并且可塑性很强的代码结构。6、k近邻法的基本要素不包括(C)。A.距离度量B.k值的选择C.样本大小D.分类决策规则★考核知识点:K近邻法参见讲稿章节:6-2附1.1.6(考核知识点解释):K近邻法是一种基于向量空间的分类方法,输入为实例的特征向量,对应于特征空间中的点。K近邻法简单,直观,不具有显式的学习过程。它的基本思想是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。K近邻法的三个基本要素包括:距离度量、k值的选择、分类决策规则。1.距离度量:特征空间中两个实例点的距离是两个实例点的相似程度的反映。K近邻模型的特征空间一般是n维实数向量空间ℝ𝑛,使用的距离是欧式距离,但也可以是其他距离如更一般的𝐿𝑝距离(𝐿𝑝distance)或Minkowski距离(Minkowskidistance)。2.k值的选择:选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。k值减小意味着整体模型变得复杂,容易发生过拟合。选择较大的k值,学习的“近似误差”会增大,“估计误差”会减小,与输入实例较远(不相似)的训练实例也会对预测起作用。k值增大意味着整体模型变得简单。在应用中,k值一般取一个比较小的数值,通常采用交叉验证法来选取最优的k值。3.分类决策规则:k近邻法中的分类决策规则往往是多数表决,即由输入实例的k个邻近的训练实例中的多数类决定输入实例的类。7、一元回归参数估计的参数求解方法不包括(D)。A.最大似然法B.距估计法C.最小二乘法D.欧式距离法★考核知识点:一元线性回归参见讲稿章节:7-1附1.1.7(考核知识点解释):分类问题主要关注于离散型变量,然而在客观世界中普遍存在着连续型变量,因此需要考虑如何对连续型变量之间的关系进行分析。变量之间的关系一般来说可以分为确定性关系与非确定性关系两种。确定性关系是指变量之间的关系可以用函数关系来表达,而另一种非确定性的关系即为所谓的相关关系,例如身高与体重的关系,身高越高通常情况下体重越重,但是同样高度的人,体重却未必相同,与此类似的还有体重、年龄与血压的关系,天气,住房面积,房价与用户用电量的关系等等。这些变量之间的关系是非确定性的,而回归分析就是研究这种相关关系的工具,它可以帮助我们从一个或一组变量取得的值去估计另一个变量的值。一元线性回归中,参数求解方法有以下三种:最大似然法、距估计法和最小二乘法。其中最小二乘法是线性回归问题中常用的参数求解方法,最小二乘法的目标是最小化残差平方和。首先将目标函数分别对𝑤0和𝑤1求导并令导数等于08、下列选项不是BFR的对象是(B)A.废弃集B.临时集C.压缩集D.留存集★考核知识点:BFR聚类参见讲稿章节:9-4附1.1.8(考核知识点解释):BFR聚类是用于处理数据集非常大的k-means变体,用于在高维欧氏空间中对数据进行聚类。它对簇的形状做出了非常强烈的假设:必须正态分布在质心周围。BFR算法的步骤流程:1.簇初始化。随机取k个点,随机抽取一小部分样本并进行聚类,选取一个样本,并随机抽取点,剩下的k-1个点尽可能远离先前选择的点。2.数据文件读入。数据文件中的点按组块方式读入:分布式文件系统中的组块、传统文件分割成的大小合适的组块、每个组块必须包含足够少的点以便能在内存中进行处理。内存中除了输入组块之外还包括其他三种对象:(1)废弃集:由簇本身的简单概要信息组成,簇概要本身没有被“废弃”,它们实际上不可或缺。概要所代表的点已被废弃,它们在内存中除了通过该概要之外已经没有其他表示信息。(2)压缩集:类似于簇概要信息,压缩集中存放概要信息。只存放那些相互接近的点集的概要,而不是接近任何簇的点集的概要。压缩集所代表的点也被废弃,它们也不会显式地出现在内存中。(3)留存集:留存集上的点不能分配给某个簇,留存集上的点不会和某个其他点充分接近而被放到压缩集中,这些点在内存中会与其在输入文件中一样显示存在。9、聚类的主要方法不包括(D)A.划分聚类B.层次聚类C.密度聚类D.距离聚类★考核知识点:聚类的方法参见讲稿章节:9-1附1.1.9(考核知识点解释):聚类是将数据集中的样本划分为若干个通常是不相交的子集,是一种无监督学习方法。给定一组点,使用点之间的距离概念,将点分组为若干簇,以便簇内的成员彼此接近/相似,不同簇的成员不同。通常点位于高维空间中,使用距离测量来定义相似性。聚类的主要方法有:划分聚类、层次聚类、密度聚类。10、以下哪一项不是特征选择常见的方法(D)A.过滤式B.封装式C.嵌入式D.开放式★考核知识点:特征选择参见讲稿章节:4-6附1.1.10(考核知识点解释):从数据集的全部特征中选取一个特征子集的过程被称为特征选择(featureselection)。特征选择常见的方法包括:过滤式方法、封装式方法、嵌入式方法。11、以下哪一项不是特征工程的子问题(D)A.特征创建B.特征提取C.特征选择D.特征识别★考核知识点:特征的介绍和创建参见讲稿章节:4-1附1.1.11(考核知识点解释):特征工程是使用领域知识来基于原始数据创建特征的过程,它是机器学习的基础,是困难且繁杂的。特征工程的