第二章数据准备.

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第二章数据准备本章目标:分析原始大型数据集的基本表述和特征。对数值型属性应用不同的标准化技术。了解数据准备的不同技术,包括属性转化。比较去除丢失值的不同方法。构造时间相关数据的统一表达方法。比较不同异常点探测技术。实现一些数据预处理技术。2.1原始数据的表述常见的数据类型:数据挖掘过程的基本对象是数据样本,每个样本都用几个特征来描述,每个特征有不同的类型的值。常见类型:数值型和分类型。数值型的值包括实型变量和整型变量。数值型:其特征是其值有顺序关系和距离关系。分类型:其特征是变量间是否相等,且可用二进制数来表述。基于变量值的变量分类法:连续型变量和离散型变量.连续型变量也称为定量型或度量型变量。可用间隔尺度或比例尺度来衡量。温度尺度属间隔尺度,没有绝对零点。高度、长度和工资属比例尺度,有绝对零点,离散型变量也称为定性型变量。可用名义尺度或有序尺度来衡量。顾客类型标志和邮编属名义尺度,排名属有序尺度。周期变量是一种特殊的离散变量,存在距离关系不存在顺序关系。星期、月属周期变量。基于数据的与时间有关的行为特性的类型:静态数据和动态数据。在数据挖掘初始阶段面对的数据也许有潜在的杂乱性,存在着丢失值、失真、误记录和不适当的样本。因此在必须根据已有的数据甚至是丢失值的数据进行建模。这样就可能避免在挖掘前处理丢失值问题。2.2原始数据的特性另一个问题是必须有处理“非常值”的机制,来消除“非常值”对最终结果的影响,数据可能并不是来自我们假定的总体。异常点是典型的例子。失真的数据、方法上错误的步骤、滥用挖掘工具、模型太理想化、超出各种不确定性和模糊性的数据来源的模型可能导致挖掘方向的错误。因此挖掘不只是简单在应用一系列工具于已知问题,而是一种批判性的鉴定、考查、检查以及评估过程。挖掘过程中一个最关键的步骤是对初始数据集的预备和转换,数据预备有两个中心任务:1.把数据组织成一种标准形式,使其能被挖掘工具和其他基于计算机的工具处理(一个关系表)2.准备数据集使之能得到最佳的挖掘效果1.标准化挖掘中基于n维空间距离计算的方法需要对数据进行标准化处理来达到最佳效果,将数据按比例对应到特定的范围,否则距离测量将会超出平均起来数值更大的那些特征。标准化常用技术:2.3原始数据的转换(1)小数缩放:小数缩放移动小数点,但大多数原始数据保持不变。设缩放区间为[-1,1],其变换公式为:kiviv10/)()('K是保证缩放后的值落在指定区间的最小比例。方法为:在原数据集中选择绝对值最大者,取K使该值绝对值〈1,然后将该因子施加于所有数据进行缩放。(2)最小-最大标准化:小数缩放存在这样一个问题,假设数据集在150到250之间,缩放后数据在0.15到0.25之间,只落在[-1,1]中的一个小的子区间中,为了使值在整个标准区间中有较好的分布,采用最小-最大公式:)))(min())(/(max()))(min()(()('iviviviviv(3)标准差标准化:该方法对距离测量非常有效,但把原数据转化为未被认可的形式。对于特征v,其均值mean(v)和标准差sd(v)由整个数据集计算产生。那么样本I,用下式对其进行转化:)(/))()(()('vsdvmeaniviv例如数据集是v={1,2,3},mean(v)=2,sd(v)=1,则标准化后的新集合为v*={-1,0,1}。2.数据平整对许多挖掘技术来讲,值之间小小的区别并不重要,但可能会降低挖掘过程的性能并影响最终结果。这些值也可认为是同一潜在值的随机变差。因此,有时它对变量的值的平整处理很有用。设样本集合为:{0.93,1.01,1.001,3.02,2.99,5.03,5.01,4.98}平整后的集合为:{1.0,1.0,1.0,3.0,3.00,5.0,5.0,5.0}这个简单转化并没有降低质量,但特征的不同实数值的数目却减少到了3个。在挖掘中特征中不同值的数目的降低意味着数据空间维数的降低,这一点对于基于逻辑的挖掘特别有用。3.差值和比率即使是对特征很小的改变也能显著地提高挖掘的性能。差值和比率可使目标说明得到改进,尤其是应用于输出特征的时候。例如:在生产过程控制中,用最终优化s(t+1)-s(t)的相对改动的目标比优化输出s(t+1)的绝对量相比更加有效。比率是另一种简单的特征转换方法。用s(t+1)/s(t)作为挖掘的输出,而不是s(t+1),这意味着特征的值的增长或减少的水平也能提高挖掘的性能。例如,在医学数据中,病人有两个特征,身高和体重,作为不同诊断的输入参数,许多应用表明,若用体重和身高的加权比的特征进行转换,诊断结果会更好。在大型数据集中,丢失数据某些特征的值是可能,要得到完整的数据案例的子集是困难的,对丢失数据的处理有许多方法,可减少子集,去掉丢失值的样本,或把丢失值补上。2.4丢失数据第一种方法是利用经验手动检查缺省值样本,加入一个合理的、可能的、预期的值。第二种方法是给出了消除丢失值的一个更简单的解决方案,这种方法基于一种形式的、常常是用一些常量自动地替代丢失值。1.用全局常量;2.用特征平均值;3.用属于给定种类的特征的平均值。实际的挖掘应用包括从强时间相关到弱时间相关或者时间无关。对于时间相关的问题需要特殊的数据准备和转换,这一点对挖掘的成功至关重要。例如温度测量值是一个一元时间序列问题,其特点是指定时间的值和它的历史值有联系。该时间序列可表示为:X={t(1),t(2),t(3),….,t(n)}我们的目标是根据特征的以前值预报t(n+1)的值,t(n+1)与以前值真接相关。2.5时间相关数据设时间序列由11个测量值组成:X={t(0),t(1),t(2),t(3),t(4),t(5),t(6),t(7),t(8),t(9),t(10)}△如果时间序列的分析窗口为5,将上面数据重组为一个6个样本的表格,见表1。△如果是预测t(n+j)的值,见表2,j=3。△通常,在后面的进一步预测输出中,更难和更不可靠的是预测。sampleM1M2M3M4M5Nextvalue1t(0)t(1)t(2)t(3)t(4)t(5)2t(1)t(2)t(3)t(4)t(5)t(6)3t(2)t(3)t(4)t(5)t(6)t(7)4t(3)t(4)t(5)t(6)t(7)t(8)5t(4)t(5)t(6)t(7)t(8)t(9)6t(5)t(6)t(7)t(8)t(9)t(10)表1sampleM1M2M3M4M5Nextvalue1t(0)t(1)t(2)t(3)t(4)t(7)2t(1)t(2)t(3)t(4)t(5)t(8)3t(2)t(3)t(4)t(5)t(6)t(9)4t(3)t(4)t(5)t(6)t(7)t(10)表2除了时间序列的标准表格外,有时在应用挖掘技术之前必须对原始数据进行额外的预处理,总结它们的特征。多数情况下,预测t(n+1)-t(n)的差比预测t(n+1)的绝对值作为输出效果更好,同样,t(n+1)/t(n)的比率揭示了变化的百分率,有时用这个比值也能得到更好的结果。在大型数据集中,通常存在着不遵循数据模型的普遍行为样本。这些样本和其他残余部分数据有很大不同或不一致,叫做异常点。异常点可能是由测量误差造成的,也可能是数据固有可变性的结果。例如年龄值在数据库中表现为-1,一个人子女数为25,前者是错误的,而后者是不寻常的,可能录入错误,也可能是真实的。2.6异常点分析一些挖掘算法试图将异常点对最终模式的影响减少到最小,或者是在数据预处理阶段把它清除。要自动去除异常点时必须小心,因为如果去除的是正确数据的话,就会导致重要隐藏信息的丢失。例如,在检测银行交易中信用卡欺诈行为时,异常点是可能揭示欺诈行为的典型例子,整个挖掘过程集中在对它们的检测上。最简单的一维异常点检测方法是应用统计学.假定值的分布已知,必须找出基本的统计参数,如均值和方差.在这些值和异常点期望(预测)数目的基础上,建立方差函数阈值是可行的,所有阈值以外的样本都是可能的异常点。阈值=均值±2×标准差第二种方法是基于距离的异常点检测。该方法可用于多维样本。这种算法的基本复杂性在于估计n维数据集中所有样本间的测量距离。如果样本S中至少有一部分数量为p的样本到si的的距离比d大,那么样本si是数据集S中的一个异常样本。

1 / 26
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功