数据挖掘作业答案

bayqmwyc
1 ℃
2020-01-01

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

数据挖掘作业答案第二章数据准备5.推出在[-1,1]区间上的数据的最小－最大标准化公式。解：标准化相当于按比例缩放，假如将在[minA,maxA]间的属性A的值v映射到区间[new_minA,new_maxA]，根据同比关系得：(v-minA)/(v’-new_minA)=(maxA-minA)/(new_maxA-new_minA)化简得：v’=(v-minA)*(new_maxA-new_minA)/(maxA-minA)+new_minA6.已知一维数据集X={-5.0,23.0,17.6,7.23,1.11},用下述方法对其进行标准化：a)在[-1,1]区间进行小数缩放。解：X’={-0.050，0.230，0.176，0.0723，0.0111}b)在[0,1]区间进行最小－最大标准化。解：X’={0,1,0.807，0.437，0.218}c)在[-1,1]区间进行最小－最大标准化。解：X’={-1,1,0.614,-0.126,0.564}d)标准差标准化。解：mean=8.788sd=11.523X’={-1.197,1.233,0.765,-0.135,-0.666}e)比较上述标准化的结果，并讨论不同技术的优缺点。解：小数缩放标准化粒度过大(以10为倍数)，但计算简单；最小-最大值标准化需要搜索整个数据集确定最小最大数值，而且最小最大值的专家估算可能会导致标准化值的无意识的集中。标准差标准化对距离测量非常效，但会把初始值转化成了未被认可的形式。8.已知一个带有丢失值的四维样本。X1={0,1,1,2}X2={2,1,*,1}X3={1,*,*,-1}X4={*,2,1,*}如果所有属性的定义域是[0,1,2]，在丢失值被认为是“无关紧要的值”并且都被所给的定义域的所有可行值替换的情况下，“人工”样本的数量是多少？解：X1“人工”样本的数量为1X2“人工”样本的数量为3X3“人工”样本的数量为9X4“人工”样本的数量为9所以“人工”样本的数量为1×3×9×9＝24310．数据库中不同病人的子女数以矢量形式给出：C={3，1，0，2，7，3，6，4，-2，0，0，10，15，6}a)应用标准统计参数——均值和方差，找出C中的异常点：mean=3.9286sd=4.4153在3个标准差下的阈值：阈值=均值±3*标准差=3.928±3*4.4153=[-9.318，17.174]根据实际情况子女数不可能为负数，所以其范围可缩减为：[0，17.174]C中的异常点有：-2b)在2个标准差下的阈值：阈值=均值±2*标准差=3.928±2*4.4153=[-4.903，12.758]根据实际情况子女数不可能为负数，所以其范围可缩减为：[0，12.758]C中的异常点有：-2,1511．已知的三维样本数据集X：X=[{1，2，0}，{3，1，4}，{2，1，5}，{0，1，6}，{2，4，3}，{4，4，2}，{5，2，1}，{7，7，7}，{0，0，0}，{3，3，3}]。a)在下述条件下用基于距离技术找出异常点：i)距离阈值d≥4，非邻点样本的阈值部分p≥3ii)距离阈值d≥6，非邻点样本的阈值部分p≥2X1X2X3X4X5X6X7X8X9X10X14.58265.19626.16443.74174.12314.123110.48812.23613.742X21.41423.60563.31663.74177.74177.81025.09902.236X32.23613.60564.69045.09908.06235.47723.0X44.69046.40317.14149.27366.08284.690X52.23604.12317.07115.38521.414X62.44956.55746.01.732X78.06235.47723.0X812.1246.928X95.196P(d≥4)P(d≥6)X162X242X351X475X541X653X773X899X983X1031d≥4,p≥3时异常点是X1，X2，X3，X4，X5，X6，X7，X8，X9，X10d≥6,p≥2时异常点是X1，X2，X4，X6，X7，X8，X9第三章数据归约3.特征的值的子集为：10X{2.5,5.6,8.1};11X{7.2,3.4,4.8,6.3}20X{1.6,3.6,4.9};21X{4.3,5.8,7.2,4.8}30X{5.9,6.8,8.3};31X{2.1,1.6,3.1,2.4}Mean(10X)=5.4;V(10X)=7.87;Mean(11X)=5.425;V(11X)=2.8025Mean(20X)=3.367;V(20X)=2.76;Mean(21X)=5.525;V(21X)=1.636Mean(30X)=7;V(30X)=1.47;Mean(31X)=2.3;V(31X)=0.393SE(10X-11X)=211110)(nXVnXV）（=2.820）（2120XXSE=1.153）（3130XXSE=0.767|mean(10X)-mean(11X)|／SE(10X-11X)=0.014|mean(20X)-mean(21X)|／）（2120XXSE=1.872|mean(30X)|-mean(31X)／）（3130XXSE=6.13由上面结果可以看出1X＜2X＜3X5．(a)用最佳分割点对下面的问题进行值的分箱归约i)先排序得I3={1.6，2.1，2.4，3.1，5.9，6.8，8.3}分成两个箱：{{1.6，2.1，2.4，3.1}，{5.9，6.8，8.3}}用均值代替：{{2.3，2.3，2.3，2.3}，{7.0，7.0，7.0}}ii)先排序得X2={2.8，3.1，3.4，4.1，5.8，6.2}分成两个箱：{{2.8，3.1，3.4}，{4.1，5.8，6.2}}用最邻近边界值代替：{{2.8，2.8，3.4}，{4.1，6.2，6.2}}(b)如用近似值归约I3={2.0，2.0，2.0，3.0，6.0，7.0，8.0}误差EI3=0.4+0.1+0.4+0.1+0.1+0.2+0.3=1.6而用均值归约的误差为：E’I3=0.7+0.2+0.1+0.8+1.1+0.2+1.3=4.41.6说明用近似值归约误差比均值小，但因为归约后还有5个值，多于均值的2个值，说明归约数量不如均值归约。X2的计算同上，略第五章统计方法3.由表5-1中的抽样，用简单贝叶斯分类法预测下面样本的类别a){2，1，1}解：P(C=1)=4/7P(C=2)=3/7P(A1=2|C=1)=0出现零概率，为消除该影响，采用拉普拉斯校准，即分类C=1包含4个样本，有0个样本属性A1=2，有2个样本A1=0，有2个样本A1=1。对这三个量使用拉普拉斯校准，假定每组增加一个样本，即有1个样本属性A1=2，有3个样本A1=0，有3个样本A1=1。则得：P(A1=2|C=1)=1/7P(A2=1|C=1)=1/4P(A3=1|C=1)=1/4P(A1=2|C=2)=2/3P(A2=1|C=2)=1/3P(A3=1|C=2)=1/3则P(X|Ci)为：P(X|C=1)=P(A1=2|C=1)*P(A2=1|C=1)*P(A3=1|C=1)=1/112P(X|C=2)=P(A1=2|C=2)*P(A2=1|C=2)*P(A3=1|C=2)=2/27可得P(X|Ci)*P(Ci)：P(X|C=1)*P(C=1)=(1/112)*(4/7)=1/196P(X|C=2)*P(C=2)=(2/27)*(3/7)=2/63所以该样本属于类C=2b){0，1，1}解：P(C=1)=4/7P(C=2)=3/7P(A1=0|C=1)=2/4=1/2P(A2=1|C=1)=1/4P(A3=1|C=1)=1/4P(A1=0|C=2)=0出现零概率，为消除该影响，采用拉普拉斯校准得：P(A1=0|C=2)=1/6P(A2=1|C=2)=1/3P(A3=1|C=2)=1/3则P(X|Ci)为：P(X|C=1)=P(A1=0|C=1)*P(A2=1|C=1)*P(A3=1|C=1)=1/32P(X|C=2)=P(A1=0|C=2)*P(A2=1|C=2)*P(A3=1|C=2)=1/54可得P(X|Ci)*P(Ci)：P(X|C=1)*P(C=1)=(1/32)*(4/7)=1/56P(X|C=2)*P(C=2)=(1/54)*(3/7)=1/126所以该样本属于类C=14.已知一组含X和Y的二维数据集，如下表XY1542.753352.5a)用线性回归方法计算y=α+βx中的参数α和β。b)用相关系数r估计a)中求得的模型的性能。解：a) meanx=3.25 meany=3.1252 11[(?mean)(mean)][(mean)]nnixiyixiiβxyx=-0.6357 meanmeanyxαβ=5.3786b)21()nxxixiSxmean=8.7521()nyyiyiSymean=3.9219相关系数：95.0)/(yyxxSSr表明两个变量间线性关联强负相关，模型有效。第6章聚类分析3.解：（1）MND(A,B)=NN(A,B)+NN(B,A)=1+1=2MND(A,C)=NN(A,C)+NN(C,A)=2+2=4MND(B,C)=NN(B,C)+NN(C,B)=1+2=3A和B比A、B和C具有更高的相似度，A和B为一类，C为一类（2）MND(A,B)=NN(A,B)+NN(B,A)=1+3=4MND(A,C)=NN(A,C)+NN(C,A)=2+4=6MND(B,C)=NN(B,C)+NN(C,B)=1+2=3B和C比B、C和A具有更高的相似度，B和C为一类，A为一类6.a)解：由Rao系数公式：Src(xi,xj)=a/(a+b+c+d)Src(A,B)=2/5Src(A,C)=2/5Src(A,D)=1/5Src(A,E)=2/5Src(A,F)=1/5Src(B,C)=1/5Src(B,D)=2/5Src(B,E)=1/5Src(B,F)=1/5Src(C,D)=1/5Src(C,E)=1/5Src(C,F)=1/5Src(D,E)=0Src(D,F)=1/5Src(E,F)=1/5首先取相似性最大2/5合并样本{A，B，C，D，E}，第二步依据较小相似度1/5合并F，算法完成。b)由SMC系数公式：SSMC(xi,xj)=(a+b)/(a+b+c+d)SSMC(A,B)=3/5SSMC(A,C)=4/5SSMC(A,D)=2/5SSMC(A,E)=3/5SSMC(A,F)=2/5SSMC(B,C)=2/5SSMC(B,D)=4/5SSMC(B,E)=1/5SSMC(B,F)=2/5SSMC(C,D)=3/5SSMC(C,E)=2/5SSMC(C,F)=3/5SSMC(D,E)=0SSMC(D,F)=3/5SSMC(E,F)=2/5首先取相似度最大4/5合并{A,C},{B,D};第二步，取2/5合并{E,F};第三步，取0合并所有。FACBDE4/52/50FABCDE2/51/57.解：计算类的重心：M1={(1+2)/2,(0+1)/2}={3/2，1/2}M2={(0+3)/2,(1+3)/2}={3/2，2}计算类内误差和总体方差：e12=[(1-3/2)2+(0-1/2)2]+[(2-3/2)2+(1-1/2)2]=1e22=[(0-3/2)2+(1-2)2]+[(3-3/2)2+(3-2)2]=6.5E2=e12+e22=7.5计算重心M1和M2到各样本点的距离：221/211(,)(0.50.5)0.71dMX21(,)2.06dMX11XC12(,)1.58dMX2221(,)1.8dMXXC13(,)0.71dMX2331(,)1.12dMXXC14(,)2.92dMX