数据挖掘作业答案第二章数据准备5.推出在[-1,1]区间上的数据的最小-最大标准化公式。解:标准化相当于按比例缩放,假如将在[minA,maxA]间的属性A的值v映射到区间[new_minA,new_maxA],根据同比关系得:(v-minA)/(v’-new_minA)=(maxA-minA)/(new_maxA-new_minA)化简得:v’=(v-minA)*(new_maxA-new_minA)/(maxA-minA)+new_minA6.已知一维数据集X={-5.0,23.0,17.6,7.23,1.11},用下述方法对其进行标准化:a)在[-1,1]区间进行小数缩放。解:X’={-0.050,0.230,0.176,0.0723,0.0111}b)在[0,1]区间进行最小-最大标准化。解:X’={0,1,0.807,0.437,0.218}c)在[-1,1]区间进行最小-最大标准化。解:X’={-1,1,0.614,-0.126,0.564}d)标准差标准化。解:mean=8.788sd=11.523X’={-1.197,1.233,0.765,-0.135,-0.666}e)比较上述标准化的结果,并讨论不同技术的优缺点。解:小数缩放标准化粒度过大(以10为倍数),但计算简单;最小-最大值标准化需要搜索整个数据集确定最小最大数值,而且最小最大值的专家估算可能会导致标准化值的无意识的集中。标准差标准化对距离测量非常效,但会把初始值转化成了未被认可的形式。8.已知一个带有丢失值的四维样本。X1={0,1,1,2}X2={2,1,*,1}X3={1,*,*,-1}X4={*,2,1,*}如果所有属性的定义域是[0,1,2],在丢失值被认为是“无关紧要的值”并且都被所给的定义域的所有可行值替换的情况下,“人工”样本的数量是多少?解:X1“人工”样本的数量为1X2“人工”样本的数量为3X3“人工”样本的数量为9X4“人工”样本的数量为9所以“人工”样本的数量为1×3×9×9=24310.数据库中不同病人的子女数以矢量形式给出:C={3,1,0,2,7,3,6,4,-2,0,0,10,15,6}a)应用标准统计参数——均值和方差,找出C中的异常点:mean=3.9286sd=4.4153在3个标准差下的阈值:阈值=均值±3*标准差=3.928±3*4.4153=[-9.318,17.174]根据实际情况子女数不可能为负数,所以其范围可缩减为:[0,17.174]C中的异常点有:-2b)在2个标准差下的阈值:阈值=均值±2*标准差=3.928±2*4.4153=[-4.903,12.758]根据实际情况子女数不可能为负数,所以其范围可缩减为:[0,12.758]C中的异常点有:-2,1511.已知的三维样本数据集X:X=[{1,2,0},{3,1,4},{2,1,5},{0,1,6},{2,4,3},{4,4,2},{5,2,1},{7,7,7},{0,0,0},{3,3,3}]。a)在下述条件下用基于距离技术找出异常点:i)距离阈值d≥4,非邻点样本的阈值部分p≥3ii)距离阈值d≥6,非邻点样本的阈值部分p≥2X1X2X3X4X5X6X7X8X9X10X14.58265.19626.16443.74174.12314.123110.48812.23613.742X21.41423.60563.31663.74177.74177.81025.09902.236X32.23613.60564.69045.09908.06235.47723.0X44.69046.40317.14149.27366.08284.690X52.23604.12317.07115.38521.414X62.44956.55746.01.732X78.06235.47723.0X812.1246.928X95.196P(d≥4)P(d≥6)X162X242X351X475X541X653X773X899X983X1031d≥4,p≥3时异常点是X1,X2,X3,X4,X5,X6,X7,X8,X9,X10d≥6,p≥2时异常点是X1,X2,X4,X6,X7,X8,X9第三章数据归约3.特征的值的子集为:10X{2.5,5.6,8.1};11X{7.2,3.4,4.8,6.3}20X{1.6,3.6,4.9};21X{4.3,5.8,7.2,4.8}30X{5.9,6.8,8.3};31X{2.1,1.6,3.1,2.4}Mean(10X)=5.4;V(10X)=7.87;Mean(11X)=5.425;V(11X)=2.8025Mean(20X)=3.367;V(20X)=2.76;Mean(21X)=5.525;V(21X)=1.636Mean(30X)=7;V(30X)=1.47;Mean(31X)=2.3;V(31X)=0.393SE(10X-11X)=211110)(nXVnXV)(=2.820)(2120XXSE=1.153)(3130XXSE=0.767|mean(10X)-mean(11X)|/SE(10X-11X)=0.014|mean(20X)-mean(21X)|/)(2120XXSE=1.872|mean(30X)|-mean(31X)/)(3130XXSE=6.13由上面结果可以看出1X<2X<3X5.(a)用最佳分割点对下面的问题进行值的分箱归约i)先排序得I3={1.6,2.1,2.4,3.1,5.9,6.8,8.3}分成两个箱:{{1.6,2.1,2.4,3.1},{5.9,6.8,8.3}}用均值代替:{{2.3,2.3,2.3,2.3},{7.0,7.0,7.0}}ii)先排序得X2={2.8,3.1,3.4,4.1,5.8,6.2}分成两个箱:{{2.8,3.1,3.4},{4.1,5.8,6.2}}用最邻近边界值代替:{{2.8,2.8,3.4},{4.1,6.2,6.2}}(b)如用近似值归约I3={2.0,2.0,2.0,3.0,6.0,7.0,8.0}误差EI3=0.4+0.1+0.4+0.1+0.1+0.2+0.3=1.6而用均值归约的误差为:E’I3=0.7+0.2+0.1+0.8+1.1+0.2+1.3=4.41.6说明用近似值归约误差比均值小,但因为归约后还有5个值,多于均值的2个值,说明归约数量不如均值归约。X2的计算同上,略第五章统计方法3.由表5-1中的抽样,用简单贝叶斯分类法预测下面样本的类别a){2,1,1}解:P(C=1)=4/7P(C=2)=3/7P(A1=2|C=1)=0出现零概率,为消除该影响,采用拉普拉斯校准,即分类C=1包含4个样本,有0个样本属性A1=2,有2个样本A1=0,有2个样本A1=1。对这三个量使用拉普拉斯校准,假定每组增加一个样本,即有1个样本属性A1=2,有3个样本A1=0,有3个样本A1=1。则得:P(A1=2|C=1)=1/7P(A2=1|C=1)=1/4P(A3=1|C=1)=1/4P(A1=2|C=2)=2/3P(A2=1|C=2)=1/3P(A3=1|C=2)=1/3则P(X|Ci)为:P(X|C=1)=P(A1=2|C=1)*P(A2=1|C=1)*P(A3=1|C=1)=1/112P(X|C=2)=P(A1=2|C=2)*P(A2=1|C=2)*P(A3=1|C=2)=2/27可得P(X|Ci)*P(Ci):P(X|C=1)*P(C=1)=(1/112)*(4/7)=1/196P(X|C=2)*P(C=2)=(2/27)*(3/7)=2/63所以该样本属于类C=2b){0,1,1}解:P(C=1)=4/7P(C=2)=3/7P(A1=0|C=1)=2/4=1/2P(A2=1|C=1)=1/4P(A3=1|C=1)=1/4P(A1=0|C=2)=0出现零概率,为消除该影响,采用拉普拉斯校准得:P(A1=0|C=2)=1/6P(A2=1|C=2)=1/3P(A3=1|C=2)=1/3则P(X|Ci)为:P(X|C=1)=P(A1=0|C=1)*P(A2=1|C=1)*P(A3=1|C=1)=1/32P(X|C=2)=P(A1=0|C=2)*P(A2=1|C=2)*P(A3=1|C=2)=1/54可得P(X|Ci)*P(Ci):P(X|C=1)*P(C=1)=(1/32)*(4/7)=1/56P(X|C=2)*P(C=2)=(1/54)*(3/7)=1/126所以该样本属于类C=14.已知一组含X和Y的二维数据集,如下表XY1542.753352.5a)用线性回归方法计算y=α+βx中的参数α和β。b)用相关系数r估计a)中求得的模型的性能。解:a) meanx=3.25 meany=3.1252 11[(?mean)(mean)][(mean)]nnixiyixiiβxyx=-0.6357 meanmeanyxαβ=5.3786b)21()nxxixiSxmean=8.7521()nyyiyiSymean=3.9219相关系数:95.0)/(yyxxSSr表明两个变量间线性关联强负相关,模型有效。第6章聚类分析3.解:(1)MND(A,B)=NN(A,B)+NN(B,A)=1+1=2MND(A,C)=NN(A,C)+NN(C,A)=2+2=4MND(B,C)=NN(B,C)+NN(C,B)=1+2=3A和B比A、B和C具有更高的相似度,A和B为一类,C为一类(2)MND(A,B)=NN(A,B)+NN(B,A)=1+3=4MND(A,C)=NN(A,C)+NN(C,A)=2+4=6MND(B,C)=NN(B,C)+NN(C,B)=1+2=3B和C比B、C和A具有更高的相似度,B和C为一类,A为一类6.a)解:由Rao系数公式:Src(xi,xj)=a/(a+b+c+d)Src(A,B)=2/5Src(A,C)=2/5Src(A,D)=1/5Src(A,E)=2/5Src(A,F)=1/5Src(B,C)=1/5Src(B,D)=2/5Src(B,E)=1/5Src(B,F)=1/5Src(C,D)=1/5Src(C,E)=1/5Src(C,F)=1/5Src(D,E)=0Src(D,F)=1/5Src(E,F)=1/5首先取相似性最大2/5合并样本{A,B,C,D,E},第二步依据较小相似度1/5合并F,算法完成。b)由SMC系数公式:SSMC(xi,xj)=(a+b)/(a+b+c+d)SSMC(A,B)=3/5SSMC(A,C)=4/5SSMC(A,D)=2/5SSMC(A,E)=3/5SSMC(A,F)=2/5SSMC(B,C)=2/5SSMC(B,D)=4/5SSMC(B,E)=1/5SSMC(B,F)=2/5SSMC(C,D)=3/5SSMC(C,E)=2/5SSMC(C,F)=3/5SSMC(D,E)=0SSMC(D,F)=3/5SSMC(E,F)=2/5首先取相似度最大4/5合并{A,C},{B,D};第二步,取2/5合并{E,F};第三步,取0合并所有。FACBDE4/52/50FABCDE2/51/57.解:计算类的重心:M1={(1+2)/2,(0+1)/2}={3/2,1/2}M2={(0+3)/2,(1+3)/2}={3/2,2}计算类内误差和总体方差:e12=[(1-3/2)2+(0-1/2)2]+[(2-3/2)2+(1-1/2)2]=1e22=[(0-3/2)2+(1-2)2]+[(3-3/2)2+(3-2)2]=6.5E2=e12+e22=7.5计算重心M1和M2到各样本点的距离:221/211(,)(0.50.5)0.71dMX21(,)2.06dMX11XC12(,)1.58dMX2221(,)1.8dMXXC13(,)0.71dMX2331(,)1.12dMXXC14(,)2.92dMX