课后习题答案第一章:引言(Introduction)1.4数据仓库和数据库有何不同?有哪些相似之处?(Howisadatawarehousedifferentfromadatabase?Howaretheysimilar?)p8答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。它用表组织数据,采用ER数据模型。相似:它们都为数据挖掘提供了源数据,都是数据的组合。第二章:数据预处理(DataPreprocessing)2.4假定用于分析的数据包含属性age。数据元组的age值(以递增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。(Supposethatthedataforanalysisincludestheattributeage.Theagevaluesforthedatatuplesare(inincreasingorder)13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.)(a)该数据的均值是什么?中位数是什么?(Whatisthemeanofthedata?Whatisthemedian?)答:均值=(13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36+40+45+46+52+70)/27=29.96中位数应是第14个,即x14=25=Q2。(b)该数据的众数是什么?讨论数据的峰(即双峰、三峰等)。(Whatisthemodeofthedata?Commentonthedata'smodality(i.e.,bimodal,trimodal,etc.).)答:这个数集的众数有两个:25和35,发生在同样最高的频率处,因此是双峰众数。(c)数据的中列数是什么?(Whatisthemidrangeofthedata?)答:数据的中列数是最大数和最小数的均值。即:midrange=(70+13)/2=41.5。(d)你能(粗略地)找出数据的第一个四分位数(Q1)和第三个四分位数(Q3)吗?(Canyoufind(roughly)the¯rstquartile(Q1)andthethirdquartile(Q3)ofthedata?)答:数据集的第一个四分位数应发生在25%处,即在(N+1)/4=(27+1)/4=7处。所以:Q1=20。而第三个四分位数应发生在75%处,即在3×(N+1)/4=21处。所以:Q3=35(e)给出数据的五数概括。一个数据集的分布的5数概括由最小值、第一个四分位数、中位数、第三个四分位数、和最大值构成。它给出了分布形状良好的汇总+并且这些数据是:13、20、25、35、70。(f)画出数据的盒图。(g)分位数—分位数图与分位数图的不同之处是什么?分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样,他可以展示所有数的分位数信息,而为独立变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘出来。但分位数—分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。一条线(y=x)可画到图中+以增加图像的信息。落在该线以上的点表示在y轴上显示的值的分布比x轴的相应的等同分位数对应的值的分布高。反之,对落在该线以下的点则低。2.9假设医院检测随机选择的18个成年人年龄和身体脂肪数据,得到如下结果:(Supposeahospitaltestedtheageandbodyfatdatafor18randomlyselectedadultswiththefollowingresult)(a)计算年龄和脂肪百分比的均值、中位数和标准差.年龄均值=(23+23+27+27+39+41+47+49+50+52+54+54+56+57+58+58+60+61)/18=836/18=46.44,中位数=(50+52)/2=51,标准差=方差的平方根=开根号(1/n[∑(Xi)2-1/n(∑Xi)2])=开根号1/18[2970.44]=12.85.脂肪百分比均值=28.78,中位数=30.7,标准差=8.99.(b)绘制年龄和脂肪百分比的盒图(d)根据z-score规范化来规范化这两个属性(P46)(e)计算相关系数(皮尔逊积矩系数).这两个变量是正相关还是负相关?ra,b=∑(ai-A)(bi-B)/NσAσB=(∑(aibi)-NAB)/NσAσB=(∑(aibi)-18*46.44*28.78)/18*12.85*8.99=0.82相关系数是0.82。变量呈正相关。2.11使用如下两种方法规范化如下数据组:(Usethetwomethodsbelowtonormalizethefollowinggroupofdata:)(a)令min=0,max=1,min-max规划化。Originaldata2003004006001000[0,1]normalized00.1250.250.51(b)z-score规范化。Originaldata2003004006001000[0,1]normalized-1.06-0.7-0.350.351.78第四章:数据立方体计算域数据泛华4.4假定基本方体有三维A,B,C,其单元数如下:|A|=1000000,|B|=100,|C|=1000.假定每维均等地分块成10部分。(SupposethatabasecuboidhasthreedimensionsA;B;C,withthefollowingnumberofcells:jAj=1;000;000,jBj=100,andjCj=1000.Supposethateachdimensionisevenlypartitionedinto10por-tionsforchunking.)(a)假定每维只有一层,画出完整的立方体的格。答:完整的立方体的格如下图(b)如果每个立方体单元存放一个4字节的度量,若立方体是稠密的,所计算的立方体有多大?答:所计算的立方体大小如下:all:1A:1,000,000;B:100;C:1,000;小计:1,001,100AB:1,000,000*100=100,000,000;BC:100*1,000=100,000;AC:1,000,000*1,000=1,000,000,000;小计:1,100,100,000ABC:1,000,000*100*1,000=100,000,000,000总和:1+1,001,100+1,100,100,000+100,000,000,000=101,101,101,101*4=404,404,404,404字节(C)指出空间需求量最小的立方体中的块计算次序,并计算2-D平面计算所需要的内存空间总量。答:顺序计算,需要最少数量的空间B-C-A.如图所示:计算二维平面需要的总主内存空间是:总空间=(100×1,000)+(1,000,000×10)+(100×10,000)=20,100,000单元*4字节/单元=80,400,000字节5.3设数据库有5个事务。设min_sup=60%,min_conf=80%(Adatabasehas¯vetransactions.Letminsup=60%andminconf=80%.)(a)分别使用Apriori和FP增长算法找出所有频繁项集。比较两种挖掘过程的效率。效率比较:Apriori需多次扫描数据库而FP增长建立FP树只需一次的扫描。在Apriori算法中产生候选是昂贵的(由于联接),而FP增长不产生任何候选。(b)列举所有与下面的元规则匹配的强关联规则(给出支持度S和置信度C),其中,X是代表顾客的变量,itemi是表示项的变量(如:“A”、“B”等):答:k,oe[0.6,1]e,ok[0.6,1]6.14下表给出课程数据库中学生的其中和期末考试成绩。(a)Plotthedata.Doxandyseemtohavealinearrelationship?Yes,fromthescattergraph,itwouldappearthatxandyhavealinearrelationship.(b)Usethemethodofleastsquaresto¯ndanequationforthepredictionofastudent's¯nalexamgradebasedonthestudent'smidtermgradeinthecourse.jDj=12;¹x=866/12=72.167;¹y=888/12=74.UsingEquations(6.50)and(6.51),wegetw1=0.5816andw0=32.028.Therefore,theequationforpredictingastudent's¯nalexamgradebasedonthestudent'smidtermgradeisy=32:028+0:5816x.(c)Predictthe¯nalexamgradeofastudentwhoreceivedan86onthemidtermexam.Usingtheformulafrompart(b),wegety=32:028+(0:5816)(86)=82:045.Therefore,wewouldpredictthatastudentwhoreceivedan86onthemidtermwouldget82onthe¯nalexam.7.2给定年龄变量的如下测量值:18;22;25;42;28;43;33;35;56;28;用如下的方法对该变量标准化(a)计算年龄的平均值绝对偏差。(b)计算前四个测量值的z-score。