中南大学考试试卷2011--2012学年下学期时间110分钟数据挖掘课程24学时2学分考试形式:开卷专业年级:软件工程硕士10级总分100分,占总评成绩%注:此页不作答题纸,请将答案写在答题纸上1、什么是数据挖掘?数据挖掘的主要步骤是什么?2、已知事物如图1所示,请计算{milk,diaper}==Beer的支持度和置信度。如果要求最低支持度为0.4,请问{bread,milk}==Beer满足该条件吗?3、用k-means算法将下列4个数据聚类成2个簇:A1(1,1),A2(2,1),A3(4,3),A4(5,4),要求A3、A4为第一次聚类的中心点.4、按照决策树算法,判断下面几个事物的分类姓名性别车的数量旅行费用($)/km收入水平交通工具AlexMale1StandardHigh?BuddyMale0CheapMedium?CherryFemale1CheapHigh?5、结合工作,谈谈数据挖掘可用于本职工作的哪些方面?TIDItems1Bread,Milk2Bread,Diaper,Beer,Eggs3Milk,Diaper,Beer,Coke4Bread,Milk,Diaper,Beer5Bread,Milk,Diaper,Coke答案1、PPT上2、(1)总交易为5次,出现milk,diapper,beer的次数是2次。所以Support{milk,diapper}—》beer=2/5=0.4milk,diapper出现3次,milk,diaper,beer出现2次,则Conf=2/3(2)交易总次数5次,{bread,milk,Beer}出现1次Support({bread,milk}==Beer)=1/5=0.20.4则不能满足要求。3、选择A3,A4为中心点,进行第一次计算A1-A3:13)31()41(22A2-a3: