-1-一、上机目的及内容目的:1.理解数据挖掘的基本概念及其过程;2.理解数据挖掘与数据仓库、OLAP之间的关系3.理解基本的数据挖掘技术与方法的工作原理与过程,掌握数据挖掘相关工具的使用。内容:将创建一个数据挖掘模型以训练销售数据,并使用“Microsoft决策树”算法在客户群中找出购买自行车模式。请将要挖掘的维度(事例维度)设置为客户,再将客户的属性设置为数据挖掘算法识别模式时要使用的信息。然后算法将使用决策树从中确定模式。下一步需要训练模型,以便能够浏览树视图并从中读取模式。市场部将根据这些模式选择潜在的客户发送自行车促销信息。要求:利用实验室和指导教师提供的实验软件,认真完成规定的实验内容,真实地记录实验中遇到的各种问题和解决的方法与过程,并根据实验案例绘出模型及操作过程。实验完成后,应根据实验情况写出实验报告。二、实验原理及基本技术路线图(方框原理图或程序流程图)关联分析:关联分析是从数据库中发现知识的一类重要方法。时序模式:通过时间序列搜索出重复发生概率较高的模式。分类:分类是在聚类的基础上对已确定的类找出该类别的概念描述,代表了这类数据的整体信息,既该类的内涵描述,一般用规则或决策树模式表示。三、所用仪器、材料(设备名称、型号、规格等或使用软件)1台PC及MicrosoftSQLServer套件四、实验方法、步骤(或:程序代码或操作过程)及实验过程原始记录(测试数据、图表、计算等)创建AnalysisServices项目1.打开BusinessIntelligenceDevelopmentStudio。2.在“文件”菜单上,指向“新建”,然后选择“项目”。3.确保已选中“模板”窗格中的“AnalysisServices项目”。4.在“名称”框中,将新项目命名为AdventureWorks。5.单击“确定”。-2-更改存储数据挖掘对象的实例1.在BusinessIntelligenceDevelopmentStudio的“项目”菜单中,选择“属性”。2.在“属性页”窗格的左侧,单击“部署”。3.在“目标”选项部分,验证数据库名称是否为localhost。如果使用的是其他实例,请键入该实例的名称。单击“确定”。创建数据源-3-1.在解决方案资源管理器中,右键单击“数据源”文件夹,然后选择“新建数据源”。系统将打开数据源向导。2.在“欢迎使用数据源向导”页面中,单击“下一步”按钮。3.在“选择如何定义连接”页上,单击“新建”向AdventureWorks数据库中添加连接。-4-系统将打开“连接管理器”对话框。4.在“连接管理器”的“提供程序”列表中,选择“本机OLEDB\MicrosoftOLEDBProviderforSQLServer”。5.在“服务器名称”列表中,键入或选择承载AdventureWorksDW的服务器的名称。6.在“登录到服务器”组中,选择身份验证方法,并输入凭据。7.在“选择或输入数据库名称”列表中,选择AdventureWorksDW,再单击“确定”按钮。8.单击“下一步”按钮进入向导的下一页。9.在“模拟信息”页中,选择“使用服务帐户”,再单击“下一步”。10.请注意,在“完成向导”页中,数据源名称默认为AdventureWorksDW。11.单击“完成”。新的数据源AdventureWorksDW将显示在解决方案资源管理器的“数据源”文件夹中。-5-创建数据源视图1.在解决方案资源管理器中,右键单击“数据源视图”,选择“新建数据源视图”。系统将打开数据源视图向导。2.在“欢迎使用数据源视图向导”页上,单击“下一步”。3.在“选择数据源”页的“关系数据源”下,系统将默认选中您在上一个任务中创建的AdventureWorksDW数据源。单击“下一步”。若要创建新数据源,请单击“新建数据源”,启动数据源向导。4.在“选择表和视图”页上,选择下列各表,然后单击右箭头键,将这些表包括在新数据源视图中:dbo.ProspectiveBuyerdbo.vAssocSeqLineItems-6-dbo.vAssocSeqOrdersdbo.vTargetMaildbo.vTimeSeries-7-5.单击“下一步”。6.在“完成向导”页上,默认情况下,系统将数据源视图命名为AdventureWorksDW。单击“完成”。系统将打开数据源视图设计器,显示AdventureWorksDW数据源视图。创建用于目标邮件方案的挖掘结构1.在解决方案资源管理器中,右键单击“挖掘结构”并选择“新建挖掘结构”启动数据挖掘向导。-8-2.在“欢迎使用数据挖掘向导”页上,单击“下一步”。3.在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓库”,再单击“下一步”。4.在“创建数据挖掘结构”页的“您要使用何种数据挖掘技术?”下,选择“Microsoft决策树”。5.单击“下一步”。-9-6.在“选择数据源视图”页上,请注意已默认选中AdventureWorksDW。在数据源视图中,单击“浏览”查看各表,然后单击“关闭”返回该向导。7.单击“下一步”。8.在“指定表类型”页上,选中vTargetMail表旁边“事例”列中的复选框,再单击“下一步”。-10-9.在“指定定型数据”页上,确保已选中CustomerKey列旁边Key列中的复选框。如果数据源视图中的源表表示一个键,则数据挖掘向导将自动选择该列作为模型的键。10.选中BikeBuyer列旁边的“输入”和“可预测”。11.单击“建议”打开“提供相关列建议”对话框。只要选中至少一个可预测属性,即可启用“建议”按钮。“提供相关列建议”对话框将列出与可预测列关联最密切的列,并按照与可预测属性的相互关系对属性进行排序。值大于0.05的列将被自动选中,以包括在模型中。12.阅读建议,然后单击“取消”忽略建议并保留向导设置的原始值。13.选中以下各列旁边的“输入”复选框:AgeCommuteDistance-11-EnglishEducationEnglishOccupationFirstNameGenderGeographyKeyHouseOwnerFlagLastNameMaritalStatusNumberCarsOwnedNumberChildrenAtHomeRegionTotalChildrenYearlyIncome-12-14.单击“下一步”。-13-15.在“指定列的内容和数据类型”页上,单击“检测”以运行对数值数据进行取样并确定数值列是否包含连续或离散值的算法。例如,某列可包含薪金信息,用以作为连续的实际薪金值,也可包含整数,用以表示离散的编码薪金范围(例如1=$25,000;2=从$25,000到$50,000)。16.单击“检测”后,请查看“内容类型”和“数据类型”列中的各项;如有必要,请进行更改,以确保设置与下表所示一致。通常,向导会检测数值,并分配相应的数值数据类型;但有些情况下,您可能想要将数值作为文本处理。例如,GeographyKey应作为文本处理,因为对此标识符进行数学运算是不对的。列内容类型数据类型AgeContinuousLongBikeBuyerDiscreteLongCommuteDistanceDiscreteTextCustomerKeyKeyLongEnglishEducationDiscreteTextEnglishOccupationDiscreteTextFirstNameDiscreteTextGenderDiscreteTextGeographyKeyDiscreteTextHouseOwnerFlagDiscreteTextLastNameDiscreteTextMaritalStatusDiscreteTextNumberCarsOwnedDiscreteLongNumberChildrenAtHomeDiscreteLongRegionDiscreteTextTotalChildrenDiscreteLongYearlyIncomeContinuousDouble-14-17.单击“下一步”。18.在“将数据拆分为定型集和测试集”页上,对于“测试数据百分比”,请保留默认值30。19.对于“测试数据集中的最大事例数”,请键入1000。单击“下一步”。20.在“完成向导”页上的“挖掘结构名称”中,键入TargetedMailing。21.在“挖掘模型名称”中,键入TM_Decision_Tree。22.选中“允许钻取”复选框。-15-23.单击“完成”。测试挖掘模型的准确性映射输入列如果使用外部数据测试挖掘模型,则必须确保挖掘结构中的列与输入数据中的列匹配。为此,可以使用“指定列映射”对话框。如果直接映射列名,则数据挖掘设计器将自动创建关系。若要删除两列之间的映射,请选择将“挖掘结构”表中的列链接到“选择输入表”表中的列的行,再按Delete键。还可以通过单击“选择输入表”中的列并将其拖到“挖掘结构”中相应的列来手动创建映射。将输入列映射到挖掘结构1.在数据挖掘设计器中的“挖掘准确性图表”选项卡的“输入选择”选项卡中,选择选项“指定其他数据集”。-16-2.单击“指定其他数据集”选项右侧的(…)按钮。此时将打开“指定列映射”对话框。如果您要测试的结构未显示在“挖掘结构”窗格中,请单击“选择结构”并选择目标邮件。3.在“选择输入表”框中,单击“选择事例表”。系统将打开“选择表”对话框。在此对话框中选择包含表或需要使用的表的数据源视图,然后选择该表。用于确定模型准确性的数据必须包含可以映射到可预测列的列。为了实现本教程的教学目标,您需要对用于处理模型的输入列使用相同的数据并对数据应用筛选器。但是,理想情况下,您将使用用于处理该模型的数据中保留的测试数据集。在“选择输入选择”选项卡上选择选项“使用挖掘结构测试事例”,将选择该数据作为输入。-17-4.在“数据源”列表中,确保已选中AdventureWorksDW。5.在“表/视图名称”列表中,选择vTargetMail,再单击“确定”。挖掘结构中的列会自动映射到输入表中具有相同名称的列。-18-筛选输入行如果选择“指定其他数据集”选项,则可以通过使用显示事例表列和嵌套表列的一组对话框生成筛选条件。可以从运算符、类型值的列表中进行选择,并连接条件与逻辑运算符,以创建限制测试所用事例的复杂条件。对测试数据应用筛选器1.在数据挖掘设计器中的“挖掘准确性图表”选项卡的“输入选择”选项卡上,单击“打开筛选器编辑器”。2.此时将打开“vTargetMail数据集筛选器”对话框。在此网格内,输入转换为将应用于源表的WHERE子句的条件,以限制用于测试的事例。3.在“挖掘结构列”下,单击网格内顶部的行。选择vTargetMail。4.单击“值”单元。此时将打开“筛选器”对话框,该对话框可帮助您对vTargetMail表设置条件。-19-5.在第一行中,单击“挖掘结构列”下的网格,然后从列的列表中选择Age。6.单击Age旁边的“运算符”框,并选择(大于)运算符。7.在同一行单击“值”框,并键入20。8.单击“表达式”窗格以刷新该表达式,并验证它是否正确。单击“确定”。9.再次单击“确定”,关闭“筛选数据集”对话框。“输入选择”选项卡中的“筛选表达式”窗格会显示刚才创建的筛选表达式vTargetMail:([Age]20)。当制作提升图时,模型将仅使用其年龄大于20的客户进行测试。显示模型的提升1.在“选择要在提升图中显示的可预测的挖掘模型列”下,确保已在每个模型的“可预测的列名”列表中选中BikeBuyer。2.在“预测值”列中,选择1。对于具有相同可预测列的每个模型,将自动填充相同的值。显示模型的准确性1.在“选择要在提升图中显示的可预测的挖掘模型列”下,确保已在每个模型的“可预测的列名”列表中选中BikeBuyer。2.将“预测值”列保留为空。-20-查看提升图若要查看提升图,请切换到“挖掘准确性图表”的“提升图”选项卡