数据挖掘课设要求目标课程设计是在数据挖掘过程中加强理论和方法的系统方法和实践方法。在“数据挖掘课程设计”中,提供了一些模拟的实际应用程序数据集,并计划了一些课程设计项目。通过进行课程设计,学生将掌握以下技术:1.通过数据库技术处理实际的应用程序数据;2.具有基本监督学习方法的大数据挖掘步骤;3.评估分类器的策略;4.影响分类器性能的主要方面;5.解决数据挖掘中实际应用问题的主要工具。项目1:监督学习算法之间的比较1.数据集请参阅附属文件:adult.train,adult.test和adult.desctiption。adult.train文件用于训练,adult.test用于测试,adult.desctiption用于描述数据中的属性。数据缺少标为“?”的值2.任务(1)数据预处理。将数据从文件迁移到oracle等数据库,然后通过数据库技术处理数据。删除缺少值的元组。(2)利用训练数据建立预测模型。基本的监督学习方法(例如朴素贝叶斯分类,ID3,C4.5,CART,BPANN)分别用于训练分类器。(3)不同分类器之间的准确性比较项目2:调查噪声数据的影响1.数据集请参考项目1的数据。2.任务(1)数据预处理。不要删除缺少值的元组。而是在同一列中用适当的值替换丢失的值,例如平均值,回归值或通过数据插补技术得出的其他值。(2)使用C4.5建立预测模型。(3)通过C4.5对两组数据之间有无值和有值缺失的分类器之间的精度比较。项目3:模拟应用1.字母识别应用简介字符图像基于20种不同的字体,并且这20种字体中的每个字母都被随机扭曲以产生20,000个唯一刺激的文件。每个刺激转换为16个数字属性。这些过程生成的字符图像的示例在图中提供。然后逐个像素扫描每个字符图像,以提取16个数字属性。这些属性表示像素分布的原始统计特征。为了实现紧凑性,然后将每个属性线性缩放到从0到15的整数值范围。最后一组值足以提供26个类的完美分离。也就是说,没有任何特征向量映射到一个以上的类。属性(缩放到0-15范围之前)是:(1)最小矩形框中心的水平位置(从图像的左边缘开始计数),该矩形框的所有“开”像素都可以在框内绘制。(2)上方方框的垂直位置,从底部算起像素。(3)框的宽度,以像素为单位。(4)框的高度,以像素为单位。(5)字符图像中“开”像素的总数。(6)所有“在”像素相对于框中心的平均水平位置,并除以框的宽度。如果图像像字母L那样“左重”,则此功能的值为负。(7)所有“在”像素相对于框中心的平均垂直位置,并除以框的高度。(8)以上6中测得的水平像素距离的均方值。对于像素在水平方向上较宽分离的图像,此属性将具有较高的值,字母W或M就是这种情况。(9)以上7中测量的垂直像素距离的均方值。(10)每个“上”像素的水平和垂直距离的平均值,如上面6和7所述。对于从左下到右上的对角线,此属性具有正值;对于从左上到右下的对角线,此属性具有负值。(11)每个“on”像素的水平距离平方乘以垂直距离的平均值。这测量了水平方差与垂直位置的相关性。(12)垂直距离的平方的平均值乘以每个“on”像素的水平距离。这测量了垂直方差与水平位置的相关性。(13)从左侧进行系统扫描时遇到的平均边缘数量(“关闭”像素或图像边界右侧的“打开”像素)(15)在框内所有水平位置上从下到上对图像进行系统扫描时遇到的平均边缘数(“关闭”像素或图像边界上方的“打开”像素)。(16)在上面的15中测量的边缘水平位置的总和。2.数据集请参阅附属文件:letter-recognition.data和letter-recognition.desctiption。letter-recognition.data文件用于训练和测试,adult.desctiption用于描述数据中的属性。3.任务(1)数据预处理。将数据从文件迁移到oracle等数据库。(2)通过Hold-out方法进行数据分区,即将数据随机分为两部分:2/3作为训练集,1/3作为测试集。(3)在训练集上使用C4.5建立预测模型。(4)评估其在测试集上的准确性。项目4:评估方法之间的比较1.数据集请参考项目3的数据。2.任务(1)使用C4.5建立预测模型/分类器。(2)分别通过Hold-out方法(即项目3),随机抽样,10-CV,分层10-CV和自举法评估其准确性。(3)在不同评估方法下,C4.5分类器之间的准确性比较。项目5:对修剪到过度拟合的调查1.数据集请参考项目3的数据。2.任务(1)使用CART建立预测模型。(2)使用带有CCP的CART建立预测模型。(3)不带修剪和带修剪的CART分类器之间的精度比较。要求实验是在不超过5名学生的小组中进行的。每个小组必须在截止日期之前完成5个必修项目。2.Python或R可以用于为您的项目编程,但是Python是首选,因为它将帮助您在不久的将来找到一份好工作。3.为了完成项目,您可以从在线资源下载软件包并进行修改,但是您应该了解项目中涉及的所有代码。4.为了确保课程设计能够顺利实施,每个小组应选择一名负责团队工作的负责人。他负责组织团队成员协作完成五个项目。他有权将任务分配给每个成员,并确定每个成员的贡献率。5.最后书写课程设计报告,通过组长协调和同意,每个组成员只能选择至多一个项目完成完成的工作。