信息工程学院课程结课论文数据挖掘技术的应用研究及发展现状课程名称:信息检索与科技论文写作专业:计算机应用技术班级:计算机民专12学号:5032108123姓名:艾克白尔·阿力甫任课教师:曹洪武《信息检索与科技论文写作》课程结课论文第1页共9页数据挖掘技术的应用研究及发展现状一、课题分析数据挖掘是近年来随着数据库和人工智能技术的发展而出现的一种全新信息技术,也是计算机科学与技术,尤其是计算机网络的发展和普遍使用所提出的而且迫切需要解决的重要课题。数据挖掘是指从数据中提取模式的过程,数据挖掘的提出,让人们最终有能力认识数据的真正价值,即蕴藏在数据中的信息和知识。数据挖掘技术的产生,使得用户可以从大量的数据中发现隐含的规律,从而为决策提供更可靠的依据。数据挖掘必须建立在结构化良好的数据基础之上,传统的数据库都有一定的数据模型,可以根据模型来具体描述特定的数据,同时可以很好的定义和解释相关的查询语言。由于web上存在许多半结构化数据,即便在web上得到一些相关数据,将其用于挖掘和分析也是相当困难的,因此,面向web的数据挖掘要比面向单个数据仓库中的数据挖掘要复杂的多。由于Internet和的广泛应用,出现了基于异构数据源的数据挖掘,如文档数据挖掘、时间序列数据挖掘、电子商务系统中的数据挖掘。伴随数据库技术的发展,多媒体数据库的数据挖掘、空间数据库的数据挖掘等也引起了许多人的关注。Internet的迅猛发展,尤其是Web的全球普及,使得Web上信息量无比丰富。通过对Web的挖掘,可从Web页面中提取所需的知识:对总的用户访问行为、频度、内容的分析,可得到关于群体用户访问行为和方式的普遍知识,用以改进Web服务设计。更重用的是,通过对这些用户特征的理解和分析,有助于开展有对性的电子商务活动。随着数据挖掘和万维网技术的结合,使得从收集到的访问Internet网页的网站日志记录中进行数据挖掘成为可能。将数据挖掘技术应用于Web日志记录,来发现用户访问Web页面的模式,便形成了Web访问模式挖掘。它对于优化站点结构、为不同类别的用户提供个性化服务,有效地实现信息获取和信息推送是非常必要的。Web访问模式挖掘是目前数据挖掘领域的热点课题之一,也是Web日志挖掘的主要目标之一,本文的研究目的是发现更多有意义的序列模式。本文系统地阐述了从数据挖掘、Web数据挖掘到Web日志挖掘整个过程。通基于Web志的数据挖掘的讨论,说明如何进行Web日志挖掘以及在Web日志挖掘中应采取的数据挖掘技术。在数据预处理方面,本文设计了基于最大参引模型和时间窗口模型的访问事务划分方法;在模式挖掘方面,本文在Apriori算法和有向图存储结构的基础上,提出了会话矩阵和遍历矩阵的概念,设计了Web用户频繁路径快速挖掘算法。二、检索策略:1、中图分类号:TP3112、关键词:数据挖掘,Web日志挖掘,频繁路径3、检索式:题名=(数据挖掘技术)关键词=(数据挖掘技术应用)及研究、发展现状三检索步骤和结果:1、运用搜狗搜索解释其主题:数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。何为知识?从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门综合交叉学科,它综合了机《信息检索与科技论文写作》课程结课论文第2页共9页器学习、统计分析和数据库技术,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。需要说明的是,这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。所有发现的知识都是相对的,是有特定前提和约束条件、面向特定领域的,同时还要能够易于被用户理解,最好就能用自然语言表达发现结果,因此DMKD(数据挖掘和知识发现)的研究成果是要讲求实际的。2、根据所选课题,运用直接浏览法检出其相关文献:期刊论文:[1]陈春颖,熊拥军.基于序列模式挖掘的读者借阅行为分析[J].图书情报知识,2011.[2]林颖.闭合序列模式的一种增量挖掘算法[J].重庆理工大学学报(自然科学),2011.[3]张长海,胡孔法,陈崚,宋爱波.一种高效的基于位图序列模式挖掘算法[J].高技术通讯,2010.[4]李广原,杨炳儒,刘永彬,刘英华.多维序列模式挖掘算法[J].计算机工程与设计,2011.[5]朱红,陈星霖.基于数据挖掘的网上证券交易异常行为分析[J].计算机安全,2011.[6]周坤,王爱荣,张敬谊,熊赟,朱扬勇.VPM:一个就医行为模式挖掘算法[J].计算机应用与软件,2011.[7]公伟,刘培玉,贾娴.基于改进PrefixSpan的序列模式挖掘算法[J].计算机应用,2011.[8]张韬,胡旻.互联网Web数据挖掘模型设计与技术实现[J].卫星与网络,2010.[9]王艳.数据隐私保护技术综述[J].知识经济,2011.[10]杜垒,王飞.数据挖掘在学生管理中的应用[J].科技信息,2011.3、选择中文数据库检出其与课题相关文献:(1)、使用《中国知网》数据库检索与课题相关文献:检索式:题名=(数据挖掘技术应用)关键词=(数据挖掘技术的研究及发展现状)序号题名作者作者单位文献来源发表时间被引频次下载频次1数据挖掘技术与分类算法研究刘刚中国人民解放军信息工程大学【博士】中国人民解放军信息工程大学2004-10-011131252基于数据挖掘的银行客户分析管理关键技术研究赵基浙江大学【博士】浙江大学2005-05-011223853基于数据挖掘技术的消费者行为研究王萍吉林大学【博士】吉林大学2004-04-011223614数据挖掘技术与关联规则挖掘算法研究毛国君北京工业大学【博士】北京工业大学2003-04-018221285基于数据挖掘技术的中国上市公司财务危机预警分析张昕源吉林大学【博士】吉林大学2004-05-01920766海量数据挖掘技术研究刘浙江大学【博士】浙江大学2003-02-01371950《信息检索与科技论文写作》课程结课论文第3页共9页(2)、根据所选课题,使用我校图书馆网站馆藏书目数据库检出其相关文献:[1]数据挖掘概念与技术(原书第2版)(加)韩家炜,堪博著,范明,孟小峰译/2007年03月/机械工业出版社[2]Web数据挖掘(世界著名计算机教材精选)(美)刘兵(Liu,B.)著,俞勇等译/2009年04月/清华大学出版社[3]数据挖掘导论(完整版)(美)陈封能,(美)斯坦巴赫,(美)库玛尔著,范明等译/2011年01月/人民邮电出版社[4]数据仓库与数据挖掘原理及应用(第二版)王丽珍等编著/2009年09月/科学出版社[5]数据挖掘:概念与技术(英文版·第2版)(加)韩家炜等著/2006年04月/机械工业出版社[6]数据挖掘实用机器学习技术(原书第2版)(新西兰)威滕(Witten,I.H.),(新西兰)弗兰克(Frank,E.)著,董琳等译/2006年07月/机械工业出版社[7]数据挖掘与数学建模廖芹,赫志峰,陈志宏编著/2010年02月/国防工业出版社[8]数据仓库与数据挖掘原理及应用郑岩编著/2011年01月/清华大学出版社[9]数据挖掘算法与Clementine实践熊平著/2011年04月/清华大学出版社[10]数据仓库与数据挖掘(重点大学计算机专业系列教材)陈志泊主编,韩慧等编著/2009年05月/清华大学出版社[11]Web数据挖掘:超文本数据的知识发现(英文版)(印)查凯莱巴蒂著/2009年02月/人民邮电出版社君强7网络安全检测关键技术研究高翔西北工业大学【博士】西北工业大2003-12-01718728数据挖掘相关算法的研究与平台实现李秋丹大连理工大学【博士】大连理工大学2004-03-011617459数据仓库与数据挖掘技术在银行客户关系管理(CRM)系统中的应用张蓉广东商学院信息学院广州【期刊】计算机与信息技术2006-07-206174312数据挖掘的新技术研究王彤天津大学【博士】天津大学2006-12-011158513面向服务的数据挖掘关键技术研究李玉华华中科技大学【博士】华中科技大学2006-11-016148514基于Web日志的数据挖掘技术研究姚梦涛西安理工大学【硕士】西安理工大学2010-03-01085《信息检索与科技论文写作》课程结课论文第4页共9页数据挖掘技术的应用研究及发展现状学生:艾克白尔·阿力甫指导教师:曹洪武(塔里木大学信息工程学院计算机民专12-1)摘要:在Internet电子商务网站中,客户浏览信息被Web服务器自动收集,并保存在访问日志、引用日志和代理日志中。有效地对这些Web日志进行定量分析,揭示用户兴趣路径等,不但可以为优化Web站点的拓扑结构提供参考,而且还可以为企业制定更有效的市场营销策略提供依据,使其及时改进决策,获得更大的竞争优势目前,Web日志的挖掘研究主要集中在用户浏览模式的获取上,算法有Apriori算法,最大向前序列法和树形拓扑结构法等。它们先将日志中的用户浏览历史记录转换成一个浏览子序列集:最大向前序列法根据用户折返的特性形成若干浏览子序列;参考长度法根据用户在网页上停留的时间形成若干个浏览子序列;树形拓扑结构法则把整个日志当作浏览子序列。然后利用关联规则法对浏览子序列进行挖掘找出频繁访问路径。以上算法单纯地考虑了浏览频度,简单地认为用户的浏览频度就反应了用户的访问兴趣,这很不精确。网页浏览频度的影响因素有很多,其中的页面放置位置和其它页面对该页面的链接都起着非常重要的作用。但其中个性较为鲜明的是利用矩阵进行运算发掘,矩阵不仅能准确表示Web站点有向图,而且能有效存储用户访问信息,矩阵可以进行压缩,节约大量空间和时间。在Apriori算法中,把所有的项集元素在每个事务中作统计和筛选,所以耗时很多,但结果精确。考虑了以上算法的优点,有必要提出一种可正确挖掘不同用户浏览兴趣路径的算法。即考虑了算法的快速性,又考虑了发掘结果的准确性。关键字:数据挖掘技术、挖掘算法、Web数据挖掘1目前的研究技术数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。何为知识?从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门综合交叉学科,它综合了机器学习、统计分析和数据库技术,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。需要说明的是,这里所说的知识发现,不是要求发现放之四海而皆准的真理,