2020年9月1日星期二DataMining:ConceptsandTechniques1何谓数据挖掘?数据挖掘是从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从各种数据源中选取和集成用于数据挖掘的数据;规律寻找是用某种方法将数据中的规律找出来;规律表示是用尽可能符合用户习惯的方式(如可视化)将找出的规律表示出来。数据挖掘在自身发展的过程中,吸收了数理统计、数据库和人工智能中的大量技术。2020年9月1日星期二DataMining:ConceptsandTechniques2数据挖掘项目实例•信用卡公司分析信用卡历史数据,判断哪些人有风险,哪些没有•超市分析交易数据,安排货架上货物摆布,以提高销售•调查局分析行为模式,判断哪些人对受保护的信息具有潜在威胁•药房分析医师的处方,判断哪些医师愿意购买他们的产品•保险公司分析以前的客户记录,决定哪些客户是潜在花费昂贵的•汽车公司分析不同地方人的购买模型,针对性地发送给客户喜欢的汽车的手册•人才中心分析不同客户的工作历史,发送客户潜在的感兴趣的工作信息•访问没有归类的竞争对手数据库,推断出潜在的归类信息2020年9月1日星期二DataMining:ConceptsandTechniques3•教育学院分析学生历史信息,决定哪些人愿意参加培训,发送手册给他们•核武器工厂分析历史核查信息记录,决定没有采用哪项预防措施将导致核灾难•广告公司分析人们购买模式,估计他们的收入和孩子数目,作为潜在的市场信息•调查局分析不同团体的旅游模式,决定不同团体之间的关联•医师分析病人历史和当前用药情况,不仅诊断用药而且预测潜在的问题•税务局分析不同团体的交所得税的记录,发现异常模型和趋势•调查局分析罪犯记录,推断哪些人可能会犯恐怖罪和大的谋杀罪2020年9月1日星期二DataMining:ConceptsandTechniques4Chapter1.Introduction�什么激发了数据挖掘,为什么它是重要的?�什么是数据挖掘?�在何种数据上进行数据挖掘?�数据挖掘功能——可以挖掘什么类型的模式�所有模式都是有趣的吗?�数据挖掘系统的分类�数据挖掘的主要问题2020年9月1日星期二DataMining:ConceptsandTechniques5动机:“需要是发明之母”数据泛滥问题自动数据收集工具和成熟的数据库技术使得大量数据存储于数据库,数据仓库和其他信息库。我们数据丰富但信息贫乏解决办法:数据仓库和数据挖掘数据仓库和联机分析处理大型数据库中的有趣知识(规则、模式)2020年9月1日星期二DataMining:ConceptsandTechniques6数据库技术的演化1960s:从原始的文件处理演化到复杂的、功能强大的数据库系统数据收集,数据库创建,信息管理系统(IMS)和数据库管理系统1970s:从层次和网状数据库系统发展到开发关系数据库系统关系数据模型,关系数据库管理系统工具1980s:广泛接受关系技术,研究和开发新的、功能强大的数据库系统。使用了先进的数据模型,面向对象模型,扩充关系模型,对象-关系模型和演绎模型。关系数据库管理系统(RDBMS),高级数据模型(面向对象、演绎等等)和面向应用的DBMS(空间的、科学的、工程的)1990s:数据仓库是一种数据库结构。这是一种多个异种数据源在单个站点以统一的模式组织的存储,以支持管理决策。数据挖掘和数据仓库,多媒体数据库和web数据库2000s(新一代综合信息系统)StreamdatamanagementandminingDatamininganditsapplicationsWebtechnology(XML,dataintegration)andglobalinformationsystems2020年9月1日星期二DataMining:ConceptsandTechniques7数据挖掘的出现数据挖掘出现于20世纪80年代后期,90年代有了突飞猛进的发展。2001年,GartnerGroup的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关健技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。数据挖掘出现于20世纪80年代末,最早是在数据库领域发展起来的,称为数据库中的知识发现(KDD,KnowledgeDiscoveryinDatabase)。数据挖掘是KDD过程中的一个环节,它的历史虽然较短,但从20世纪90年代以来,发展速度很快,目前还没有一个完整的定义。数据库中发现知识一词首次出现于1989年在美国底特律召开的第十一届国际联合人工智能学术会议上,到1995年在加拿大蒙特利尔召开的首届KDD&DataMining国际学术会议,再到以后每年都要召开一次的KDD&DataMining国际学术会议,经过十多年的努力,数据挖掘技术的研究已经取得了丰硕的成果,不少软件公司已研制出数据挖掘软件产品,并在北美、欧洲等国家得到应用。2020年9月1日星期二DataMining:ConceptsandTechniques8数据挖掘的当前热点数据挖掘技术的三大支柱为:数据库技术;人工智能技术及概率与数理统计。当前数据挖掘的研究热点为:1.网站的数据挖掘(Websitedatamining)2.生物信息或基因的数据挖掘3.文本的数据挖掘(TextualMining)2020年9月1日星期二DataMining:ConceptsandTechniques9什么是数据挖掘?Datamining(knowledgediscoveryfromdata)在大型数据库中提取有趣的(重要的,隐含的,目前未知的,潜在有用的)信息和模式Datamining:amisnomer?另外的名字和它们的“内在故事”Knowledgediscovery(mining)indatabases(KDD),knowledgeextraction,data/patternanalysis,dataarcheology,datadredging,informationharvesting,businessintelligence,etc.什么不是数据挖掘?Simplesearchandqueryprocessing(Deductive)expertsystems2020年9月1日星期二DataMining:ConceptsandTechniques10专家系统专家系统曾经是人工智能研究工作者的骄傲。在研制一个专家系统时,知识工程师首先要从领域专家那里获取知识,这一过程实质上是归纳过程,是非常复杂的个人到个人之间的交互过程,有很强的个性和随机性。因此,知识获取成为专家系统研究中公认的瓶颈问题。其次,知识工程师在整理表达从领域专家那里获得的知识时,用if-then等类的规则表达,约束性太大,用常规数理逻辑来表达社会现象和人的思维活动局限性太大,也太困难,知识表示又成为一大难题。此外,即使某个领域的知识通过一定手段获取并表达了,但这样做成的专家系统对常识和百科知识相当缺乏,而人类专家知识是以拥有大量常识为基础的。人工智能技术的三大难题:“知识获取、知识表示、缺乏常识”大大限制了专家系统的应用。人工智能学者开始着手基于案例的推理,尤其是从事机器学习的科学家们,不再满足自己构造的小样本学习模式的象牙塔,开始正视现实生活中大量的、不完全的、有噪声的、模糊的、随机的大数据样本,从而与数据仓库技术相结合,转向数据挖掘技术。2020年9月1日星期二DataMining:ConceptsandTechniques11DatabaseProcessingvs.DataMiningProcessing数据库查询对数据挖掘查询QueryWelldefinedSQLQueryPoorlydefinedNoprecisequerylanguageData–OperationaldataOutput–Precise–SubsetofdatabaseData–NotoperationaldataOutput–Fuzzy–Notasubsetofdatabase2020年9月1日星期二DataMining:ConceptsandTechniques12QueryExamples查询实例对比DatabaseDataMining–Findallcustomerswhohavepurchasedmilk–Findallitemswhicharefrequentlypurchasedwithmilk.(associationrules)–FindallcreditapplicantswithlastnameofSmith.–Identifycustomerswhohavepurchasedmorethan$10,000inthelastmonth.–Findallcreditapplicantswhoarepoorcreditrisks.(classification)–Identifycustomerswithsimilarbuyinghabits.(Clustering)2020年9月1日星期二DataMining:ConceptsandTechniques13WhyDataMining?—PotentialApplications数据库分析和决定支持市场分析和管理目标市场,用户关系管理,市场菜篮子分析,交叉销售,市场分割。风险性分析和管理预测,顾客保留,改善保险,质量控制,竞争分析欺骗察觉和发现不寻常的模式(outliers)其他应用文本挖掘(新闻组,电子邮件,文件)和WEB分析智能询问回答生物信息学和生物数据分析2020年9月1日星期二DataMining:ConceptsandTechniques14市场分析和管理(1)用于分析的数据从何来?—信用卡交易,信誉卡,折扣券,用户投诉电话,公众生活方式调查。目标市场找出具有相同特征(兴趣,收入水平,消费习惯等等)的“模式”顾客群。随着时间的推移决定顾客的购买方式从单独银行账户向联合银行账户的转变。例如:结婚Predictwhatfactorswillattractnewcustomers交叉市场分析不同产品之间的销售关联关系在此关联信息上进行预测2020年9月1日星期二DataMining:ConceptsandTechniques15市场分析和管理(2)顾客形象数据挖掘可以告诉你什麽样的顾客会买什麽样的产品(聚类或分类)识别顾客需求保证为不同的顾客提供了最好的产品使用预测手段去发现什麽因素会吸引新的顾客。提供汇总信息各种各样的多方位汇总信息统计的汇总信息(数据中心的趋势和变化)2020年9月1日星期二DataMining:ConceptsandTechniques16公司分析和风险管理财政计划和财产评估现金流分析和预测财产分析的偶发性需求分析典型性分析和时序分析(财政比率,趋势分析等等)资源计划:总结和比较资源和花销竞争:控制对手和市场的方向把顾客划分成许多类,依据类的划分编制价格程序把这个价格策略放到高度竞争的市场环境内2020年9月1日星期二DataMining:ConceptsandTechniques17欺骗性检测和管理(1)广泛应用于医疗系统,零售系统,信用卡服务,电信(电话卡欺骗行为),等等.实现途径:利用历史性数据建立欺骗性行为模型并使用数据挖掘帮助识别同类例子具体事例汽车保险:检测出那些故意制造车祸而索取保险金的人来路不明钱财的追踪:发现可疑钱财交易(美国财政部的财政犯罪执行网)�医疗保险:检测出潜在的病人,呼叫医生和证明人2020年9月1日星期二DataMining:ConceptsandTechniques18欺骗性检测和管理(2)发现不正确的医学治疗澳大利亚医疗保险协