华中科技大学谭毅华_数据挖掘1-引言

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

DataMiningYihuaTan2020/5/28数据挖掘:引言谭毅华Yihua.tan@263.net华中科技大学图像识别与人工智能研究所DataMiningYihuaTanIPRAI-HUST2020/5/28p2内容课程介绍数据挖掘的必要性(Why)数据挖掘的内涵(What)处理的数据(Data)实现的功能(Functionality)主要问题(Issues)系统现状(Systems)DataMiningYihuaTanIPRAI-HUST2020/5/28p3教材范明,孟小峰等译.数据挖掘:概念与技术.北京:机械工业出版社.2001.邵峰晶,于忠清.数据挖掘-原理与算法.北京:中国水利水电出版社.2003IanH.Witten,EibeFrank.数据挖掘:实用机器学习技术及Java实现(英文版).北京:机械工业出版社,2003相关网址JiaweiHan:~hanj时间安排W5:Tue,引言Fri,国庆假W6:Tue,数据及其加工处理Fri,关联规则分析W7:Tue,分类分析Fri,聚类分析W8:Tue:文本和多媒体挖掘Fri:交作业,考试1-2节DataMiningYihuaTanIPRAI-HUST2020/5/28p5学习评价及联系方式评价结果作业30%考试70%联系方式E-Mail:yihua.tan@263.netTel:027-87556301Cel:13886021197DataMiningYihuaTanIPRAI-HUST2020/5/28p6内容课程介绍数据挖掘的必要性(Why)数据挖掘的内涵(What)处理的数据(Data)实现的功能(Functionality)主要问题(Issues)系统现状(Systems)DataMiningYihuaTanIPRAI-HUST2020/5/28p7Motivation:数据挖掘的产生知识海洋自动数据搜集工具数据库技术,数据仓库全民资源贡献(Web)获取有用知识商业结论科学假设和规律发现获取的方式人工数据仓库数据挖掘DataMiningYihuaTanIPRAI-HUST2020/5/28p8Why:数据挖掘的作用知识爆炸的苦恼:何处是真谛?如何痛下决断?模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择货架商品搭配销售的地理位置NBA布阵金融经济政府POS.人口统计生命周期体育比赛数据决策信息决策DataMiningYihuaTanIPRAI-HUST2020/5/28p9数据库技术的发展1960s:数据搜集,数据库建立,IMS和网络DBMS1970s:关系数据模型,关系DBMS实现1980s:关系DBMS,先进数据模型(扩展关系模型,面向对象,推理,etc.),面向应用DBMS(空间,科学,工程,etc.)1990s:数据挖掘,数据仓库,多媒体数据库,Web数据库2000s流数据管理和挖掘数据挖掘及应用网络技术(XML,数据集成),全球信息系统DataMiningYihuaTanIPRAI-HUST2020/5/28p10内容课程介绍数据挖掘的必要性(Why)数据挖掘的内涵(What)处理的数据(Data)实现的功能(Functionality)主要问题(Issues)系统现状(Systems)DataMiningYihuaTanIPRAI-HUST2020/5/28p11内容课程介绍数据挖掘的必要性(Why)数据挖掘的内涵(What)处理的数据(Data)实现的功能(Functionality)主要问题(Issues)系统现状(Systems)DataMiningYihuaTanIPRAI-HUST2020/5/28p12What:什么是数据挖掘定义从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。从数据中抽取未知的隐含的有用知识。应用自动或半自动的方法,对大规模的数据进行调查和分析发现有意义的模式。别名知识发现商业智能datadredginginformationharvestingdataarcheologyDataMiningYihuaTanIPRAI-HUST2020/5/28p13什么是(或不是)数据挖掘不是数据挖掘的简单的搜索和查询文件查找电话号码查找网络搜索引擎查询与”华中科技大学“相关的信息专家系统是数据挖掘的有加工信息的搜索和查询查询百家姓的人数排名关键字搜索学术文章,返回带有”相关度“信息根据上下文信息”华中科技大学“,将相似网页组织在一起DataMiningYihuaTanIPRAI-HUST2020/5/28p14数据挖掘的过程数据搜集数据预处理DataMining模式解释和评估问题定义DataMiningYihuaTanIPRAI-HUST2020/5/28p15数据挖掘步骤问题定义(和领域知识专家一道)挖掘何种知识?明确要求确定可用算法数据搜集确定需要用到的数据库和数据集数据预处理去噪、缺失值处理、数据类型转换、数据简化等数据挖掘算法(分类、聚类和序列模式发现等)数据特点结果表示:描述性或预测性知识结果解释和评估去除冗余可视化DataMiningYihuaTanIPRAI-HUST2020/5/28p16数据挖掘:多学科的交叉DataMiningDatabaseTechnologyStatisticsML/AIPatternRecognitionAlgorithmOtherDisciplinesVisualizationDataMiningYihuaTanIPRAI-HUST2020/5/28p17数据挖掘的多面性数据面关系型,流式,数据仓库,事务,面向对象,空间数据,时间序列,文本,多媒体,异构数据库,知识面特征,识别,关联,分类,聚类,趋势等.集成功能,多级挖掘技术面数据库技术,数据仓库(OLAP),机器学习,统计学,可视化,模式识别等应用面零售业,电信,银行保险,诈骗分析,生物数据挖掘,股票市场分析,文本挖掘,web挖掘,上网行为分析等.DataMiningYihuaTanIPRAI-HUST2020/5/28p18内容课程介绍数据挖掘的必要性(Why)数据挖掘的内涵(What)处理的数据(Data)实现的功能(Functionality)主要问题(Issues)系统现状(Systems)DataMiningYihuaTanIPRAI-HUST2020/5/28p19数据挖掘处理的数据类型RelationalDatabaseDatawarehousesTransactionaldatabasesAdvancedDBandinformationrepositoriesObject-orientedandobject-relationaldatabasesSpatialdatabasesTime-seriesdataandtemporaldataTextdatabasesandmultimediadatabasesHeterogeneousandlegacydatabases数据仓库从一个或多个数据源搜集到的信息储存库,存放在一个一致的模式下,通常驻留在单个站点。数据清理数据变换数据集成数据装入定期刷新过程数据汇总组织特定主题:顾客、商品和活动等用多维数据库结构建模适合于OLAP清理变换集成装入刷新数据仓库查询与分析工具客户客户异地数据源DataMiningYihuaTanIPRAI-HUST2020/5/28p21事务数据库每个记录代表一个事务:包括事务的唯一标识号和组成该事务的项例:TIDItems1Bread,Milk2Bread,Diaper,Beer,Eggs3Milk,Diaper,Beer,Coke4Bread,Milk,Diaper,Beer5Bread,Milk,Diaper,CokeDataMiningYihuaTanIPRAI-HUST2020/5/28p22空间数据库包含涉及空间的信息地图数据库VLSI集成电路蛋白质分子3D空间排列DataMiningYihuaTanIPRAI-HUST2020/5/28p23时空数据库数据在空间上分布,并随时间变化changeswithtimeEx:森林火灾,运动目标,飓风和地震DataMiningYihuaTanIPRAI-HUST2020/5/28p24多媒体数据库图像、视频和音频数据。(image/videoretrieval)DataMiningYihuaTanIPRAI-HUST2020/5/28p25Web数据Title:CNN.comInternationalH1:IAEA:IranhadsecretnukeagendaH3:EXPLOSIONSROCKBAGHDAD…TEXTBODY(withpositionandfonttype):TheInternationalAtomicEnergyAgencyhasconcludedthatIranhassecretlyproducedsmallamountsofnuclearmaterialsincludinglowenricheduraniumandplutoniumthatcouldbeusedtodevelopnuclearweaponsaccordingtoaconfidentialreportobtainedbyCNN…Hyperlink:•URL:•AnchorText:AIoaeda…Image:•URL:•Alt&Caption:Irannuclear…AnchorText:CNNHomepageNews…DataMiningYihuaTanIPRAI-HUST2020/5/28p26内容课程介绍数据挖掘的必要性(Why)数据挖掘的内涵(What)处理的数据(Data)实现的功能(Functionality)主要问题(Issues)系统现状(Systems)DataMiningYihuaTanIPRAI-HUST2020/5/28p27数据挖掘分类:知识面描述性数据挖掘:找出用于人解释的数据描述模式预测式数据挖掘:用一些变量预测其它变量的未知或将来值描述性预测式聚类分析关联分析序列分析回归分析偏差检测分类DataMiningYihuaTanIPRAI-HUST2020/5/28p28数据挖掘的功能(1):分类ClassificationAnalysis基于训练集构建模型(函数)目标:给新的记录尽可能准确地赋以某个类属以测试集描述模型的分类精度ExampleTidRefundMaritalStatusTaxableIncomeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes10RefundMaritalStatusTaxableIncomeCheatNoSingle75K?YesMarried50K?NoMarried150K?YesDi

1 / 52
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功