[经典语录]表达爱意的句子

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

11数据挖掘与情报分析—第一章—田华伟博士、讲师侦查与反恐怖学院公安情报技术教研室2第一章.引言为什么要数据挖掘?什么是数据挖掘?可以挖掘什么类型的数据?可以挖掘什么类型的模式?使用什么技术?3为什么要数据挖掘?数据迅猛增长:从TB(terabytes,数兆兆)到PB(petabytes数千兆兆)级可用数据采集自动数据采集工具,存储工具,社会计算机化等迅猛发展主要的数据源商业:网站、电子商务、交易数据、股票交易记录、…科学和工程实践:遥感、过程测量、科学实验、工程观测、环境监测、……社会和每个人:新闻、优酷、设计网络等Wearedrowningindata,butstarvingforknowledge!“Necessityisthemotherofinvention”—柏拉图4EvolutionofSciencesBefore1600,empirical(经验主义的)science1600-1950s,theoretical(理论的)scienceEachdisciplinehasgrownatheoreticalcomponent.Theoreticalmodelsoftenmotivateexperimentsandgeneralizeourunderstanding.1950s-1990s,computational(计算的)scienceOverthelast50years,mostdisciplineshavegrownathird,computationalbranch(e.g.empirical,theoretical,andcomputationalecology,orphysics,orlinguistics.)ComputationalSciencetraditionallymeantsimulation.Itgrewoutofourinabilitytofindclosed-formsolutionsforcomplexmathematicalmodels.1990-now,data(数据的)scienceThefloodofdatafromnewscientificinstrumentsandsimulationsTheabilitytoeconomicallystoreandmanagepetabytesofdataonlineTheInternetandcomputingGridthatmakesallthesearchivesuniversallyaccessibleScientificinfo.management,acquisition,organization,query,andvisualizationtasksscalealmostlinearlywithdatavolumes.Dataminingisamajornewchallenge!JimGrayandAlexSzalay,TheWorldWideTelescope:AnArchetypeforOnlineScience,Comm.ACM,45(11):50-54,Nov.20025数据库系统技术的演变(图1.1)1960s以前:数据收集和数据库创建(原始文件处理)1970s:-1980s:数据库管理系统(关系数据库)1980s中期-现在:高级数据库系统1980s后期-现在:高级数据分析6第一章.引言为什么要数据挖掘?什么是数据挖掘?可以挖掘什么类型的数据?可以挖掘什么类型的模式?使用什么技术?7什么是数据挖掘?数据挖掘(Datamining)也称为:数据中的知识发现(KnowledgeDiscoveryfromData,从数据中挖掘知识)Extractionofinteresting(non-trivial,implicit,previouslyunknownandpotentiallyuseful)patternsorknowledgefromhugeamountofdata提取有趣的(非平凡的、隐含的、预先不知道的、潜在有用处的)模式或者知识从海里的数据中8知识发现(KDD)的一个步骤数据清洗、集成数据库数据仓库任务相关数据选择和变换数据挖掘模式评估从典型的数据库系统和数据仓库的视角数据挖掘是知识发现的关键步骤9知识发现:从机器学习和统计学的视角输入数据数据挖掘数据预处理数据后处理数据集成归一化特征选择数据降维模式发现关联性&相关性分类聚类异常点分析…………模式评估模式选择模式解释模式可视化10第一章.引言为什么要数据挖掘?什么是数据挖掘?可以挖掘什么类型的数据?可以挖掘什么类型的模式?使用什么技术?111、面向数据库的数据集关系数据库数据--数据库管理系统围绕“表”数据仓库围绕“主题”事务数据围绕“事务记录”122、其他类型的数据时序相关/序列数据历史记录、股票交易数据、时间序列、生物学序列数据数据流视频监控和传感器数据空间数据-地图工程设计数据建筑数据、系统部件或集成电路超文本和多媒体数据文本、图像、视频和音频数据图和网状数据社会网络和信息网络13第一章.引言为什么要数据挖掘?什么是数据挖掘?可以挖掘什么类型的数据?可以挖掘什么类型的模式?使用什么技术?14挖掘频繁模式、关联分析频繁模式(or频繁项集)频繁项集频繁子序列频繁子结构关联性,相关性典型的关联规则DiaperBeer[0.5%,75%](support,confidence)尿片啤酒[0.5%,75%](支持度,置信度)强关联能说明强相关吗?在海里数据中如何挖掘这些模式和规则?如何利用这些模式进行分类、聚类以及其它应用?15分类分类和类标号预测找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象的类标号1、基于训练样本的模型(函数)构建2、利用模型来预测类标号未知的对象的类标号E.g.,基于气候的国家分类、基于排量的汽车分类典型方法决策树、朴素贝叶斯分类(naïveBayesianclassification)、支持向量机(SVM)、人工神经网络、k最近邻分类、逻辑回归、…16聚类无监督学习(i.e.,类的标签\标号是未知的)将数据分组以得到新分类(簇clusters)原理:最大化类内相似性、最小化类间相似性17离群点分析Outlieranalysis离群点:有一些数据对象,它们与数据的一般行为或模型不一致噪声or异常?―Oneperson’sgarbagecouldbeanotherperson’streasure方法:聚类或者回归分析的的副产品,…欺骗检测、犯罪分析、稀有事件检测18第一章.引言为什么要数据挖掘?什么是数据挖掘?可以挖掘什么类型的数据?可以挖掘什么类型的模式?使用什么技术?19从其他许多领域吸纳技术DataMiningMachineLearningStatisticsApplicationsAlgorithmPatternRecognitionHigh-PerformanceComputingVisualizationDatabaseTechnology课堂练习结合本次课的内容,你认为数据挖掘技术如何应用到公安工作中?举例叙述February16,2020DataMining:ConceptsandTechniques20

1 / 4
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功