AllRightsReserved,吴联仁北京第二外国语学院数据挖掘与商业智能吴联仁2016.4.24AllRightsReserved,吴联仁北京第二外国语学院数据挖掘与商业智能1什么激发数据挖掘?2数据库与数据仓库3数据挖掘算法4数据挖掘软件的发展5商业智能AllRightsReserved,吴联仁北京第二外国语学院【引导案例1】1-3中国能制作出类《纸牌屋》的电视剧吗?原因:A.没有系统性的数据积累、分析和挖掘习惯B.广告模式不足以覆盖全部成本C.内容需要一定的程序审核大数据解读《星星》互联网时代造神剧AllRightsReserved,吴联仁北京第二外国语学院【引导案例2】1-4犯罪的根源:孟菲斯警察局与孟菲斯大学合作利用SPSS创建一个统计包,利用统计历史减少犯罪。AllRightsReserved,吴联仁北京第二外国语学院措施:锁定抢劫案的多发地区,加派警力进行巡逻,对行为异常的人员加强盘查。结果:收效甚微,发案率依然居高不下。系统中保存了多年的案件和案犯的卷宗信息,通过利用数据挖掘等分析技术,揭示出最近这段时间的抢劫犯具有一些非常显著的特征:没有固定住所,无家可归,而且也没有稳定的工作。另外,在很多抢劫案发生前,这些罪犯都吸食了毒品。新措施:加强对无业人员和有吸毒前科人员的管理,并通过社会福利机构对他们实施救助;加强对毒品交易易发场所的严打和治理,从源头上掐断毒品的供应。结果:抢劫案的发案率迅速降低。1-5【引导案例2】AllRightsReserved,吴联仁北京第二外国语学院1-6【引导案例3】卡夫食品,“澳洲老干妈”传奇:有着90年历史的澳大利亚国民食品VEGEMITE(咸味酱),面临着市场“审美疲劳”的威胁,在IBM协助下,抓取互联网社交媒体上海量数据与信息,将分析转化为洞察,开辟了全新的市场机会,销量激增。AllRightsReserved,吴联仁北京第二外国语学院1-7【引导案例3】社交媒体(SocialMedia),也称为社会化媒体、社会性媒体,指允许人们撰写、分享、评价、讨论、相互沟通的网站和技术。社交媒体营销有两种含义:一种是这些媒体营销自己;一种是其他公司利用这些媒体营销自身的产品。AllRightsReserved,吴联仁北京第二外国语学院1-8AllRightsReserved,吴联仁北京第二外国语学院数据挖掘与商业智能1什么激发数据挖掘?2数据库与数据仓库3数据挖掘算法4数据挖掘软件的发展5商业智能AllRightsReserved,吴联仁北京第二外国语学院数据挖掘的社会需求数据挖掘数据库越来越大有价值的知识可怕的数据AllRightsReserved,吴联仁北京第二外国语学院数据挖掘的社会需求数据爆炸,知识贫乏苦恼:淹没在数据中;不能制定合适的决策!数据知识决策模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济政府POS.人口统计生命周期AllRightsReserved,吴联仁北京第二外国语学院什么是数据挖掘?堆积如山的数据数据挖掘:在你的数据中搜索知识AllRightsReserved,吴联仁北京第二外国语学院什么是数据挖掘?•数据挖掘--从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。•数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构;•数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。AllRightsReserved,吴联仁北京第二外国语学院数据挖掘(Datamining),也称为数据库知识发现(Knowledge-DiscoveryinDatabases,KDD),或认为是KDD中的一个基本步骤。矿山(数据)挖掘工具(算法)金子(知识)AllRightsReserved,吴联仁北京第二外国语学院数据挖掘视为知识发现过程的基础步骤数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示:消除噪音或不一致数据多种数据源可以组合在一起从数据库中提取与分析任务相关的数据;数据变换或统一成适合挖掘的形式使用各种算法提取数据模式识别提供知识的真正有用的模式使用可视化和知识表示技术,向用户提供挖掘的知识AllRightsReserved,吴联仁北京第二外国语学院数据库、数据仓库、或其它信息库:数据挖掘的数据源,需要在其上进行数据清理和集成数据库或数据仓库服务器:根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数据知识库:存储面向领域的知识,用于指导搜索,或评估结果模式的兴趣度数据挖掘引擎:数据挖掘系统核心部分,由一组功能模块组成,用于特征、关联、分类、聚类分析、演变和偏差分析等数据挖掘系统体系结构AllRightsReserved,吴联仁北京第二外国语学院模式评估模块:使用兴趣度度量,与挖掘模块交互,以便将搜索聚焦在有趣的模式上对于有效的数据挖掘,建议尽可能地将模式评估推进到挖掘过程之中,以便将搜索限制在有兴趣的模式上数据挖掘系统体系结构AllRightsReserved,吴联仁北京第二外国语学院图形用户界面:该模块在用户和挖掘系统之间通讯允许用户与系统交互,指定数据挖掘查询或任务,提供信息、帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。允许用户浏览数据库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模式可视化数据挖掘系统体系结构AllRightsReserved,吴联仁北京第二外国语学院数据挖掘与商业智能1什么激发数据挖掘?2数据库与数据仓库3数据挖掘算法4数据挖掘软件的发展5商业智能AllRightsReserved,吴联仁北京第二外国语学院文件组织术语和概念数据结构•位是计算机能处理的最小数据单位。•一组位叫字节,可以表示一个字母、数字或字符。•若干个字节组成一个字、一组字(例如姓名、年龄等),称为字段。•相关字段的有序集合称为记录。•相同类型的记录汇集成文件。•一组有序的文件组成数据库。•一个记录描述一个实体(entity)。•每一个描述实体的特性称为一个属性(attribute)。AllRightsReserved,吴联仁北京第二外国语学院传统文件环境带来的问题会计和金融人力资源销售和市场制造业衍生文件传统文件处理过程传统文件环境带来的问题:数据冗余、数据-程序依赖、缺乏灵活性、低安全性以及低共用性。AllRightsReserved,吴联仁北京第二外国语学院数据库模型数据库软件:是一种软件,可以看得见,可以操作。用来实现数据库逻辑功能。属于物理层。如Oracle,SQLServer等数据库:是一种逻辑概念,用来存放数据的仓库。通过数据库软件来实现。数据库由很多表组成,表是二维的,一张表里可以有很多字段。字段一字排开,对应的数据就一行一行写入表中。数据库的美,在于能够用二维表现多维关系。目前市面上流行的数据库都是二维数据库。如:Oracle、DB2、MySQL、Sybase、MSSQLServer等。AllRightsReserved,吴联仁北京第二外国语学院关系数据库:是表的集合,每个表都赋予一个唯一的名字(关键字段)。每个表包含一组属性,并通常存放大量元组(记录或行)。关系中的每个组元代表一个被唯一关键字标识的对象,并被一组属性值描述。关系数据库数据库在生产环境就是用来干活的,凡是跟业务应用挂钩的,都使用数据库。AllRightsReserved,吴联仁北京第二外国语学院数据仓库,(DataWarehouse)。数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。是商业智能(BI,BusinessIntelligence)下的其中一种技术。数据仓库比如我想知道在哪个时间段,用户登录的量最多?哪个用户一年购物最多?诸如此类的指标。数据仓库的表结构是依照分析需求,分析维度,分析指标进行设计的。AllRightsReserved,吴联仁北京第二外国语学院ETL技术—多维数据分析ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过萃取(Extract)、转置(Transform)、加载(Load)至目的端的过程。AllRightsReserved,吴联仁北京第二外国语学院26多维数据分析多维分析可以对以多维形式组织起来的数据进行上卷、下钻、切片、切块、旋转等各种分析操作,以便剖析数据,使分析者、决策者能从多个角度、多个侧面观察数据库中的数据,从而深入了解包含在数据中的信息和内涵。AllRightsReserved,吴联仁北京第二外国语学院271.上卷(Roll-Up)•上卷是在数据立方体中执行聚集操作,通过在维级别中上升或通过消除某个或某些维来观察更概括的数据。沿着时间维上卷,由“季度”上升到半年AllRightsReserved,吴联仁北京第二外国语学院28上卷(续)•上卷的另外一种情况是通过消除一个或多个维来观察更加概况的数据。消除“经济性质”维度AllRightsReserved,吴联仁北京第二外国语学院292.下钻(drill-down)•下钻是通过在维级别中下降或通过引入某个或某些维来更细致的观察数据。沿时间维下钻AllRightsReserved,吴联仁北京第二外国语学院303.切片(slice)•在给定的数据立方体的一个维上进行的选择操作。切片的结果是得到了一个二维的平面数据。“时间=1季度”AllRightsReserved,吴联仁北京第二外国语学院313.切块(dice)•在给定的数据立方体的两个或多个维上进行的选择操作。切块的结果是得到了一个子立方体。(度量值=“正常”or“次级”)And(时间=“1季度”or“2季度”)AllRightsReserved,吴联仁北京第二外国语学院325.转轴(pivotorrotate)•转轴就是改变维的方向。交换“时间”和“经济性质”轴AllRightsReserved,吴联仁北京第二外国语学院联机操作数据库系统的主要任务是执行联机事务和查询处理。——联机事务处理(OnlineTransactionProcessing,OLTP)系统涵盖了一个组织的大部分日常操作,如购买、库存、制造、银行、工资、记账等。数据仓库系统在数据分析和决策方面为用户提供服务。——联机分析处理(OnlineAnalyticalProcessing,OLAP)系统数据库与数据仓库的区别AllRightsReserved,吴联仁北京第二外国语学院联机事务处理与联机分析处理产品数据库数据仓库增加一条新的生产线更该产品单价扩大顾客的信誉范围更改顾客收入水平顾客数据库个人信息数据库信息被用于决策处理数据库的一种特定形式,它仅支持决策处理上个月有多少产品的销售额超过10000美元如果库存以10%速度下降,那么新的库存担负的成本是什么?顾客能变向接受高价位产品吗?------------------------------------------------------OLTPOLAP数据库与数据仓库的区别AllRightsReserved,吴联仁北京第二外国语学院时间序列数据库文本数据库多媒体数据库182491104832323811502232601023476233N=SEG210987654321TENU_MTH160140120100806040200-20182491104832323811502229181365476233N=SEG210987654321INV_RCNT400003000020000100000-10000DataWarehouse数据挖掘——在何种数据上进行?AllRightsReserved,吴联仁北京第二外国语学院时间序列数据库是指有放随时间变化的值或时间组成的数据库。很多应用中时序数据库很普遍,如股票市场的每日