数据挖掘在商务智能决策与CRM中的应用北京科技大学杨炳儒教授数据挖掘(知识发现)新进展数据挖掘在商务智能决策中的应用数据挖掘在CRM中的应用第一部分数据挖掘(知识发现)新进展五、研究动态与趋向一、数据挖掘(知识发现)概念内涵与外延的发展二、挖掘知识类型的扩展三、挖掘技术方法的扩展四、应用的扩展一、数据挖掘(知识发现)概念内涵与外延的发展结构化数据挖掘DM(KDD)多媒体数据构成的大型异质异构数据库,称为复杂数据类型挖掘CDM[动态(在线)-分布式-并行系统]Web:1、以文本为主的页面内容挖掘2、以客户访问信息为主3、以Web结构为主多媒体:音频、视频、图像、图形、时序、空间等基于知识库的知识发现KDK知识发现的新定义:在现实世界中,针对客观存在的具有海量性、不确定性、不完全性的量的、质的、复杂形态的知识源,挖掘其中潜在的、先前未知的、用户感兴趣的、最终可被用户理解的模式的非平凡提取过程。二、挖掘知识类型的扩展扩展扩展关联规则、分类、聚类、相似模式、混沌模式、时序模式、预测等文本、客户访问路径、音频、视频……生物信息挖掘、游戏信息挖掘、XML文档、多语言文本挖掘、图表数据库、分子结构数据库等三、挖掘技术方法的扩展扩展统计学(数理统计)、证据理论、机器学习、神经网络、粗糙集、近似推理、小波、分形、概念格、概念树提升、决策树等Hilbert空间、信息融合与神经网络结合、距离测度函数、数据立方体、隐马尔可夫模型、信息熵、主观Bayes方法、信息扩散等四、应用的扩展金融、医疗保健、市场业、零售业、制造业、工程与科学、经纪业和安全交易、证券交易、瑕疵分析、政府和防卫、电信、司法、企业经营管理等等应用领域扩展Internet、农业、气象、远程教育、天文学、生物信息、地理信息等等Marksman、ThinkMachine、DataMind、IntelligentMiner、KnowledgeSEEKER、等等实例和软件的扩展MSMiner、KDD*、KDK*、KD(D&K)等等五、研究动态与趋向目前国际上KDD的研究主要是以知识发现的任务描述、知识评价与知识表示为主线,有效的知识发现算法为中心。这是在相当长的一段时间内保持的主流与基调。国外研究动态2003年8月27日在华盛顿召开了第九届知识发现与数据挖掘国际会议,参与讨论的专家一致认为:数据挖掘正面临着巨大的机遇和挑战。其中U.Fayyad认为从科学发展的长远来看,最大的绊脚石是基础理论的缺乏以及所面临的问题和挑战的清晰明白的阐述。他认为对于我们要做什么,几乎没有理论甚至工程实践来指导:在今天它仍然是”不为人知的艺术”。我们需要理论来指导我们要做什么以及要如何作。这些理论能够促使工程解决方法的出现,这样我们也可以将我们的“手艺”更有效的教给其他人。而这种形势与从业者以及对应用感兴趣的人们的巨大的热情同时存在,这些人来自不同的领域,但是没有科学根基以及持续的学术发展,本领域不可能得到发展与巩固。R.Uthurusamy认为WEB的使用和生产厂家的大肆宣传等都会在短期内影响本领域的发展,它们会使得我们将更多的精力投向数据库营销、CRM和OLAP等方面,而不是致力于使KDD从根本上或科学上有大的进步。KDD的基础研究界必须消除这些干扰而去努力解决KDD的真正的根本的问题。国内研究动态我们编制了了软件对中国期刊网上1994年至今的论文进行了分类与统计。1、历年发表文章数分类汇总图示如下(含所有的类别共11707篇)0500100015002000250030001994年1995年1996年1997年1998年1999年2000年2001年2002年2003年2004年2、按照数据挖掘、决策支持系统、专家系统方面的文章统计图示如下:(评价)02004006008001994年1995年1996年1997年1998年1999年2000年2001年2002年2003年2004年发展的基本特征(1)原有理论方法的深化与拓展如:1)网络数据挖掘;流数据;混合数据。2)基于神经网络的的时序数据、相似序列、快速挖掘算法的研究等。3)粗糙集与支持向量机模型与方法的扩展。4)凸分析与数据包络分析方法的运用。5)增强(强化)学习模型与方法的运用。(2)复杂类型(系统)数据挖掘成为热点如:1)生物信息挖掘。KnowledgeDiscoveryforPromoterStructureAnalysisStudyofMotifCorrelationinProteinsbyDataMining(用数据挖掘技术进行蛋白质中启动子的结构分析)2)半结构化、非结构化等复杂类型数据挖掘。AMethodforMiningDataofSequentialImages----RebuildingofGray(Position)timeFunctiononArbitraryDirectionLines(基于图表数据库知识发现系统的概念等级聚类)3)分布式数据挖掘系统。4)动态、在线数据挖掘系统。5)流数据、混合数据与不完备数据挖掘系统。(3)新技术与方法的引入(其它学科领域的渗透)如:人工免疫系统方法;协同验算方法;模拟退火算法;保角变换方法;黎曼几何方法等。(4)理论融合交叉性研究如:基于RoughSet的证据推理算法;模糊关系数据模型与粗集结合算法等。认知心理学、认知物理学、认知生物学等。(5)基础理论研究内在机理研究;自主知识发现框架;DM=数据集+似然关系+挖掘算法等。第二部分数据挖掘在商务智能决策中的应用一、基于信息挖掘的新型智能决策支持系统二、商务部国际商务中心项目简介三、软件系统实现整体说明一、基于信息挖掘的新型智能决策支持系统自从美国麻省理工学院的MichaelS.S.Morton和PeterG.W.Keen于20世纪70年代首次提出决策支持系统(DSS)以来,其发展迅速,不断取得显著的成果,并成为许多行业经营管理中一个不可缺少的现代化决策支持工具。现在正逐步形成新一代的DSS:群决策支持系统(GDSS),分布式决策支持系统(DDSS),战略决策支持系统等,尤其是智能决策支持系统(IDSS)的出现,将人工智能的知识推理等技术引入DSS,使DSS的发展进入了一个新的阶段。近年来,又相继出现了基于数据仓库与基于WEB的智能决策支持系统,大大推进了IDSS的发展。但是,传统的决策支持系统尚存在着推理技术单调,自学习能力较差,形成知识库中的知识不足够丰富这一新的“瓶颈”现象。近年来Internet迅速发展,网上信息极大丰富而知识却相对缺乏,并且这些信息和以往决策支持系统所处理的信息不同,是非结构化的,这就使其处理方式也必然有所不同。所以新一代决策支持系统的发展方向是高度智能化,以多种知识表示、自组织协同工作、自动知识获取和自适应能力较强等为特征。为此,我们提出了基于信息挖掘的智能决策支持系统IDSSIM,这里的信息挖掘区别于通常的数据挖掘,是从结构化数据或复杂类型数据(文本、日志、音频、视频、图像等)中提取新颖、潜在有用知识的非平凡抽取过程。所形成的IDSSIM结构模型可广泛应用于各行各业在管理信息系统的基础上所提升的辅助决策支持系统中。IDSSIM的总体结构模型如下图所示:在线帮助子系统决策者用户接口问题解释子系统自检子系统(指令与测试指标传输)模型定位子系统分级诊断子系统综合知识库(问答集,KDD*知识,推理知识)WEB知识库基于推理机制的知识发现子系统基于双库协同机制的知识发现子系统基于WEB挖掘的知识发现子系统知识库数据库方法库模型库文本库日志库多库管理子系统知识获取子系统专家知识书本知识InternetIDSSIM总体结构模型其理论基础是我们提出的基于双库协同机制的知识发现系统KDD*和WEB数据挖掘过程,它以多个知识源的知识融合、多抽象级与不同知识层次的结构,以及使数据库、知识库、方法库、模型库、文本库、日志库六库协同运作为特征,形成了极其丰富的动态知识库系统与相应的集成推理机制,为解决决策系统构造中的核心技术提供了一条有效的途径,也从根本上提高了决策支持系统的实用化程度。系统的核心是“源于信息的知识发现KDBI”(KnowledgeDiscoveryBasedonInformation),它在模块实现上主要包含三个部分:基于双库协同机制的知识发现子系统(KDD*)、基于推理机制的知识发现子系统(KDRM)和基于WEB挖掘的知识发现子系统(KDWM)。可粗略地表示为:KDBI=KDD*+KDRM+KDWM。首先,六库(数据库、知识库、方法库、模型库、文本库、日志库)在多库管理子系统的管理下协同运作。知识获取子系统可以从领域专家那里获取知识,也可以获取书本中的知识,并将这些知识存储在知识库中。基于信息挖掘的新型智能决策支持系统。其次,知识库中的知识可以直接纳入综合知识库,也可以被基于双库协同机制的知识发现(KDD*)子系统利用,在以属性为基础的知识库建库原则下,通过搜索知识库中知识结点的不关联态,产生“创见意向”,发现短缺知识。再次,基于推理机制的知识发现子系统(KDRM),包括用一种或多种知识表示方法描述的已知问题及其解法的描述集合的知识库和需要求解的问题集;通过Fuzzy推理、演绎推理、广义综合归纳推理和基于案例的推理等,构造规则集和发现新知识。来自WEB的信息首先被存储在文本库和日志库中,并由基于WEB的知识发现子系统挖掘关于访问信息、文本和结构方面的知识,并将挖掘结果存入WEB知识库。二、商务部国际商务中心项目简介在与国家商务部国际商务中心的合作中,构造了基于我们专利技术的“面向加工贸易基于竞争情报的智能决策支持系统”。针对外贸加工中国内采购与供应链系统进行深入分析,通过数据挖掘、WEB挖掘、案例推理与OLAP等技术,挖掘出一些平时很难靠直观或凭借经验发现的规则,发现了若干新的知识。对领导战略决策与企业经营决策管理有一定的参考价值。利用商务部国际商务中心长期积累的对外加工贸易的数据,充分运用我们的创新性信息处理技术和数据挖掘技术,开展研发工作。目前已通过验收,并将对国家的对外贸易和商务活动产生较大影响。概括起来有如下几点:1)为对外贸易企业“请进来,走出去”提供决策支持;2)为领导关注的热点问题,提供决策支持;3)为外商投资提供咨询指导;4)为国家和地方招商引资提供科学的建议。项目主页应用窗口三、软件系统实现整体说明1、OLAP问题域运行环境与开发工具OLAP问题域1、经营企业信息分析2、国产料件分析3、进口料件分析4、加工行业分析5、外商分析6、进出口币种分析7、工缴费分析8、口岸与海关分析9、出口成品分析OLAP运行环境与工具服务器端:硬件:性能较好的服务器、网络链接软件:ORACLE数据库服务器及数据、BRIOINTELLIGENCESERVER、BRIOCLIENTDESIGNER客户端:硬件:普通PC、网卡、INTERNET网络链接软件:BRIOCLIENTEXPLORER、通用浏览器2.KDD*问题域计算模式与开发工具总体设计流程图KDD*问题域说明预想:就采购价值链方面内容,展开数据挖掘,重点对国内采购现状,抽取相关关联规则,提供领导决策信息。方法特征:智能系统内在的使用了人工智能方法与软计算方法,知识发现方法寻求新颖的知识类型,因而所发现的知识与数据状况密切相关。在未作实际挖掘前难以确定其明确主题。将提交结果:就目前挖掘情况看,领导决策方面与企业经营决策方面的内容都可能发现较有价值得知识。因而,须在实际研发过程中,逐步筛选、调试、聚焦。KDD*计算模式与开发工具计算模式:客户机/服务器模式运行环境与开发工具客户端:windows平台,DELPH,ODBC服务器端:商务部现有环境和ORACLE数据库系统KDD*总体设计流程图数据清洗主题管理知识库管理构建知识库属性离散化用户自定义挖掘启发式数据挖掘中断评价对数据进行离散化形成挖掘数据库,为挖掘做准备形成基础知识库为下面的启发式数据挖掘做准备知识库管理知识的展示总体设计