(北邮邓芳老师)第六章决策支持系统2

86311241
0 ℃
2018-12-07

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第六章决策支持系统6.1原理及结构一基本内容1决策支持系统：以计算机为基础的知识信息系统，协助解决不确定性、半结构化问题，对决策进行支持的系统。70年代提出，在管理信息系统的基础上发展起来。2特点：辅助决策，不能代替决策；解决不确定性、半结构化的问题；通过数据和决策模型实现。二系统结构11980年，Sprague提出三部件结构：对话部件、数据部件、模型部件；决策支持主要以模型库系统为主体，通过定量分析进行辅助决策。２三系统结构语言系统（LS）：提供给决策者所有语言能力的总和，包括检索语言、数值计算语言等；问题处理系统（PPS）：针对问题，提出问题处理的方法。知识系统：问题领域的知识，包括事实和相关知识。缺点：忽略了数据库系统、模型库系统的相互关系，不适合与其他系统（MIS、ES）的区别。3统一结构：问题处理及人机交互系统模型库管理系统数据库管理系统模型库数据库用户（1）综合部件控制模型运行多模型组合运行人机交互数值计算与数据处理（2）模型部件模型库模型的表示及存储模型库管理系统（3）数据部件：数据库；数据库管理系统。决策支持系统例一：橡胶配方决策问题某橡胶产品由3种原料按一定比例配方，做成产品后经过测试，可以得到9个性能值。现在，由于社会的需要，对橡胶产品9个性能提出约束要求，请求生产厂家生产出符合性能要求的橡胶产品。对该决策问题进行决策支持系统设计：（1）找出“原料-性能”的基本规律；（2）利用该规律，根据对性能的要求，反过来求解原料的配方。1模型库设计（1）找“原料-性能”规律，试探建立多元回归模型；（2）由性能约束求原料配方，建立多目标规划模型；（3）报表模型；2数据库（1）产品数据库；（2）规划数据库：规划模型约束方程和目标方程有关数据；3总控程序决策支持系统例二：物资分配调拨问题根据各单位提出对物资的需求申请，按仓库的库存情况决定分配方案，再根据分配方案以及仓库和单位的距离制定物资运输方案。涉及到的数据库：单位申请；仓库库存；物资分配；距离；物资调拨。。。涉及到的模型：汇总模型；预处理模型；分配模型；运输优化；调拨；制表。分配模型及运输优化为数学模型；其余为数据处理模型。6.2智能决策支持系统一在决策支持系统（DSS）的基础上集成知识库系统/ES而形成。问题处理与人机交互系统模型库管理系统数据库管理系统知识库管理系统推理机模型库知识库数据库与知识库系统结合的几种形式：（1）DSS和ES的总体结合，两者一体化；（2）KB和MB的结合，将模型库中的数学模型和数据处理模型作为知识的一种形式，例如过程型知识加入；（3）DB和动态DB的结合：DSS中的DB看成是相对静态的数据库，为ES中的动态数据库提供初始数据。二与KDD相结合的决策支持系统KnowledgeDiscoveryinDatabase1KDD技术KDD是数据库中知识发现的简称。通过一系列自动过程或在用户参与下，经过分析、推理、评估，从大量数据中发现所蕴涵的联系、描述数据特性的规则和知识，帮助用户完成各种决策、商业行为、科学目标。2处理过程数据目标数据预处理数据转换的数据模式/信息数据选择预处理转换数据挖掘解释评估（1）确定应用领域和问题，并从用户角度定义出KDD处理的目标；（2）创建目标数据集；（3）数据预处理；（4）数据变换；依据目标决定能表示数据特征的有用信息；（5）根据目标和数据特点，选择一合适的数据挖掘方法和一具体算法；（6）数据挖掘；寻求有用模式和知识的具体过程；（7）解释和评估所挖掘的结果；（8）综合整理所发现的知识，把发现的知识应用到更高层应用系统，或将结果以可以理解的表示方法呈现给用户。3与决策结合的优势：（1）能增强决策支持系统决策的客观性，数据仓库中存储面向分析、经过加工的数据；（2）KDD过程中融合了对大量数据（数据仓库）、数据分析（挖掘）、知识和模式的处理，为决策支持系统中数据、模型、知识的结合提供了新的思路和方法；（3）KDD中提供了对数据的有效管理，并有大量分析工具和描述方法，提高决策支持系统的健壮性；（4）KDD中对实际应用系统数据多维深层的及时处理，将决策支持与实际应用密切结合，提高决策分析的效率和实用性。4应用方式（1）以KDD技术为核心，主要提供帮助决策的一些知识和信息：数据库数据文件其它数据目标数据仓库数据仓库管理知识模式决策信息数据用户数据抽取、转换数据装载数据分析数据挖掘评估整理解释访问（2）与传统的决策支持结构相融合从数据利用、知识及模型的变化补充等方面提供帮助。综合及交互系统模型库管理模型库知识库管理知识库模式知识数据库数据文件其它数据目标数据仓库数据仓库管理数据抽取、转换数据装载分析挖掘分析挖掘评估融合评估融合相关部分及内容：数据源：为目标数据提供各种源数据；数据抽取、转换、装载工具：从数据源中抽取数据，并对数据检验和整理，根据目标及数据仓库本身的特点进行组织和转换，装载到目标数据仓库中；目标数据库；数据仓库数据管理：提供对数据仓库本身的管理，包括存取、安全、一致性等；前端数据访问和分析。问题：面向更广阔的数据源；知识的有效维护；和原有知识和模型的融合。5数据仓库（1）20世纪80年代中期，“数据仓库之父”WiiliamH.Inmon定义：数据仓库是在管理人员决策中的面向主题的、集成的、稳定的、不同时间的数据集合。面向主题：数据是围绕业务主题组织的；集成：数据作为一个整体进行存储；稳定：数据保持不变；不同时间：时间量度明确地包含在数据中。（数据集市：数据仓库的最小版本，单一领域有关的数据集合，通向规模完整数据仓库的有用的一步。）特点：数据仓库包含大量数据；组织数据仓库是为了更好地使用数据进行决策；数据仓库为最终用户提供了可用来存取数据的工具。数据仓库相关元素及过程：（1）构成数据仓库的事务数据库或其他操作数据库；（2）提取转换过程；从数据库中提取数据并将其转换成数据仓库的数据库结构和内部格式；（3）数据净化；（4）数据加载，到数据仓库的数据库中；（5）元数据；（6）数据仓库数据库：包含各种明细数据和汇总数据；（7）查询工具，联机分析处理；（8）数据仓库用户。电信行业中，数据仓库面向的主题主要是各种各样的业务，目前主要包括：•大客户资料分析：分析大客户的基本信息以及帐务信息，了解大客户情况，从中挖掘新的销售机会；•客户流失分析：分析客户流失情况，刻画流失客户的特征，对未来可能流失的客户作出预测，作出相应的挽留措施；•网络状况分析：分析网络的情况，刻画网络元素的分布以及利用率，为今后的网络优化提供数据支持；•客户信用度与忠诚度分析：通过信用度模型，评价客户的信用度，从而对不同的欠费用户采用不同的措施。决策支持与事务之间数据库要求上的差异：特征事务处理需要数据仓库需要易变性动态静态通用性当前的历史的时间维暗指明确、可见粒度原始的、详细详细的和汇总更新连续的、随机定期的、计划任务可重复的不可预期的灵活性低高性能要求高性能可接受低性能数据仓库内容分析：通常两种手段：（1）用户引导分析，联机分析处理（OLAP）：是一类软件技术，允许分析人员、用户通过以下方式获得更有价值数据：对已经从原始数据转换成用以反映真正问题所在的信息的各种可能视图的快速、一致、交互的访问。（2）数据挖掘(DataMining)从大量的数据集合中有效地发现有价值但不明显的信息；计算机进行分析工作；不会受用户对数据间最可能存在关系的预先设想看法的束缚。OLAP查询数据挖掘调查去年那些客户消费最多？哪些类型的客户明年将成为消费最多的？银行过去两年的贷款违约损失是多少？什么样的消费者最可能成为规定期限到达前偿还贷款？什么商品最畅销？什么附加品最可能卖给买了运动服的消费的商品？哪个分店去年销售额最高？明年应在什么地区开一新商店？数据挖掘所能发现的知识有如下几种：广义性知识：反映同类事物共同性质的知识；特征性知识：反映事物各方面特征的知识；差异性知识：反映不同事物间属性差别的知识；关联性知识：反映事物之间依赖或关联的知识；预测性知识：根据历史的和当前的数据推测未来数据；偏离型知识：揭示事物偏离常规的异常现象。数据挖掘的任务及目标：（1）相关分析：若两个或多个变量/属性之间存在某种规律，则称相关联：简单关联：买面包的人90%买牛奶；时序关联：粮食涨价，不久副食品涨价；因果关联：条件与结论的关联关系。方法：统计技术；分析字段项间的共变性。关联分析需注意问题：规则可信度；规则的评价；•关联规则挖掘（AssociationRuleMining）是数据挖掘中研究较早而且至今仍活跃的研究方法之一。•最早是由Agrawal等人提出的（1993）。最初提出的动机是针对购物篮分析（BasketAnalysis）问题提出的，其目的是为了发现交易数据库（TransactionDatabase）中不同商品之间的联系规则。•关联规则的挖掘理论、算法设计、算法的性能以及应用推广、并行关联规则挖掘以及数量关联规则挖掘等。•关联规则挖掘是数据挖掘的其他研究分支的基础。（2）聚类将数据记录划分为一系列有意义的子集，即类。常常为规则抽取算法提供有用的数据。方法：数学分类法；模式识别；概念聚类；神经网络的自组织模型；聚类分析的目标就是形成的数据簇，并且满足下面两个条件：•一个簇内的数据尽量相似•不同簇的数据尽量不相似聚类在数据挖掘中的典型应用有：•聚类分析可以作为其它算法的预处理步骤：利用聚类进行数据预处理，可以获得数据的基本概况，在此基础上进行特征抽取或分类就可以提高精确度和挖掘效率。也可将聚类结果用于进一步关联分析，以获得进一步的有用信息。•可以作为一个独立的工具来获得数据的分布情况：聚类分析是获得数据分布情况的有效方法。通过观察聚类得到的每个簇的特点，可以集中对特定的某些簇作进一步分析。这在诸如市场细分、目标顾客定位、业绩估评、生物种群划分等方面具有广阔的应用前景。•聚类分析可以完成孤立点挖掘：许多数据挖掘算法试图使孤立点影响最小化，或者排除它们。然而孤立点本身可能是非常有用的。如在欺诈探测中，孤立点可能预示着欺诈行为的存在。（3）概念描述对一类数据对象的内涵进行描述，以概括这个类的有关特性。分类。两类描述：特征描述：对类中对象共同特点的描述；辨别性描述：对两个或多个类之间的区别的描述。方法：决策树方法：ID3、IBLE等；神经网络方法：遗传算法；•分类的目的是学会一个分类器（分类函数或模型），该分类器能把待分类的数据映射到给定的类别中。•分类可用于预测。从利用历史数据纪录中自动推导出对给定数据的推广描述，从而能对未来数据进行类预测。•分类具有广泛的应用，例如医疗诊断、信用卡系统的信用分级、图像模式识别等。•从使用的主要技术上看，可以把分类方法归结为四种类型：•基于距离的分类方法•决策树分类方法•贝叶斯分类方法•规则归纳方法。（4）偏差检测寻找观察结果和参照之间的差别。观察常指某一领域的值或多个领域值的总汇；参照是给定模型的预测，外界提供的标准量或另一个观察。偏差包括很多有用的规则知识：（a）分类中的反常实例；（b）模式的例外；（c）观察结果对模型预测的偏差；（d）量值随时间的变化。从数据库中发现重要的异常情况。(5)预测从现有的数据中找出规律性，建立模型，用此模型预测未知事例的种类、特性等。方法：回归方程、神经网络。•时间序列（TimeSeries）挖掘是数据挖掘中的一个重要研究分支，有着广泛的应用价值。•近年来，时间序列挖掘在宏观的经济预测、市场营销、客流量分析、太阳黑子数、月降水量、河流流量、股票价格变动等众多领域得到应用。事实上，社会、科学、经济、技术等领域中广泛存在着大量的时间序列数据有待进一步的分析和处理。从统计意义上来讲，所谓时间序列就是将某一指标在不同时间上的不同数值，按照时间先后顺序排列而成的数列。时间序列挖掘通过对过去历史行为的客观记录分析，揭示其内在规律，进而完成预测未来行为等决策性工作。时间序列数据挖掘就是要从大量的时间序列数据中提取人们事先不知道的、但又是潜在有用的与时间属性相关的信息和知识，并用于短期、中期或长期预测，指导人们的社会、经济、军事和生