决策理论与方法(4)——智能决策理论与方法(1)合肥工业大学管理学院2019年8月29日2019年8月29日9时1分决策理论与方法-智能决策理论与方法不确定性决策不确定性决策:指难以获得各种状态发生的概率,甚至对未来状态都难以把握的决策问题。特点:状态的不确定性。不确定性:不确定性来自人类的主观认识与客观实际之间存在的差异。事物发生的随机性、人类知识的不完全、不可靠、不精确和不一致以及自然语言中存在的模糊性和歧义性,都反映了这种差异,都会带来不确定性。不确定性就造成了具有相同描述信息的对象可能属于不同概念。解决问题的主要理论方法:人工智能与不确定性理论2019年8月29日9时1分决策理论与方法-智能决策理论与方法智能决策理论与方法1、智能决策理论的形成背景2、知识发现3、粗糙集理论4、机器学习2019年8月29日9时1分决策理论与方法-智能决策理论与方法智能决策理论与方法—形成背景人类面临越来越复杂的决策任务和决策环境:决策问题所涉及的变量规模越来越大;决策所依赖的信息具有不完备性、模糊性、不确定性等特点,使得决策问题难以全部定量化地表示出来;某些决策问题及其目标可能是模糊的、不确定的,使得决策者对自己的偏好难以明确,随着决策分析的深入,对决策问题的认知加深,自己原有的偏好/倾向得到不断地修正,使得决策过程出现不断调整的情况,这时,传统的决策数学模型已经难以胜任求解复杂度过高的决策问题、含有不确定性的决策问题以及半结构化、非结构化的决策问题,因而产生了智能决策理论、方法及技术。2019年8月29日9时1分决策理论与方法-智能决策理论与方法智能决策理论与方法—AI的应用模式智能决策方法是应用人工智能(ArtificialIntelligence,AI)相关理论方法,融合传统的决策数学模型和方法而产生的具有智能化推理和求解的决策方法,其典型特征是能够在不确定、不完备、模糊的信息环境下,通过应用符号推理、定性推理等方法,对复杂决策问题进行建模、推理和求解。AI应用于决策科学主要有两种模式:针对可建立精确数学模型的决策问题,由于问题的复杂性,如组合爆炸、参数过多等而无法获得问题的解析解,需要借助AI中的智能搜索算法获得问题的数值解;针对无法建立精确数学模型的不确定性决策问题、半结构化或非结构化决策问题,需要借助AI方法建立相应的决策模型并获得问题的近似解。2019年8月29日9时1分决策理论与方法-智能决策理论与方法智能决策理论与方法1、智能决策理论的形成背景2、知识发现3、粗糙集理论4、机器学习2019年8月29日9时1分决策理论与方法-智能决策理论与方法知识发现—动机智能决策的核心是如何获取支持决策的信息和知识。问题知识获取是基于知识的系统(KBS)的最大瓶颈推理机知识工程师领域专家决策者知识库问题请求推理结果2019年8月29日9时1分决策理论与方法-智能决策理论与方法知识发现—动机问题推理规则的获取与KBS中知识获取一样难,因而基于案例推理(Case-BasedReasoning)渐渐变成基于案例检索(Case-BasedRetrieving)。推理机决策者案例库问题请求推理结果规则库知识工程师领域专家2019年8月29日9时1分决策理论与方法-智能决策理论与方法知识发现—动机决策者数据分析师数据中心不一定满意的决策决策支持查询查询结果问题数据分析师与决策者之间对问题的理解存在偏差缺少有创造性的决策建议技术问题:如查询效率(RDBMS)2019年8月29日9时1分决策理论与方法-智能决策理论与方法知识发现—动机推理机数据挖掘工具数据中心决策者知识库问题请求推理结果背景知识领域专家优点知识独立于问题本身知识的获取主要通过数据挖掘实现有创造性收获2019年8月29日9时1分决策理论与方法-智能决策理论与方法知识发现—动机KDD带来的新问题知识发现问题:如何从数据中将知识挖掘出来?面临许多技术问题:如数据异构问题、数据具有噪音且信息不完整、使用什么样的挖掘算法、知识如何表示等知识评价问题:数据本身具有权威性、客观性,但知识不具备。知识如何评价?2019年8月29日9时1分决策理论与方法-智能决策理论与方法知识发现—基本概念知识发现(KnowledgeDiscoveryinDatabases,KDD):从大量数据中提取隐含的(预先未知、新颖)、有潜在应用价值的(可信、有效)并最终能被人理解的模式的非平凡过程。也称为数据挖掘(DataMining)。此过程主要包含三个阶段:数据准备阶段、数据挖掘阶段、解释评价阶段。抽样预处理数据挖掘解释/评价数据中心样本集预处理结果变换结果挖掘结果知识任务描述变换2019年8月29日9时1分决策理论与方法-智能决策理论与方法知识发现—基本概念数据准备阶段一般包含数据选取、预处理和数据变换等任务:数据选取:根据用户的需要从原始数据集中抽取一组样本数据确定挖掘任务的操作对象。常见数据源:关系型数据库数据:如营销数据库文本数据:内容挖掘(如Web内容挖掘,寻找相似页面)Web数据:站点结构数据(如Web结构挖掘,优化站点设计,站点导航,自适应站点);站点使用数据或点击流数据(如Web使用挖掘,用户聚类、页面聚类,个性化推荐等)空间数据、图像数据、视频数据等。2019年8月29日9时1分决策理论与方法-智能决策理论与方法知识发现—基本概念数据预处理:噪音数据处理、空值处理、属性类型转化噪音数据处理:噪音数据往往是因输入错误而导致的、或受某种外界因素干扰而有意识提供的错误数据。如何剔除噪音数据?噪音数据与系统中的一些小概率数据统称为“异常数据(Outlier)”,如何区分噪音数据和小概率数据?空值处理:有些数据由于“不重要”、不知道或“不愿意”而没有获得,引起某些属性值未知,称此类值为空值。如何处理这些缺失值?属性类型转化:连续属性离散化或将离散属性拟合成连续属性等。2019年8月29日9时1分决策理论与方法-智能决策理论与方法知识发现—基本概念数据变换(数据约简):通过某种方法降低算法的搜索空间。垂直约简(也称特征选择、属性约简):使用降维或变换方法减少变量数目,是典型的组合优化问题。水平约简是通过对对象的分析(包括离散化、泛化等),合并具有相同属性值的对象,减少对象数目。2019年8月29日9时1分决策理论与方法-智能决策理论与方法知识发现—基本概念数据挖掘阶段:应用相关算法从准备好的数据中寻找数据中隐含的对信息利用如预测、决策等有价值的模式。需要考虑的问题:任务的确定:分类、聚类、关联规则发现等。方法的选择:统计方法、机器学习方法、不确定性方法、数据库技术等。是知识发现的核心,也是被研究最广泛的内容。数据挖掘方法很多,需要我们对它们的适用条件、前提假设有充分的了解。运行效率分析:不同的算法其效率存在很大差异。算法设计与选择往往就是精度与效率之间的权衡。2019年8月29日9时1分决策理论与方法-智能决策理论与方法知识发现—基本概念数据挖掘任务及常采用的方法:归纳总结:从泛化的角度总结数据,即从低层次数据抽象出高层次的描述的过程。主要方法:归纳学习。发现关联规则:关联规则的形式为A→B,A为前件,B为后件。(Day=Friday)and(Product=Nappies)→(Product=Beer)为一典型关联规则A为满足前件的对象集,B为满足后件的对象,N为全部对象集。典型方法:Apriori算法。NBASupport||||||ABAConfidence2019年8月29日9时1分决策理论与方法-智能决策理论与方法知识发现—基本概念分类(等价关系,判别):按类标签(为数据库中的某属性集,一般仅包含一个属性)对数据库中的对象进行分类,具有相同标签值或标签值在指定区间内的对象属于同类。分类规则是判断某个对象属于某类的充分条件即对象具有某类的属性时则表示该对象属于该类。其规则形式一般为IFLogicExpThenA类ElseB类。主要方法:逻辑回归、判别分析、决策树、ANN、粗糙集、SVM等。聚类(相容关系):聚类也叫分段,就是将数据库中的实体分成若干组或簇,每簇内的实体是相似的。规则形式为IFO1与O2相似ThenO1、O2在同一簇。对象相似的判断方法有多种如距离法。典型方法:K-means2019年8月29日9时1分决策理论与方法-智能决策理论与方法知识发现—基本概念发现特征规则:特征规则是刻划某个概念的特征的断言,它相当于分类规则的逆命题。例如病症是某种疾病的特征。规则一般形式是:IFA类Then特征表达式。序列模式发现:它与关联规则相似,不同之处在于事件的发生有前后顺序,该规则一般形式为:At(i)→Bt(j)其中t(i)t(j)。例如序贯规则JacketandTie→Shoes表示客户在买了“夹克”和“领带”之后就会买“鞋”。2019年8月29日9时1分决策理论与方法-智能决策理论与方法知识发现—基本概念偏离探测:探测测量值与期望值之间的差别并对其进行解释。常有三种偏离类型:随时间偏离(以历史值为期望值)、与标准偏离(以标准值为期望值)、与预测偏离(以预测值为期望值)。回归:根据历史数据拟合一函数将属性集映射到相应的值集。回归可以看作一种分类,区别是分类的类标签值是离散的,而回归是连续的。2019年8月29日9时1分决策理论与方法-智能决策理论与方法知识发现—基本概念neurallinerprofit010005000mins回归模型m-male,f-femalemfmmmmmmmfmmmmmmmmmffmmmmmmmmmmmfmmmmmmmmmmmmmmmmmmmf16K64K32K20304050ageincome聚类模型2019年8月29日9时1分决策理论与方法-智能决策理论与方法知识发现—基本概念数据挖掘方法DataMining统计方法·相关分析·线性回归·主成分分析·聚类分析数据库技术·面向数据集方法·面向属性归纳·数据库统计机器学习·规则归纳·基于案例推理·遗传算法·神经网络不确定性理论·贝叶斯网络·模糊逻辑·粗糙集理论·证据理论可视化技术2019年8月29日9时1分决策理论与方法-智能决策理论与方法知识发现—基本概念解释与评价阶段:结果筛选:过滤(移去)不感兴趣的或显而易见的模式。利用描述规则特征的数值如信度、支持度或兴趣度等,定义某个阈值,对规则进行筛选;指定语义约束,规则的前件或后件只包含感兴趣的属性,或者指定属性间的依赖性约束;完全依靠用户对处理结果进行筛选。2019年8月29日9时1分决策理论与方法-智能决策理论与方法知识发现—基本概念结果评价:确定所发现模式的可信度。基本方法是将样本数据集分成二部分,一部分是训练集用来发现模式,另一部分是测试集,分析结果的可信度。处理结果维护:信息处理所涉及的样本数据集常常是动态变化的,因此需要对所处理的结果进行维护以保证结果与数据的变化相一致。维护可以对数据变化引起的特殊问题重新应用所建立的处理方法,或者应用某种增量处理算法。2019年8月29日9时1分决策理论与方法-智能决策理论与方法知识发现—空值估算空值是指属性值未知且不可用、与其它任何值都不相同的符号。在样本数据集中,空值在所有非主码属性中都可能出现。空值出现的主要原因:在信息收集时忽略了一些认为不重要的数据或信息提供者不愿意提供,而这些数据对以后的信息处理可能是有用的;某些属性值未知;数据模型的限制。2019年8月29日9时1分决策理论与方法-智能决策理论与方法知识发现—空值估算空值处理的常用方法:从训练集中移去含未知值的实例;用某个最可能的值进行替换;基于样本中其它属性的取值和分类信息,构造规则来预测丢失的数据,并用预测结果“填补”丢失值;应用贝叶斯公式确定未知值的概率分布,选择一最可能的值填补空值或根据概率分布用不同值填补空值形成多个对象;将含有未知值的一个给定样本数据集转换成一个新的、可能不相容的但每个属