物联网系数据处理与智能决策解迎刚物联网系yinggangxie@163.comTel:136911179392智慧知识信息数据智能决策数据处理物联网感知为什么要进行数据预处理、如何对数据进行预处理数据准备:数据处理的要求和方法物联网技术物联网技术推动了智能决策的发展专家系统数据挖掘机器学习数据分析数据模型可视化算法:统计方法(聚类分析)、贝叶斯判别、粗糙集、决策树、人工神经网络、支持向量机、时间序列分析等等数据处理与智能决策——智能决策理论与方法2019年12月25日4时33分数据处理与智能决策-智能决策理论与方法不确定性决策不确定性决策:指难以获得各种状态发生的概率,甚至对未来状态都难以把握的决策问题。特点:状态的不确定性。不确定性:不确定性来自人类的主观认识与客观实际之间存在的差异。事物发生的随机性、人类知识的不完全、不可靠、不精确和不一致以及自然语言中存在的模糊性和歧义性,都反映了这种差异,都会带来不确定性。不确定性就造成了具有相同描述信息的对象可能属于不同概念。解决问题的主要理论方法:人工智能与不确定性理论2019年12月25日4时33分数据处理与智能决策-智能决策理论与方法智能决策理论与方法—形成背景人类面临越来越复杂的决策任务和决策环境:决策问题所涉及的变量规模越来越大;决策所依赖的信息具有不完备性、模糊性、不确定性等特点,使得决策问题难以全部定量化地表示出来;某些决策问题及其目标可能是模糊的、不确定的,使得决策者对自己的偏好难以明确,随着决策分析的深入,对决策问题的认知加深,自己原有的偏好/倾向得到不断地修正,使得决策过程出现不断调整的情况,这时,传统的决策数学模型已经难以胜任求解复杂度过高的决策问题、含有不确定性的决策问题以及半结构化、非结构化的决策问题,因而产生了智能决策理论、方法及技术。2019年12月25日4时33分数据处理与智能决策-智能决策理论与方法智能决策理论与方法—AI的应用模式智能决策方法是应用人工智能(ArtificialIntelligence,AI)相关理论方法,融合传统的决策数学模型和方法而产生的具有智能化推理和求解的决策方法,其典型特征是能够在不确定、不完备、模糊的信息环境下,通过应用符号推理、定性推理等方法,对复杂决策问题进行建模、推理和求解。AI应用于决策科学主要有两种模式:针对可建立精确数学模型的决策问题,由于问题的复杂性,如组合爆炸、参数过多等而无法获得问题的解析解,需要借助AI中的智能搜索算法获得问题的数值解;针对无法建立精确数学模型的不确定性决策问题、半结构化或非结构化决策问题,需要借助AI方法建立相应的决策模型并获得问题的近似解。2019年12月25日4时33分数据处理与智能决策-智能决策理论与方法智能决策理论与方法智能决策理论与知识发现2019年12月25日4时33分数据处理与智能决策-智能决策理论与方法知识发现—动机智能决策的核心是如何获取支持决策的信息和知识。问题知识获取是基于知识的系统(KBS)的最大瓶颈推理机知识工程师领域专家决策者知识库问题请求推理结果2019年12月25日4时33分数据处理与智能决策-智能决策理论与方法知识发现—动机问题推理规则的获取与KBS中知识获取一样难,因而基于案例推理(Case-BasedReasoning)渐渐变成基于案例检索(Case-BasedRetrieving)。推理机决策者案例库问题请求推理结果规则库知识工程师领域专家2019年12月25日4时33分数据处理与智能决策-智能决策理论与方法知识发现—动机决策者数据分析师数据中心不一定满意的决策决策支持查询查询结果问题数据分析师与决策者之间对问题的理解存在偏差缺少有创造性的决策建议技术问题:如查询效率(RDBMS)2019年12月25日4时33分数据处理与智能决策-智能决策理论与方法知识发现—动机推理机数据挖掘工具数据中心决策者知识库问题请求推理结果背景知识领域专家优点知识独立于问题本身知识的获取主要通过数据挖掘实现有创造性收获2019年12月25日4时33分数据处理与智能决策-智能决策理论与方法DataMiningwithintheDSS2019年12月25日4时33分数据处理与智能决策-智能决策理论与方法知识发现—动机KDD带来的新问题知识发现问题:如何从数据中将知识挖掘出来?面临许多技术问题:如数据异构问题、数据具有噪音且信息不完整、使用什么样的挖掘算法、知识如何表示等知识评价问题:数据本身具有权威性、客观性,但知识不具备。知识如何评价?2019年12月25日4时33分数据处理与智能决策-智能决策理论与方法知识发现BigData——大数据时代第一,数据体量(Volume)巨大。从TB级别,跃升到PB级别。第二,数据类型繁多(Variety)。网络日志、视频、图片、地理位置信息等等。第三,价值(Value)密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度(Velocity)快。1秒定律。Wearedrowningindata,butstarvingforknowledge!2019年12月25日4时33分数据处理与智能决策-智能决策理论与方法KDD&DM知识发现(KnowledgeDiscoveryinDatabases,KDD)是指从大量数据中提取有用的(useful)、新颖的(novel)、有效的(valid)并最终能被人理解(understandable)的模式(patterns)的处理过程(process)。数据挖掘(DataMining,DM)是KDD的核心阶段,通过实施相关算法获得期望的模式。2019年12月25日4时33分数据处理与智能决策-智能决策理论与方法KDD过程理解、定义用户的目标和KDD运行的环境。2019年12月25日4时33分数据处理与智能决策-智能决策理论与方法KDD过程(1)选取可用的数据;(2)定义附加的、必须的数据,如领域知识;(3)数据集成为一个数据集,供KDD使用。2019年12月25日4时33分数据处理与智能决策-智能决策理论与方法KDD过程(1)缺失值处理(2)剔除噪声或异常数据2019年12月25日4时33分数据处理与智能决策-智能决策理论与方法KDD过程(1)维数约简(特征选择与抽取,数据采样)(2)属性转换(离散化和泛化)(3)数据编码2019年12月25日4时33分数据处理与智能决策-智能决策理论与方法KDD过程(1)确定数据挖掘类型,如分类、聚类、回归;(2)选择特定的方法;(3)执行数据挖掘算法。2019年12月25日4时33分数据处理与智能决策-智能决策理论与方法KDD过程评估和解释所挖掘的模式,重点是可理解性、有用性.2019年12月25日4时33分数据处理与智能决策-智能决策理论与方法KDD过程与原有知识系统合并。挑战:动态与增量挖掘问题。2019年12月25日4时33分数据处理与智能决策-智能决策理论与方法TaxonomyofDataMiningMethods2019年12月25日4时33分数据处理与智能决策-智能决策理论与方法TaxonomyofDataMiningMethodsVerification-oriented(thesystemverifiestheuser‘shypothesis):includingthemostcommonmethodsoftraditionalstatistics,likegoodnessoffit(拟合优度)test,testsofhypotheses(假设检验,e.g.,t-testofmeans),andanalysisofvariance(ANOVA,方差分析或F-检验).Discovery-oriented(thesystemfindsnewrulesandpatternsautonomously):predictionmethodsVSdescriptionmethods;supervisedlearning(有导师学习)VSunsupervisedlearning2019年12月25日4时33分数据处理与智能决策-智能决策理论与方法KDDGoals&Methods归纳总结(Induction&Summarization):从泛化的角度总结数据,即从低层次数据抽象出高层次的描述的过程。主要方法:归纳、泛化。泛化(Generalization)是用来扩展一假设的语义信息,使其能够包含更多的正例,应用于更多的对象。动物哺乳类鸟类企鹅食肉类蹄类飞禽类走禽类虎印度豹长颈鹿斑马信天翁鹰驼鸟动物世界概念树第1层第2层第3层第4层2019年12月25日4时33分数据处理与智能决策-智能决策理论与方法KDDGoals&Methods关联规则(AssociationRules):关联规则的形式为A→B,A为前件,B为后件。(Day=Friday)and(Product=Diaper)→(Product=Beer)为一典型关联规则A为满足前件的对象集,B为满足后件的对象,N为全部对象集。典型方法:Apriori算法。NBASupport||||||ABAConfidence2019年12月25日4时33分数据处理与智能决策-智能决策理论与方法关联规则发现(Apriori算法)Apriori算法由Agrawal&Srikant在1994年提出主要思想:一个频繁项集(支持度超过给定值的项集)的子集一定是频繁的例如,若{beer,diaper,nuts}是频繁的,那么{beer,diaper}一定是频繁的.任一项是非频繁的,则包含该项的超集一定是不频繁的。例如,若{beer,diaper}是不频繁的,那么{beer,diaper,nuts}一定是不频繁的.2019年12月25日4时33分数据处理与智能决策-智能决策理论与方法关联规则发现(Apriori算法)ProcedureFindthefrequentitemsets:thesetsofitemsthathaveminimumsupport(Apriori)Asubsetofafrequentitemsetmustalsobeafrequentitemset,i.e.,if{AB}isafrequentitemset,both{A}and{B}shouldbeafrequentitemsetIterativelyfindfrequentitemsetswithcardinalityfrom1tok(k-itemset)Usethefrequentitemsetstogenerateassociationrules.2019年12月25日4时33分数据处理与智能决策-智能决策理论与方法关联规则发现(Apriori算法)TIDItems100134200235300123540025DatabaseDitemsetsup.{1}2{2}3{3}3{4}1{5}3itemsetsup.{1}2{2}3{3}3{5}3ScanDC1L1itemset{12}{13}{15}{23}{25}{35}itemsetsup{12}1{13}2{15}1{23}2{25}3{35}2itemsetsup{13}2{23}2{25}3{35}2L2C2C2ScanDC3L3itemset{235}ScanDitemsetsup{235}22019年12月25日4时33分数据处理与智能决策-智能决策理论与方法KDDGoals&Methods分类(Classification,等价关系,判别):按类标签(为数据库中的某属性集,一般仅包含一个属性)对数据库中的对象进行分类,具有相同标签值或标签值在指定区间内的对象属于同类。分类规则是判断某个对象属于某类的充分条件即对象具有某类的属性时则表示该对象属于该类。其规则形式一般为IFLogicExpThenA类ElseB类。主要方法:决策树、ANN、粗