数据挖掘第二章

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据挖掘(基于认知的复杂数据对象的知识发现技术)张德政联系方式:bigbank@126.comzdzchina@126.com——62334547CognitionBasedKnowledgeDiscoveryinDatabase(DM(KDD)ofComplexDataObject)2知识发现的基本概念2.1数据、信息、知识2.2DM(KDD)定义2.3DM(KDD)对象2.4DM(KDD)功能2.5DM(KDD)技术方法数据、信息、知识事实(facts):人类思想和社会活动的客观映射。数据(data):事实的数字化、编码化和序列化。信息(information):数据在信息媒介上的映射。知识(knowledge):对信息的加工、吸收、提取、评价的结果。Weoftenseedataasastringofbits,ornumbersandsymbols,or“objects”whichwecollectdaily.Informationisdatareducedtotheminimumnecessarytocharacterizethedata.Knowledgeisintegratedinformation,includingfactsandtheirrelations,whichhavebeenperceived,discovered,orlearnedasour“mentalpictures”.数据、信息、知识的关系MISDSSMIS:ManagementInformationSystemDSS:DecisionSupportSystemsValue数据及数据分类1)按照数据所属行业类别分类• 科学数据,科学研究过程中产生的数据– 天、地、生等自然科学– 政治、经济等社会科学• 生产数据,加工制造生产过程产生的数据– 生产制造过程– 仓储物流过程– 生产管理过程Internet已经成为最大的信息源,但缺乏集中统一的管理机制,信息发布具有自由性和任意性,难于控制和管理• 泛媒体• 分散、无序、变动、数量大• 非规范、非结构• 检索、理解、推送、问题求解提出新的需求• 多语种、多类型信息的整合需求• 政治、经济、文化新问题• 社交互动实例——科学数据库数据及数据分类2)按照数据来源分类• 人类交互过程的数据– 各专业行业业务– 社会政治经济活动• 物联网数据,设备检测、监测、控制数据– 仪器设备状态– 流程过程控制– 环境监测数据及数据分类3)按照数据类型分类• 结构化数据– 数据元素之间的语义关系清晰简单– 语义关系可形式化表达– 结构化数据,即行数据,存储在关系型数据库中,可以用二维表结构来逻辑表达实现的数据,例如Oracle,DB2,SQLServer等数据库中的数据数据及数据分类3)按照数据类型分类• 半结构化数据– 宏观结构清晰– 微观结构语义复杂– 半结构化,字段可根据需要扩充,即字段数目不定,可称为半结构化数据,例如XML,具有一定格式的文本数据及数据分类3)按照数据类型分类• 非结构化数据– 音频,文本– 图片– 视频– 非结构化:无法用数字或统一的结构表示,例如Web页面,文本,视频,音频,图像等。数据分类• 视频:• 文本:• “从这清秀的笔迹,干净的信纸上我说出第六个可能性是,此人工作一定是好的,由此推论他是个遵守时间、兢兢业业的模范职员。”• 声音:• 图像:大数据• BigData:大数据,海量数据– Volume,Tb级数据– Velocity,流数据– Variety,时间空间变化– Value,巨大商业与社会价值– Complexity,复杂系统,复杂语义关系大数据特点• Volume:原始大数据通常是来自于各地的各个行业,并且数据量持续增长。按照行业的分析内容,大数据通常需要分析若干年的数据。我们可以想象这是多么巨大的数据量。• Velocity:大量在线或实时数据分析处理的需求。例如:战场决策支持中的指挥和突发事件处理建议、专用分析报表生成、恐怖袭击预警等。• Variety:大数据通常会包含各种结构化数据表、非(半)结构化文本文档(xml、log、Web等)、视频、音频等多种多样的数据存储形式。• Value:大数据的价值不必多说,它不仅与战场成败息息相关,更可用于国家政策乃至全球的商业竞争、新技术的研发、社会安定。• Complexity:大数据本身的多样性和复杂性使其处理和分析的难度非常大;大数据特点• BigData:大数据,海量数据– Volume,Tb级数据– Velocity,流数据– Variety,时间空间变化– Value,巨大商业与社会价值– Complexity,复杂系统,复杂语义关系• 相对于简单数据(小数据)– 采集– 存储– 管理,增删改查– 数据分析、数据挖掘:数据量变化导致技术变化大数据特点• BigData,大数据的共性– 数据结构复杂– 复杂语义关系– 复杂系统– 信息、知识含量丰富– 巨大价值,社会价值,商业价值:专业数据分析• 技术要求– 能够进行深层分析算法– 有针对性,解决特定实际问题算法– 降低算法时空复杂度– 智能性高,自适应能力强知识定义• 知识是一个内涵十分丰实,外延相当广泛的概念。古往今来许多思想家、哲学家、科学家都从不同的角度在知识的界说方面进行过探讨。• 知识是基于认知,对客观世界的描述培根的知识定义——培根从经验论和认识论的角度给出知识定义:“知识的主要形式不是别的只是真理的表象……存在的真实同知识的真实是一致的”,因此,“知识是存在底影像”。他从知识的起源探索知识,认为知识是人脑深入到自然界里面,在事物本身上来研究事物的性质“而获得的东西。”[1][1]蔡亮,知识决定论,北京日报出版社,1988年P12-13思维科学将知识定义——思维科学将知识定义为:“人类认知的成果来自于实践活动。处理人际社交关系活动和科学试验等实践活动。从实践中得到的感性认识经过去粗取精,去伪存真由此及彼,由表及里的加工制作上升为抽象的理论认知,成为以概念为元素的系统的科学理论,这是知识的比较完备的形态。”[1][1]田运,思维辞典,浙江教育出版社,1996年P338。认知科学将知识定义认知科学知识定义:“静态性的内容结构”[1],“形象化心理表征,表征方式包括如规则、概念、表象和类比等”[2]。[1]陈英禾,认知发展心理学,浙江人民出版社,1996,P2。[2][加]P.萨加德,认知科学导论,中国科技大学出版社,1999,P2。知识工程的知识定义——人工智能从知识处理的角度将知识看作:“某种服务目的而抽象化和一般化的信息,是一组事实或概念的条理化阐述及形式化的定义。知识可划分为:事实、规律、方法、理论和知识空间、通用知识和领域专门知识等。以上各类知识由上下文的解释来界定”[1]。[1]何新贵等,知识处理与专家系统,国防工业出版社,1990,P24“27。知识定义具有以下共同的特点:• ——知识是客观实在头脑中反映,是客观事物和客观规律的抽象和概括,是人类对于客观实在的认识• ——知识具有不同的抽象层次,即宏观层次和微观层次。– 在宏观上,知识具有塔形、网状等结构,不同的结构类型都从不同侧面反映知识的关系及其在维度和时间上的发展变化。– 微观层次的知识是针对具体的问题;知识的界定有确切的定义和适用范围,因而具有较强的针对性。• ——知识以一定的表征方式来表达,通过各种表征方式在不同认知阶段上的组合和运用,表示人类知识结构的非线性特征,客观世界的非线性和多变性人工智能知识表示形式• 产生式规则– AB• 框架知识• 脚本知识• 模型知识• 模式知识临床表现理论依据初步印象发病位置表发病器官肺问诊全身恶寒重中医理论表证发热轻中医理论卫气郁滞局部头痛经典《伤寒论》气机不利闻诊呼吸咳声宏亮中医理论实证喘息中医理论寒证望诊痰黄白中医理论肺气不宣舌象舌苔薄白中医理论邪未深入切诊脉象脉浮紧经典《伤寒论》表寒证皮肤无汗经典《伤寒论》分析寒邪束表,卫气郁滞,故发热恶寒、无汗、头痛。辨证伤寒表实证方药麻黄,桂枝,杏仁,甘草人工智能知识表示形式• 产生式规则– AB• 框架知识• 脚本知识• 模型知识• 模式知识病人恶寒重发热轻头部全身疼痛呼吸喘息咳声宏亮皮肤无汗脉浮紧舌苔薄白痰黄白表证气机不利肺气不宣实证卫气郁滞表寒证寒证邪未深入辨证问诊闻诊切诊望诊张三男20姓名年龄性别对象AKOAKOAKOAKO客体1客体2客体客体1客体1客体2客体2症状1症状2症状症状1症状2症状症状症状症状If-thenIf-thenIf-thenIf-thenIf-thenIf-thenIf-thenIf-thenIf-thenAKOAKO与伤寒表实证方药X客体主体治疗ISA麻黄,桂枝,杏仁,甘草ISA人工智能知识表示形式• 模式知识表示– 认知结构– 语义关系– 特征集合知识表示——模式模式作为术语已经广泛应用于思维科学、认知心理学、心理学、人工智能以及模式识别等学科领域。模式一词的定义和解释都有其自身的学科特征,并表达着各不相同的概念,描述模式的词汇也各不相同:如模式(Pattern)、模板(Template)、模型(Model)、特征集(Features)等模式的运用也各不相同。其它知识表示方式,在知识发现中也常用,不同表示形式指可以相互转换。2知识发现的基本概念2.1数据、信息、知识2.2DM(KDD)定义2.3DM(KDD)对象2.4DM(KDD)功能2.5DM(KDD)技术方法知识发现定义在1995年第一届DM(KDD)大会上给出了DM(KDD)的定义:“非平凡地抽取数据中隐含的、先前未知的、潜在有用的知识”[1][2][3]。[1]G.Piatetsky-ShapiroandW.J.Frawley.KnowledgeDiscoveryinDatabases.AAAI/MITPress,1991[2]U.M.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy.AdvancesinKnowledgeDiscoveryandDataMining.AAAI/MITPress,1996.[3]G.Piatetsky-Shapiro,U.Fayyad,andP.Smith.Fromdataminingtoknowledgediscovery:Anoverview.InU.M.Fayyad,etal.(eds.),AdvancesinKnowledgeDiscoveryandDataMining,1-35.AAAI/MITPress,1996知识发现定义Thenon-trivialprocessofidentifyingvalid,novel,potentiallyuseful,andultimatelyunderstandablepatternsindata-Fayyad,Platetsky-Shapiro,Smyth(1996)non-trivialprocess多个过程valid经过验证的模式模型novel先前未知useful有用 understandable人与机器可以理解知识发现定义解释过程--通常指多阶段的一个过程,涉及数据准备、模式搜索、知识评价,以及反复的修改求精;该过程要求是非平凡的,即要有一定程度的智能性、自动性。有效性指发现的模式对于新的数据仍保持有一定的可信度。新颖性要求发现的模式应该是新的。潜在有用性是指发现的知识将来有实际效用,如用于决策支持系统里可提高经济效益。最终可理解性要求发现的模式能被用户理解,目前它主要是体现在简洁性上。有效性、新颖性、潜在有用性和最终可理解性综合在一起可称之为兴趣性,其侧读指标为感兴趣度。数据挖掘(DataMining)知识抽取(KnowledgeExtraction)数据模式处理(DataPatternProcessing)数据考古(DataArchaeology)信息收获(InformationHarvesting)筛选(Siftware)数据疏浚(DataDredging

1 / 51
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功