星⑨⑥⑥年第日期总第日固霪期数据挖掘技术及其在钢铁领域应用概述数据挖掘技术及其在钢铁领域应用概述菅希顺刘瑞霞(天津钢铁公司,30030139[摘要]钢铁企业的各层次的信息化、网络化,每天都产生海量的数据。过去由于缺乏恰当的技术,使得包含在这些数据中许多有用的知识难以使用。论述了数据挖掘技术含义、发展历史,分析了钢铁企业生产过程中数据特征,介绍了我国一些钢铁企业应用数据挖掘技术的范例。关键词数据挖掘钢铁企业优化管理决策1引言要的技术支持。中国钢铁工业崛起、钢铁工业全球化、钢铁工业集2钢铁生产过程中的数据特点中化和钢铁生产用原料供需平衡态势,被认为是驱动2.1钢铁企业信息化世界钢铁工业巨变的四大因素【1】。现代信息技术,是支钢铁企业信息化主要面对生产自动化控制、生产持中国钢铁工业高速发展的技术手段之一,特别是适管理问题。目前人们将它分成5个层次[2]。第一层为基合于海量数据处理的数据挖掘技术[2-Ⅻ。在钢铁生产过础自动化:主要完成设备的工艺控制,包括电气控制和程中,每时每刻都有大量的传感数据通过集散控制系仪表控制两部分。第二层为过程控制:主要完成设定计统、计算机网络以各种形式传到数据服务器。这些有用算、生产实绩收集、模型计算挝程优化、班泪报表生的数据,由于缺乏合适的处理技术而没有充分利用,因成等。第三层为分厂级生产控制:其功能定位为分厂级此成为制约企业生产效益的技术难点之一。20世纪80生产过程控制计算机系统。各生产单元的分厂级生产年代出现的数据挖掘技术,是通过仔细分析大量数据过程控制计算机系统实现物流跟踪管理、产成品库的来揭示有意义的新的关系、趋势和模式的过程[2-141。将三维动态管理、作业计划管理以及第二层生产过程控先进数据挖掘算法和针对钢铁生产数据挖掘问题领域制系统数据的采集等功能。第三层生产控制计算机与知识相结合,会给钢铁生产的各环节优化管理提供重第二层生产过程控制系统的集成构成了钢铁信息系统牙氧爨雾迎薄牙啦孓苔蚺祭零祭零零零;孓笞臻薄零牙啦莽;净苔譬莽去薄祭苔弛§零笞电乒矗匙苔啦¥辑;薄苔啦孓祭苔譬雾甾分零若嗡零零祭;孓艺,转变为依靠控制轧制和控制冷却的生产工艺,达到控制产品微观组织、提高综合性能的目的,从而节约能源,节约合金元素,提高经济效益。控制轧制工艺通过控制开轧温度与终轧温度,以及分为不同的轧制阶段,各阶段在严格规定的温度范围内完成一定比例的变形量,从而细化晶粒,提高强度和韧性。大部分屈服强度在500MPa以下的焊接结构钢均可用控制轧制代替正火处理,减少了生产工序,节约燃料消耗。为了实现控制轧制工艺,并最大程度地减少控制轧制对轧机产量影响.结合双机架轧机的工艺特点,本车间在平面布置上充分保证了轧制线上主要设备的间距。3.3采用控制冷却工艺控制轧制之后采用控制冷却工艺,在很大程度上解决了钢的低合金成分设计与高性能水平之间的矛盾,进一步提高了钢板的可焊性。即控制轧制辅以随后的加速冷却,使钢板的轧后组织转变为铁素体加贝氏体组织或单相的贝氏体组织,比单纯采用控制轧制工艺所获得的细晶粒铁素体加珠光体组织具有更优越的强度、低温韧性以及良好的现场焊接性能。为了尽快发挥工程效益,本车间设置了控制冷却装置及其水处理系统。4结束语本车间生产工艺设计流畅,汲取了当前国内外中厚板车间最先进的工艺技术,并且采用国际知名电气系统供应商安塞尔多公司的二级自动化控制,整体装备水平达到国际先进、国内一流。该生产线建成后将极大地改善天津市钢铁产品结构,提升产品档次,必将为天津市、乃至华北地区的多用途中厚板市场做出重要的贡献。(收稿2005—6—6责编苗龙军作者简介谢国泰。男,高级工程师,1984年毕业于北京科技大学轧钢专、峨毕、世后分配到天津中板厂,主要从事工艺技术、质量管理工作。tj菇戮赭恐篙■。-.一・研究与应用◆—・。≤_≮盟翼曼矗舞m万方数据40的基础数据处理平台。第四层为企业EPR管理系统(企业资源计划管理系统:总厂级生产调度中心系统,将各生产过程管理系统与动力过程控制系统、运输调度控制系统和企业资源计划管理系统进行集成。第五层为企业sCM/CRM/EC/EB/Ds影EIP系统:实现供应链管理、客户关系、电子商务、决策支持、企业信息门户等整个生产环境的优化管理。2.2钢铁企业生产过程中数据的特征钢铁生产过程是一种极其复杂的大系统,其中各层次信息普遍存在多变量、非线性、高噪音的特征,并且数据量巨大。据统计,在一些现代化工厂,因为缺乏有效的信息处理技术,已有的数据库中90%以上的数据多年无人问津。例如基础自动化层次.某企业中各类传感器每天产生的数据可在TB级。同时钢铁生产机理复杂,影响产品质量的因素相当多,例如原料成分、性能;各种生产工艺条件等。如何从与生产有关的诸多变量中,考查和筛选出作用因子较大的变量,删除影响不大的变量.从而建立出一个维数较低的描述模型,成为多变量数据处理的一大难题。传统的通过建立数学模型进行生产管理和控制优化的方法很难有效地达到目的。非线性是生产过程中数据的又一特征。影响产品质量的各因素,作用的方式、机理等,是复杂的甚至是未知的。这些变量之间的关系,一般都不是线性的。同时.由于各种原因。这些数据可能包含较强的噪声,甚至难以判断什么是噪声:影响产品质量的因子太多,并且作用的机理复杂。由于钢铁生产机理的复杂性.目前还有大量的关于生产优化方面的规律和知识还未被人们所认知。在上面提到的五个层次中都需要高效的信息处理技术,这不仅表现在生产过程中存在大量的可控参数,即生产过程中存在极大的、可调的自由度,还表现在显著提高生产管理和控制效率方面,存在着极大的寻优空间。3数据挖掘技术3.1数据挖掘的基本含义“数据挖掘”译自英文“DataMining”,直译就是“数据采矿”。基本意思是通过仔细分析大量数据(通常是不完全的、有噪声的、模糊的和随机的数据来揭示有意义的新的关系、趋势和模式的过程,即发现隐含在这些数据中的人们事先不知道,但又是潜在有用的信息和知识。通常把这些有用的信息归纳成知识规则、约束,使人便于在更抽象/概括的层次上使用这些数据㈣。人们建立了各种数据库后。被淹没在数据的海洋中,但无法从中获取有用的知识。形象地说:查询是数据库的奴隶,发现才是数据库的主人;数据只为职员服务.不为老板服务!从海量数据中寻找知识/模式的各种方法,就是数据挖掘技术。学术些讲,数据挖掘的任务就是发现隐藏在数据中的模式/知识。常见的模式有两种:描述型模式和预测型模式。描述型模式是对当前数据中存在的事实做规范描述,刻画当前数据的一般特性;预测型模式则是以时间为关键参数,对于时间序列型数据,根据其历史和当前的值来预测其未来的值。更具体些,数据挖掘是要发现如下几种知识/模式:①分类模式/知识,通过模型创建和模型使用,按照某些指定的特征把数据分类。②聚类模式/知识,将数据项分组成多个类,类之间的数据差别应尽可能大,类内的数据差别应尽可能小。即“最小化类间的相似性,最大化类内的相似性”。③回归模式/知识,主要用于连续值(例如使用回归方法的预测,许多问题可以用线性回归解决。对于许多非线性问题可以通过对变量进行变换,从而转换为线性问题来解决。④关联模式/知识,是数据项之间存在的关联规则,是在同一事件中出现的不同项之间的相关性。⑤序列模式/知识,根据历史的和当前的数据推测未来数据,即描述基于时间或其他序列的经常发生的规律或趋势,并对其建模。⑥偏差模式/知识,是对差异和极端特例的描述,如聚类外的离群值。大部分数据挖掘方法都将这种差异信息视为噪声而丢弃,然而在一些应用中,罕见的数据可能比正常的数据更有用。所有这些模式/知识都可以在不同的概念层次上被发现.随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。下面的故事可以帮助我们理解“数据”、“知识”和“数据挖掘”的关系。①第谷从1576年开始进行了20多年的天文观测,积累了大量的“数据”。②开普勒利用第谷多年积累的观测资料,仔细分析研究(“数据挖掘”,发现了行星沿椭圆轨道运行,并且提出行星运动三定律(即开普勒定律。开普勒第一和第二定律在1609年《新天文学》一书提出;开普勒第三定律在1619年《宇宙谐和论》一书中提出。“开普勒定律”就是由数据得到的“知识”。③牛顿在1665年一1666年提出了引tj茹器舀舞盐箸II]|【i——・硼究与应用◆——}¨。一_百菇麟嚣‰万方数据霪⑨⑨⑤年第日期总第日固罂期数据挖掘技术及其在钢铁领域应用概述力的平方反比定律(万有引力定律。这是牛顿对开普勒三定律,以及更多的天文观测数据进行分析、挖掘的结果。这里,第谷的观测是基础数据;开普勒三定律是数据挖掘得到的知识:牛顿的万有引力定律是数据挖掘得到的更高级知识.是对开普勒第三定律的进一步提炼。3.2数据挖掘简史与数据挖掘这一术语含义相似的术语还有很多,如数据开采、从数据库中发现知识(KDD、知识采掘、知识抽取、知识考察、数据融合(DataFusion以及决策支持等。该术语于1989年8月在美国底特律召开的第11届国际人工智能联合会议“UCAI会议一数据库中的知识发现讨论专题”上提出M,Favvad定义为“KDD是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程”。随后在1991年、1993年和1994年都举行关于数据挖掘的专题讨论会。汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。随着参与人员的不断增多,KDD国际会议发展成为年会。1998年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议不仅进行了学术讨论,并且有30多家软件公司展示了他们的数据挖掘软件产品.不少软件已在北美、欧洲等国得到广泛应用。目前数据挖掘技术在货篮数据(BasketData分析、金融风险预测、产品产量、质量分析、分子生物学、基因工程研究、Intemet站点访问、模式发现以及信息搜索和分类等许多领域得到了成功的应用。因此,数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活动扮演着越来越重要的角色。3.3数据挖掘的常见技术在应用上数据挖掘往往是针对特定的实际问题进行的。有多种方法用于从数据库中发现知识。一些常用的方法有【删:(1模糊方法:利用模糊集合论对实际问题进行模糊评判、模糊决策、模糊聚类分析。模糊推理注重的是把握结论的趋势,是近似的而不是精确的结果。模糊集注重描述信息的含糊程度。(2粗糙集理论:是一种研究不完整、不确定知识和数据的表达、学习和归纳的理论方法,现已成为数据挖掘研究中的最有力工具,也最有发展前途。粗糙集强调数据的不可辨别、不精确和模棱两可。41(3证据理论:是以概率论为主要理论基础的一种用途广泛的不确定性推理模型。采用信任函数作为不确定性度量的手段。它通过对一些事件的概率加以约束来建立信任函数而避开难于获得的概率,满足比概率论更弱的公理系统。当概率值已知时,证据理论就变成了概率论。证据理论的最大特点是能够处理理由不知道引起的不确定性。证据处理的数学模型为:①首先确立辨识框架.把对于命题的研究转化为对集合的研究:②根据证据建立一个信度的初始分配,即证据处理人员对证据加以分析,确定出证据对每个集合(命题本身的支持程度;③分析前因后果,算出我们对于所有命题的信度。(4人工神经网络:由多个神经元按照某种方式相互连接形成.靠网络状态对外部输入信息的动态响应来处理信息,网络的信息分布式存储于连接权系数中,使网络具有很强的容错性和鲁棒性。在数据挖掘中,神经网络主要用于获取分类模式。(5遗传算法:是通过模拟自然界中生物进化机制进行搜索的一种算法。一般经过遗传操作符、后生环境、选择环境来实现进化过程。首先采用某种编码方式将解空间映射到编码空间.每个编码对应问题的一个解.称为染色体或个体。一般通过随机方法确定起始的一群个体,称为种群,在种群中根据适应值或某种竞争机制选择个体.使用各种遗传操作算子产生下一代如此进化下去,直到满足期望的终止条件。(6归纳学习:是从大量的经验数据中归纳抽取出一般的规则和模式,是一种重要的数据挖掘方法。归纳学习的算法