关联规则挖掘在高校图书馆馆藏分布中的应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

关联规则挖掘在高校图书馆馆藏分布中的应用文蓉贺铁祖(湖南财经高等专科学校,长沙410205)摘要数据挖掘技术在图书馆中的应用是现代图书馆发展的一个关键技术,而关联规则挖掘技术是处理此类问题最合适的方法之一。本文探讨了关联规则在高校图书馆管理中的一个实际应用。运用Apriori算法挖掘读者的特征规则,详细阐述了数据选取过程、数据挖掘等一整套流程,这对新建图书馆在馆藏分布方面的科学决策具有一定的指导意义及现实意义。关键词数据挖掘关联规则Apriori算法高校图书馆馆藏分布中图法分类号文献标识码近年来,计算机信息技术的迅速发展极大地推动了高校图书馆的现代化进程。“一切为读者,为一切读者,满足读者对图书馆的需求”是现代图书馆的服务宗旨。高校图书馆是学校文献最集中的部门,藏书基本囊括了学校各专业领域以及其他相关专业,以便于为全校师生提供教学、科研等服务。由于藏书种类繁多,科学合理的馆藏分布对于优化馆藏建设十分重要。根据现有的数据预测未来的发展趋势是实现科学合理的馆藏分布的重要途径,可方便读者进行借阅,主动提高图书馆的服务质量,以适应现代图书馆的发展需求。有专家预测,数据挖掘技术在图书馆中的应用是现代图书馆发展的一个关键技术。数据挖掘的技术手段有很多种,如分类、回归分析、聚类、关联规则等,而关联规则挖掘技术应该是处理此类问题最合适的方法[1]。1关联规则挖掘技术关联规则挖掘是从大量数据项中发现有趣的关联或相关联系,其典型例子就是购物篮分析,该过程通过发现顾客放入其购物篮中不同商品之间的联系,分析顾客的购买习惯。1.1关联规则的定义根据R.Agrawal等对关联规则挖掘技术的阐述[2],关联规则的定义如下:关联规则是形如AB的蕴含式。设I={i1,i2,……in}是事务项集合,其中ik(k=1,2,……n)称为项(item),项的集合叫做项集(itemset)。设D={d1,d2,……dm}是与任务相关的数据库事务的集合,其中di(i=1,2,……m)称为事务(Transactions),每个di是项的集合,使得diI。每个事务都有一个标识符Tid。设A是一个项集,事务di包含项集A当且仅当Adi。关联规则是形如AB的蕴含式,其中,AIBI,并且AB。Support(()()ABPAB收稿日期:作者简介:文蓉(1974-),女,湖南省长沙,湖南财经高等专科学校讲师。联系电话:(0731-6736800)、(0731-8854854),联系地址:湖南省长沙市枫林二路139号湖南财经高等专科学校信息管理系(410205)。EMAIL:hnwh74@163.com;第二作者:贺铁祖(1972-),男,湖南省宁乡人,湖南财经高等专科学校馆员Confidence(()(|)ABPBA)支持度Support(()AB是表示AB的交易在整个交易库中所占的比例。可信度Confidence()AB表示支持AB的交易在支持A的交易中所占的比例,满足最小支持度阈值min_sup和最小可信度阈值min_conf的规则就是强关联规则。在事务数据库中挖掘关联规则的任务就是在其中找出所有满足用户指定最小支持和最小可信度的强关联规则。1.2关联规则挖掘的Apriori算法Agrawal等人在1993年提出的Apriori算法是一种最有影响的挖掘关联规则频繁项集的算法[3]。Apriori算法具有如下特征,即频繁项集的所有非空子集都必须也是频繁的。它利用频繁项集性质的先验知识,使用逐层搜索的迭代方法:K-项集用于搜索(K+1)-项集。首先,找出频繁1-项集的集合。该集合记作L1,它用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁K-项集。找每个LK需要扫描数据库一次。Apriori算法主要是在遍历的基础上进行关联规则的挖掘。其具体算法如图1所示描述如下:令K-属性序列集为具有K个属性的集合,LK为频繁k-属性序列集,而CK为候选K-属性序列集。图1Apriori算法算法中apriori_gen()函数产生候选,做两个动作:连接和剪枝。在连接部分,Lk-1与Lk-1连接产生可能的候选。剪枝部分使用Apriori性质删除具有非频繁子集的候选。Subset()函数用来找出事务中是候选的所有子集,并对每个这样的候选累加计数计算支持度。最后,所有满足最小支持度的候选集合形成频繁项集L,然后由频繁项集产生关联规则。2关联规则挖掘技术的应用关联规则挖掘技术的应用过程,简单来说,也就是数据挖掘中一个特定算法应用于系统的过程,主要包括定义问题、数据准备、执行挖掘算法、结果分析和表示这个几个阶段。现以其在湖南财经高等专科学校图书馆(简称湖南财专图书馆)中的具体应用来说明。2.1定义问题湖南财专图书馆自2001年开展图书馆自动化工作以来,采、编、流等各项日常工作均采用计算机完成,大大提高了工作效率和质量。目前图书馆购置的自动化管理系统ILASⅡ能较好地完成图书馆各项业务的管理,并为馆内工作人员提供了各类统计分析管理报表,提高了为读者服务的能力与内部管理工作的水平。但是具体到图书管理工作,该系统就不能完全满足管理工作人员对掌握图书馆馆藏分布和读者借阅趋势的详细信息的要求,无法有效指导和预测下一阶段管理工作的方向,使得管理人员只能靠自身经验,在对馆藏和读者需求没有全盘了解的情况下,凭个人主观意愿进行图书管理,也满足不了读者对图书的个性化需求。现在湖南财经高等专科学校新建立了一个新图书馆,六层,每层有两个集藏借阅于一体的阅览室,除二楼的一个阅览室用作电子阅览室外,其余均用于藏书。在方便读者的基础上,怎样进行馆藏分布,这就是湖南财专图书馆管理工作面临的一个现实问题。对于一个新建立的图书馆,利用关联规则挖掘技术分析、预测读者的借阅习惯及需求,发现借阅频繁、增幅较大的图书类别,使得借阅频繁、借阅量大的图书类别在上架时根据排架规则尽可能放在易于查找的位置,从而指导图书馆合理安排馆藏的分布,则更具现实意义。2.2数据准备基于关联规则挖掘的湖南财经高等专科学校馆舍馆藏分布的挖掘模型是建立在原有的图书管理系统ILASⅡ上,充分利用ILASⅡ系统的数据,实现挖掘应用。挖掘任务是根据读者的借阅习惯,找出文献类别之间的内在联系。具体实现步骤如下:2.2.1利用ILASⅡ提供的工具获取源数据构建基于关联规则挖掘的湖南财经高等专科学校图书馆馆舍馆藏分布的挖掘模型主要需要如下源数据:ILASⅡ在运行过程中的图书流通日志数据;ILASⅡ系统中央书目库的馆藏数据。因为ILASⅡ是商业软件,上述数据库均被加密,不能直接用ILASⅡ系统外的其它数据库工具进行访问,必须用ILASⅡ自身提供的工具来提取数据。下面分别叙述数据提取的过程。(1)流通日志数据的提取在ILASⅡ系统的“流通管理”页面中选取“系统维护”/“流通日志查询”项,输入检索条件(日期范围)及操作类型(一般就选取流通借出)进行数据查询。因本次挖掘任务只需要利用流通日志中的流通时间、读者记录号和书目记录号来生成所需要的流通日志数据库。因此日志查询工作完成后,将流通日志文件中的操作日期、操作时间、事务内容1(代表读者记录号)、事务内容1(书目记录号)字段以文本文件的方式输出。(2)中央书目库中馆藏数据中的书目信息数据提取由于ILASⅡ的馆藏数据文件不能直接提取生成文本文件,具体提取过程分为两步:首先,生成MARC文件。利用ILASⅡ系统中提供的“系统管理员”\“系统工具”\“数据库转marc文件”选项,输入检索条件,删掉除“分类号”(marc数据中的690字段)和“书目记录号”(000字段)外的所有其他字段后,生成书目数据的marc文件。其次,将书目数据的marc文件进行转换。利用ILASⅡ系统中的“系统管理员”\“系统工具”\“marc与定长文本转换”选项生成相应的书目数据库。2.2.2数据预处理(1)合并流通日志合并策略:将同一天内所有读者记录号相同的记录进行合并生成一条记录。分析原始数据中的流通日志文件,可以发现对应每一个相同的读者记录号,在同一时间段内,有可能连续出现多个不同的书目记录号,甚至在同一指定时间段内不连续的出现同一相同的读者记录号,然而对应的书目记录号并不相同。发生这种现象的原因有两个,第一,这表示在这一时间段内,该读者同一地点借了几本不同的书;第二,该读者在不同时间、不同地点借了不同的图书。为了使本次挖掘任务产生合理的事务记录,在本次处理过程中,将同一时间段的期限定为同一天,将流通日志中同一天内所有读者记录号相同的记录进行合并生成一条记录,生成数据库D0。(2)替代书目记录号替代策略:对照书目数据库,把D0中的书目记录号用书目分类号进行替代。因《中图法》图书分类号是作为区别某种图书唯一的标识之一,《中图法》在图书馆计算机管理系统中普遍使用,因此可据此对藏书进行归类。在本过程中,仅取分类号的前一位数据,也就是说流通的图书只按照《中图法》中的大类进行分类处理,生成数据库D1。(3)删除重复书目分类号数据删除策略:为有效挖掘出不同类别的图书之间的内在联系,采用与Apriori算法一致的事务项选取策略,即不考虑同一事务记录中,单个事务项的重复出现。同一读者在同一时间段内有可能借阅多本同一种类的图书,因本次挖掘任务只是要找出图书类别的内在联系,所以对D1中的Itemset(事务项集)进行去除重复分类号书目的处理,生成数据库D2。(4)将读者记录号转换成事务记录号转换策略:因读者记录号对此次预测无重要意义,所以用事务记录数替代后生成最终的事务数据库D(图2)。该数据库D只包含两项:Tid(事务记录号),itemset(事务项集合)。图2事务数据库D界面2.3执行挖掘算法进行数据挖掘利用Apriori算法,按照以上步骤,提取湖南财经高等专科学校图书馆2007年3月至6月的流通日志数据18028,得到可以用于挖掘的事务数据库D,该事务数据库的事务记录数为9183,事务项(即中图法中图书类型)为22,数据库中记录的最大事务数(即某个读者最多能人借阅的图书册数)为10。执行Apriori算法后的挖掘结果如图3所示。图3Apriori算法的挖掘结果图4《中图法》中二十二个基本大类2.4利用数据挖掘结果辅助馆藏图书分布决策湖南财经高等专科学校新建图书馆共有六层,第二层到第六层都设置了藏借阅一体化的阅览室,其中第二、五、六层设置一个阅览室,第三、四层设置两个阅览室,图书馆的正大门设置在第二层。根据上述数据挖掘结果,对照图4,最小支持度为0.5时只有一个挖掘结果“I9”(即中图法对应的文学类图书,这说明文学类图书最受读者欢迎,因此在决策时可把文学类图书放置在读者最先接触的第二层,即在第二层设置文学阅览室。最小支持度为0.05时,“I6,I9”组合存在关联,因此可把“I6”(经济类图书)放置在“I9”附近,由于馆藏图书中经济类的图书数量比较大,可在第三层安排两间阅览室(经济阅览室一和经济阅览室二)。考虑到最小支持度为0.03时数据挖掘的结果,在兼顾自然科学与社会科学类图书不能混杂、且各类图书在现有馆藏中所占比例的情况下,可在第四层设置社科阅览室一(包括哲学类I2、社科总论I3、政治法律I4,历史地理I8)和自然科学阅览室(包括所有的自然科学类图书I12-I21)。同样可在第五层和第六层设置社科阅览室二(文化教育I7、语言文字I10)和社科阅览室三(马列I1、军事I5、综合类I22)。通过分析挖掘,发现的关联规则一定程度上反映了读者的喜好,为对新图书馆馆藏的合理分布提供了线索。借阅频繁、借阅量大且存在关联的图书类别在进行馆舍馆藏分布时要根据排架规则尽可能放在易于查找的位置。这对湖南财经高等专科学校图书馆馆舍馆藏的方面的科学决策具有一定的指导意义及现实意义。3结束语目前,数据挖掘技术在其他领域,特别是商业领域取得了很好的应用。但是在图书馆系统中的应用还不广泛。对于图书馆而言,其信息服务模式与市场营销模式有很多相似之处,通过收集、加工和处理设计读者行为的大量信息,确定特定借阅群体或个体的兴趣、借阅习惯、借阅倾向

1 / 6
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功