数据挖掘在国书馆工作中的应用学院:南开大学滨海学院专业:信息管理与信息系统年级:2012级学生姓名:黎辉学号:129927232014年6月18日数据挖掘在国书馆工作中的应用摘要:探讨了利用数据挖掘技术在获取文献利用状况和获取用户需求方面,优化图书馆馆藏、提高资源配置利用率、提高服务质量三大方面的具体应用。关键词:数据挖掘图书馆信息服务目录一.数据准备1.1.用户基本信息记录1.2借阅历史信息记录1.3检索历史记录1.4书目信息二.挖掘文献使用规律2.1借阅量增减原因挖掘2.2高质量馆藏文献挖掘2.3文献增长趋势挖掘2.4挖掘学科隐性关联与学科动向三.获取用户信息需求3.1用户需求聚类3.2用户分类3.3提高信息服务质量四.结束语数据挖掘(有时又称知识发现,KDD)是一门跨越多个学科.利用各种数据库、人工智能、机器学习、统计学、神经网络等相关技术,从存放在数据库、数据仓库或其他信息库挖掘有用知识的新兴技术。数据挖掘已经在生物医学数据分析、金融证券分析以及零售业、客户关系管理等领域得到了广泛运用等。数据挖掘在图书馆的应用表现在以下方面:a.获取文献利用状况优化馆藏提高资源配置利用率图书馆的自动化业务系统中对书目馆藏信息、文献的流通情况、检索需求信息有着详细的记录。利用这些信息可以使用关联挖掘等技术挖掘文献的使用规律、需求动向,籍此指导图书馆采购,调整馆藏结构、排架布局和各图书馆分部间的文献分布.b.获取用户需求信息,提供个性化信息服务。在用户利用图书馆的资源过程中会留下诸如读者基本信息,借阅历史、检索历史等有价值的大量信息.这正是图书馆工作者和获取用户信息需求、用户分类、需求聚类的宝贵数据.获取这些信息就可以据此提供个性化信息服务.即根据用户兴趣文件或兴趣规则主动向用户提供有价值的资源。C.获取电子文献特征,实现信息自动化。与读者信息和借阅信息主要以数据库或数据仓库的形式存贮不同,图书馆的文献信息资源主要还是以文本数据存贮,比如光盘库、Web网页这些文档相对来讲是非结构的或者说是半结构的,利用文本挖掘技术可以达到文本自动摘要、自动分类的目标,利用web挖掘可以发掘各文本间利用的内在联系。获取用户路径。本文按照数据挖掘的基本步骤主要论述数据挖掘在获取文献利用状况和获取用户需求两方面的运用.基本步骤为散据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示。1数据准备为了获取文献利用状况,在这里需要四个数据集,并对其进行数据概化。1.1用户基本信息记录这是自动化后的图书馆的一项基本数据记录,主要用来为用户分类,借阅行为分类聚类提供信息.其内容主要包括用户编号Code、Name、Age、Sex、职业Profession(对于高校图书馆用户是专业)、借阅等级Grade、联系方式Address、身份证明ID(身份证号、学号、工作证号等)。使用面向属性的归纳算法来挖掘概化特征(详细算法参阅文献1)。首先扫描整个数据集,获取所有属性的不同值。由于数据量庞大。可以先删去无法概化的Code(Code作为与其它表连接的属性需要保留.但不参与挖掘)、Name、Address属性.并在剩余属性中抽取样本计数。得到的归纳结果为:Age泛化为Age-range.Sex无需泛化.Profession从专业泛化到学科并可进一步泛化为文、理、工、农、医、商,Grade无需泛化.ID可作为Profession的补充泛化为院系或单位,然后再泛化到文、理、工、农、医、商。1.2借阅历史信息记录这也是现有图书馆系统所能提供的重要数据.根据借阅情况进行统计分析,其主要内容包括借阅编号code、书名title、中图法编号book_code、排架号shelf_code、借阅者编号、借阅时间、归还时间等。这部分信息是利用数据挖掘技术获取图书馆文献利用状况的关键,通过对它们的统计、归类、分析有助于了解书刊的使用情况并进行预测分析。同样需要通过基于属性的归纳算法进行数据概化。最后得到的主要属性有图书主题title_subject、中图法编号大类book_code_class、借阅时间段、借阅时长。借助于图书馆学的天然分类优势.对这一数据集的概化不难做到。1.3检索历史记录这可能在现有的图书馆系统中存在的并不多或并不完整,但这恰恰是我们了解用户需求的绝佳途径.建议应逐步建立和规范记录检索历史的数据库,其主要内容包括用户编号、检索字段、检索时间。由于很多情况下是匿名,可以利用IP地址代替用户标识,对于检索字段如果是规范的检索式需要记录多个检索词和检索符号检索项,如果是语句或短语还需进行分词。通过对这部分信息的统计处理我们可以发现用户的信息需求。由于检索非常频繁地发生,良好的数据存储性能必不可少,甚至是这一数据集能否建立的决定因素。1.4书目信息这是图书馆最常见的数据集合,包括书名、中图法编号、排架号、作者、学科、出版社、出版日期、购人日期等,这已有非常完整的记录格式,在此只是选取所需的部分属性。这些数据大多数的属性都需要概化,否则无法用于数据挖掘。2挖掘文献使用规律图书馆文献的使用,特别是高校图书馆文献的使用经常会出现一些比较有趣的规律,如突然某种图书借阅量大增、某些图书被反复借用从未返架、某些读者频繁借还图书。这些现象的原因是多方面的,通过数据挖掘可以发现这些规律,并据此制订相应决策以优化馆藏结构、馆间分布。2.1借阅量增减原因挖掘首先利用类SQL的挖掘语句从借阅历史信息记录中获取某一时间段中借阅量大增的图书主题及其数量,例如:selecttitle_subjectcount(*)fromRecordSet2whererent_time_segment=??groupbytitle_subjecthavingcount(*)??。然后从同样的数据集中列出所有该图书主题的借阅条目通过关联挖掘,首先获取主题与时间属性的关联度包括支持度support(A=B)=P(AUB),置信度confidence(A=B)=P(A/B)。其中A为某一Title_Subject,B为某一Rent_time_Segment(时间段)。通过我们事先设定的阈值可以获得所有的频繁借阅集,然后再在频繁借阅集中通过关联挖掘获得该主题文献与有关院系或单位间的关联度,以获取是哪些用户大量借阅了该类书籍并制订对策。2.2高质量馆藏文献挖掘有些优秀的书籍往往会被反复借阅,并常期在某一固定用户手中,其借阅次数不一定很高,但借阅间很长。这是图书馆中最有利用价值的文献。这些图书并不一定能从借阅次数上体现其优势,因为某本质量很差的书籍会因为其较为吸引人的标题而被经常借阅,但也不能因此从书籍的借阅时长来断定其价值。判断馆藏文献的优劣需从多方面考虑。利用数据挖掘技术我们首先通过统计获取被频繁借阅的书籍并且平均借阅时间达到预定阈值。然而这一结果集中包含的文献必定是馆藏时间较长的文献,新近的文献由于其借阅次数较少,无论其有多优秀都无法满足这两个条件。这样我们获得的都是较为陈旧的数据,这对于发展迅速的某些领域是不适合的。所以还需进一步进行挖掘。在这里可以通过聚类分析来使得新近书籍与历史书籍进行聚类,以判断其价值。通过情报学的三大定律我们可以发现某一学科的文献生长规律有着相似增长曲线,与其类似的文献的借阅规律也因其学科的不同而呈现出某些类似的现象。2.3文献增长趋势挖掘图书馆的排架需科学安排,否则会出现某类书籍大量堆积无法摆放,某类书籍排架却十分空旷。文献增长趋势挖掘考虑的不仅是新增文献的数量,更需要获取文献的平均借阅流量,因为如果某类书的流通性很高,那么虽然新增数目巨大但排架空间却并不需要与之适应。考虑到文献使用的量是动态变化的,如果需要实时统计,那是非常耗时且具有很大工作量的,显然并不合适。所以通过数据挖掘对历史数据的分析,获取平均上架数量对于图书馆的优化馆藏排架结构十分重要。新增书籍的数量可以通过书目记录信息获得,而流通数量可以通过以下方式获得:首先利用往年相同时期的流通数量变化情况,特别是在高校图书馆,由于院系课程进度的原因,会出现周期性学生大量借阅同类书籍文献的现象,利用这一已知规律,可以很方便地来推算当前流通数量。当然这有一个前提,就是该类书籍必须具有这种周期性变化,在这里可以使用回归分析、时间序列分析的方法来获取这些规律。当某类图书不存在周期性借阅起伏时可以利用其回归曲线的变化趋势来分析,如果曲线历来比较平稳,说明这类书籍的在馆率比较稳定,而如果偶然出现一次高峰,我们可以向上文一样通过关联挖掘获取其当时借阅量突增的原因。2.4挖掘学科隐性关联与学科动向关联挖掘能在大规模数据集中发现意想不到的属性关联规则,这些规则有助于发现学科间的隐性关联,而针对学科领域的主要研究人员进行此类挖掘还能发现最新的学科动向。例如.最近在信息管理系的借阅记录中得到:有3O%的竞争情报借阅同时带有会计学、财务管理的借阅,有8O%的证券分析借阅带有数据挖掘借阅。这让我们联想到可能有用户在进行企业财务竞争情报的研究、证券领域的数据挖掘研究,这都是很有价值的信息。3获取用户信息需求获取用户需求是数据挖掘在图书馆工作中的又一重要运用。正如前面所说的,用户在利用图书馆的资源过程中会留下大量信息,这为图书馆工作者和研究者获取用户信息需求,据此进行用户分类、需求聚类提供了丰富素材。3.1用户需求聚类用户的需求纷繁多样,作为一个运算能力、存储能力有限的图书馆系统无法把这些需求一一记录。所以需要对用户需求进行聚类.聚类的方法很多,比如划分方法(partitioning)、层次方法(hierarchical)、基于密度的方法(density-based)、基于网格、基于模型等等。根据图书馆现有数据的特点,我们选择以下几个属性作为用户需求聚类的依据:用户专业(职业)profession(通过单位、学号、工号概化所得),用户年龄age_range,借阅主题(类)subjectclass(从用户借阅历史中通过关联分析获取支持度、可信度最大的借阅类)。一个用户可能有多个借阅主题.但这没有关系,因为一个用户可以拥有多个需求模型。由于聚类方法大多基于距离、密度,所以对于profession、subject_class属性需要对其进行量化处理,在此采用的是中图法的分类办法,利用相似学科编码的相似性来测量其距离.例如TP312、TP311这类计算机、自动化的学科和主题.由于其编码的相似性得以聚类,测度距离方法可以采用欧几里德距离、曼哈坦距离或者明考斯基距离。但是这样有一个缺点。就是中图法中会把相似学科的书籍分派到截然不同的大类中.例如信息系统分析设计这一类的书籍就出现在社会学科的管理学类中,又出现在信息传播、图情学类中.还可能在电子商务、管理决策等商科范围中.面对这类问题应该通过用户专业属性来进行调整,不过这存在着一个考量的问题。因为用户不可能局限于其所属学科来借阅文献,所以通过这一属性来聚类只能是起一个参考补充的作用。尽管如此,由于拥有大量的数据集.所以通过关联分析挖掘时可以剔出这些不属于该用户学科的书籍,然后使用profession聚类来弥补subject_class聚类的错漏。我们还可以根据检索记录来获取需求.在此介绍一种方法.即clique_miningmethod,这种方法把检索词当作节点,两个词一起出现则在它们之间连线,以此构成网状图。然后选择出现次数最频繁的、网间联系最紧密的部分聚为一类,这些聚类的检索词就可以构成一个用户需求类。在图的标准化中.需要对出现次数过于频繁的、连线过于紧密的检索词予以剔出,这些词大都是无意义的助词,不具备需求识别能力。3.2用户分类通过数据挖掘可以对图书馆用户进行分类,当然也可以使用聚类的方法,这与用户需求聚类基本等价,所以在此讨论分类的方法。分类方法主要有判定树归纳分类、贝叶斯分类以及神经网络的后项传播分类等方法。仍然基于前述的用户基本信息记录,主要属性有Age-range6Sex,Profession_domain,Grad以借阅主题类Information_retrival及其两个不同取值{borrow,n