0书目共现分析系统(BibliographicItemsCo-occurrenceMatrixBuilder,BICOMB2.0)使用说明书中国医科大学医学信息学系开发沈阳市弘盛计算机技术有限公司协作开发2014年1月0目录前言…………………………………………………1安装…………………………………………………2运行…………………………………………………3数据收集……………………………………………4建立项目……………………………………………13提取字段……………………………………………15频数统计……………………………………………21矩阵生成……………………………………………23词篇矩阵…………………………………………23共现矩阵…………………………………………23附录…………………………………………………26SPSS聚类分析…………………………………………261前言生物医学文献正在爆炸式的增长,同时随着网络技术和文献电子化的发展,书目文献数据库中收集了巨大数量的文献信息,单凭人工在浩瀚的文献海洋中发现和获得自己需要的信息变得困难重重,但这也同时为生物医学文本挖掘提供了广阔的舞台。《书目共现分析系统》(BibliographicItemsCo-occurrenceMatrixBuilder,以下简称BICOMB)便是在此背景下应运而生。该软件系统由中国卫生政策支持项目(HPSP)资助开发,后又受中国医科大学《“十二五”医学教育科学研究课题》的资助进一步升级改进为2.0版本,采用目前技术成熟、流行的数据库语言开发,可对医学文献数据库中的书目信息进行快速读取、准确提取字段并归类存储、统计,并生成书目数据的共现矩阵,为进一步研究提供全面、准确、权威的基础数据。作为文本挖掘的基础工具,BICOMB可对国际上权威的生物医学文献数据库PubMed、引文数据库ScienceCitationIndex(SCI)、中国知网(CNKI)和万方数据等数据库的文献记录进行读取分析,并允许用户对系统功能进行修改、增加等拓展。本软件系统作为文本挖掘的基础工具,希望在情报分析中得到广泛而充分的应用,为生物医学及其他学科的研究开展做出贡献。2安装一、电脑的准备:软件系统在安装了Windows98/2000/NT/XP/Visat等操作系统的电脑上均可正常运行。不建议使用WindowsME/2003等版本。另外,电脑中需要具备MicrosoftOffice办公软件系统。在统计功能中,BICOMB的结果将利用MicroSoftExcel生成报表。软件系统的界面包含Flash动画,要求操作系统中Flash版本在8以上。(浏览如新浪网,可以正常看到网页中的动画,就说明是在Flash8以上)。二、软件的安装:下载的两个文件(BICOMB2,bde-install),解压缩后,先运行一遍bde-install,布置好环境,然后解压缩BICOMB2即可。3运行在安装的软件系统目录中选择“bicomb2.exe”文件运行。系统主界面(见图2-1)包括:系统引导区(左侧)以及工作区(右侧)。图2-1系统引导区:显示系统名称、开发方信息以及动画形式的主功能(项目、提取、统计、矩阵等4项)菜单等内容。工作区:以步骤形式分页显示各主功能对应的详细功能内容。在接下来的章节将详细介绍各主功能项的详细功能内容以及操作方法。4数据收集数据收集分为检索和下载两个步骤。检索过程即为找到切题的文献。目前按照业务需求,软件系统可对txt、xml两种格式的文件类型进行指定内容的提取工作。txt格式类型的文件(图3-2)是标准的ANSI编码的纯文本格式文件,软件系统通过遍历文档,查找每行文字的前面的特征字符(图3-1中的{Author}等统一格式的字段名称)来提取其后面的内容信息(如图3-1中的王超)。因此下载数据时要选择规定的格式,以便符合软件系统的要求。图3-1txt格式的文献记录xml格式类型的文件是一种以“树”状结构形式存储数据的纯文本格式文件。软件系统要提取的就是“树”上指定“节点”上的“叶子”。图3-2就是图3-1同一篇文章的xml格式。图3-2xml格式的文献记录5一、PubMed数据库文献记录的下载1.进入检索结果显示页面后,点击右侧上方的下拉菜单,可以将检索结果发送到本地计算机(如图3-3)。图3-3PubMed检索结果显示页面2.设定下载文件的保存格式,BICOMB2.0对PubMed中记录要求的缺省格式是XML格式,在“sendto”下拉菜单的选项中,依次在“ChooseDestination”中选择“file”,“Format”中选择“XML”,其余选项可任意选择(如图3-4)。图3-4PubMed检索结果下载界面3.点击图3-3中的“CreateFile”按钮,选定保存路径和文件名称,将文献保存到本地磁盘中(图63-4)。图3-5为用写字板打开的下载文件。图3-4写字板中显示的PubMed文献记录的XML格式二、SCI数据库文献记录的下载1.进入检索结果显示页面后,寻找在页面上方正中位置的保存文件下拉菜单(缺省保存设置为“保存至EndNoteOnline”)。点击后选择“保存为其他文件格式”(图3-6)。BICOMB2.0对SCI数据预设的格式为txt格式。图3-6SCI检索结果显示页面2.弹出浮动窗,选择记录数(SCI规定最多每次下载500条记录);选择“记录内容”为“全纪录与引用的参考文献”(做引文分析时必须要下载参考文献),“文件格式”选择“纯文本”。点击“发送”(图3-7)。7图3-7SCI检索结果下载选项3.设定本地保存路径和文件名之后,可以用记事本或者word打开浏览结果(图3-8)。图3-8用记事本打开(左)和用word(右)打开的文档三、万方数据库的文献记录下载1.为了批量下载文献记录,对万方数据库采用高级检索方式(链接位于检索查询框的右侧查询按钮旁),进入高级检索并检索后,显示结果如图3-9。选择每页显示最大条目数(50),并在左侧记录序号上方的核选框中选择“全选”,点击“导出”选项卡就可以显示准备导出的记录(图3-10)。图3-9万方数据库检索结果界面82.对于导出选项卡里的记录,万方提供了多种导出格式(左侧边栏),BICOMB对万方数据库的记录处理的缺省格式是notefirst,这是一个XML格式(如图3-10)。点击导出,设置文件名称和保存路径即可将有关记录下载到本地计算机。目前,万方数据库最多可以一次下载500条记录。3-10万方数据库检索结果导出界面四、CNKI数据库的文献记录下载1.CNKI数据库不需要进入高级检索,直接检索后,选择“每页显示”50条记录,在左侧记录序号上面的栏目条选中核选框,最后点击“导出/参考文献”后进入导出界面。图3-11CNKI检索结果界面92.在导出页面,点击左侧文献记录序号上方核选框达到全选,点击“导出/参考文献”进入下载页面。图3-12CNKI导出界面3.在CNKI的下载界面,左侧栏目条列出多种下载格式。BICOMB系统处理CNKI文献数据库的缺省格式是notefirst格式,也是一种XML格式。点击“导出”后选择路径并设定文件名后保存至本地计算机上。CNKI一次下载文献量最多为500条。图3-13CNKI导出格式选择五、自定义下载格式10BICOMB的用户可以根据所下载文献记录的格式,自己创建定义BICOMB的格式模板。下面以CNKI的“自定义格式”为例,说明用户自定义字段信息抽取模板的过程。1.下载文献记录:在CNKI下载页面的自定义格式(如图3-14)中,我们增加了关键词、发表年、基金等字段下载,保存在本地计算机上。图3-14CNKI下载记录的自定义格式2.记录字段格式的种类:用写字板等工具打开下载记录文件(图3-15),可以看到所下载的文献记录,每一篇文献的第一行都有“SrcDatabase-来源库:”(注意中文及符号的全角半角)的文字,我们将其作为分隔文章的标识,在BICOMB中称之为“文章节点”,设置文章节点可以把同一文档中的不同记录分隔开来,对统计关键词、作者等的共现次数十分重要。如果不设定文章节点,BICOMB会认为所有的关键词等都来自一篇文章,造成关键词等统计目标的出现频次及其统计的混乱。在CNKI自定义格式中,作者、单位和关键词字段内的关键字有取多个值,均位于同一行(如多个作者都处于一行),各个值之间以“;”分隔符区分。我们目前将字段的这种表现形式成为单行多值。图3-15写字板显示的CNKI自定义格式11其他几种字段内容的表现格式表3-1,这些在下面介绍的设定字段格式中会使用到。表3-1BICOMB自定义的几种字段表现格式字段格式名称描述样例实例单行多值多个值位于同一行,各值之间以分隔符区分开Author-作者:许婷婷;陈秋珠;郭文斌;CNKI自定义中的作者字段多行多值关键字有多个值,每个值占一行,无分隔符AUSuarez-Tangil,GTapiador,JEPens-Lopez,PSCI数据库中的作者、引文字段单值单行指该字段仅有一个值,这个值也仅占一行Title-题名:我国近十年自我概念研究热点知识图谱Source-文献来源:渭南师范学院学报SCI数据库中发表年字段等单值多行该字段只有一个值,但是其内容较多,长度超过一行TIAtextminingapproachtoanalyzingandclassifyingcodestructuresinAndroidmalwarefamiliesSCI数据库的标题字段3.自定义设置抽取模板:打开BICOMB之后,在系统工作区左下角的选项卡中选择“管理员“,管理员页面上端“格式定义”下拉菜单右侧有一排3个按钮,为模板控制按钮,用户可以自由地新增、删除或者修改来文本记录的抽取模板。图3-16BICOMB中用户自定义抽取模板的界面如欲新增模板,可点击“+增加”按钮,弹出“增加-格式类型”框(图3-14),填写“格式名称”和“格式全称”作为你自己设定模板的名字,方便以后调用。对于CNKI自定义下载格式,格式类型选择“txt”。4.自定义设置字段模板:在图3-16中右侧也有一列“+增加”、“-删除”和“修改”按钮,为字段控制按钮。可以在已经定义好的模板中添加具体的字段。首先设定好文章节点,如前所述,本例中采用了“SrcDatabase-来源库:”作为文章节点。注意,作为文章节点字段必须在文本框里输入“文章节点”4个字,并且用英文半角的“”号包裹。12图3-17文章节点的设置假设我们要抽取文献记录中的关键词字段,点击右侧“+增加”后,弹出对话框,具体设定如下:关键字:用户自己任意输入名称,如关键词。节点1:为关键词字段的标识“Keyword-关键词:”取值方法描述:多值,分隔符为“;”。成功设定字段抽取模板的关键在于选择合适的节点和正确的节点格式。图3-18CNKI自定义字段中关键词字段的设置13建立项目在BICOMB中建立一个新的项目(图4-1)的步骤包括:图4-1BICOMB项目管理页面一、增加项目在工作区右侧点击“+增加”按钮,然后给这个新项目命名一个编号,编号可以包含数字或字母,但不可包含数字或字母以外的其他字符。二、选择类型根据项目选择特定的格式类型。如分析从PubMed下载的XML格式文件时应选PubMed·PubMed·xml格式类型。三、项目说明为区分各项目,方便管理,可以在“项目说明”中录入一些关于新项目的说明。图4-2BICOMB文件存储在以项目编号命名的目录内新项目建成后,软件系统将在其目录下自动创建一个以“项目编号”为名的文件夹(图4-2)。它将14在以后的工作中存储所选取的文献文档及提取、统计的结果等。选择“删除”按钮可以删除已建成的项目,BICOMB将提示操作的严重性,以避免误操作。15提取字段项目建立完成后,即可选择导入数据的文档,实现字段内容的提取和清洗,点击工作区的“提取”功能选项卡(图5-1)。一、文献文档文件的选择与移除1.对于一个项目,可以选择一篇文档或多篇文档,也可以