BICOMB:BibliographicItemCo-OccurrenceMatrixBuilder《用户操作使用说明书》开发者:中国医科大学医学信息学系崔雷沈阳市弘盛计算机技术有限公司协作开发2010年2月1目录前言„„„„„„„„„„„„„„„„„„„1安装„„„„„„„„„„„„„„„„„„„2运行„„„„„„„„„„„„„„„„„„„3数据收集„„„„„„„„„„„„„„„„„4建立项目„„„„„„„„„„„„„„„„„17提取字段„„„„„„„„„„„„„„„„„19频数统计„„„„„„„„„„„„„„„„„22矩阵生成„„„„„„„„„„„„„„„„„28词篇矩阵„„„„„„„„„„„„„„„„28共现矩阵„„„„„„„„„„„„„„„„29聚类分析„„„„„„„„„„„„„„„„„31附录„„„„„„„„„„„„„„„„„„„341前言生物医学文献正在爆炸式的增长,同时伴随着计算机网络技术的发展,期刊网络版的出现,医学书目数据库中收集了巨大数量的生物医学文献。单凭人工在浩瀚的文献海洋中发现和获得感兴趣的知识变得困难重重,但这也同时为生物医学文本挖掘提供了广阔的舞台。《书目共现分析系统》(BibliographicItemCo-OccurrenceMatrixBuilder,BICOMB)便是在此背景下应运而生。该软件系统由中国卫生政策支持项目(HPSP)资助,采用目前技术成熟、流行的数据库语言开发,主要目标是对以生物医学文献数据库中的书目文献信息进行快速扫描,准确提取并归类存储、统计计算、矩阵分析等等,为进一步研究提供全面、准确的基础数据。本软件系统可对国际上权威的生物医学文献数据库PubMed、科学引文索引(ScienceCitationIndex,SCI)数据库的网络格式(WebofScience,WOS)和光盘格式(SCICD-ROM)以及中国知网(CNKI)的记录进行读取分析,并允许用户对某些功能进行修改、增加等拓展(见附录),具备较强的适应性和一定的扩展性。主要功能包括:共现矩阵生成功能:对文献数据库中存在多个条目的字段统计并生成共现矩阵,如作者合著、引文同被引、主题词共现等。文献计量分析功能:对常用文献计量分析的指标进行频次统计,如来源文献的作者、期刊、主题词、发表年代的统计;被引文献的引文、作者、期刊、年代等统计。输入到系统的数据为来源数据库(如WOS、PubMed等)中检索并下载的书目文献记录,下载时需要按照本软件规定选择文献记录的格式。对于输入到本系统的文献数据数据,总体按照如下步骤分析处理:(1)抽取字段:对于从来源数据库下载的文献记录,指定要统计分析的字段(如主题词)进行抽取。(2)频次统计:对于抽取出来的条目(如具体的主题词)统计出现频次,并根据频次分布情况确定阈值,截取要进一步分析的部分条目(如高频主题词)。(3)共现矩阵生成:对于截取出来的条目,根据它们在同一文献记录中共同出现的次数生成共现矩阵。本软件系统作为文本挖掘的基础工具,所生成的矩阵可以进一步应用于聚类分析和社会网络分析等,希望用户在使用中提出进一步修改的建议。2安装电脑的准备:软件系统在安装了Windows98/2000/NT/XP/Visat等操作系统的电脑上均可正常运行。不建议使用WindowsME/2003等特殊版本。另外,电脑中需要具备MicroSoftOffice办公软件系统。软件系统在统计功能中,其结果将利用MicroSoftExcel生成报表。软件系统的界面包含Flash动画,要求操作系统中Flash版本在8以上。(浏览如新浪网,可以正常看到网页中的动画,就说明是在Flash8以上)。软件的安装:运行光盘中的安装文件。3运行运行“桌面”上的快捷方式,也可直接在安装的软件系统目录中选择“bicomb.exe”文件运行。系统主界面(见图2-1)包括:系统引导区(左侧)以及工作区(右侧)。图2-11、系统引导区包括:系统名称、开发方信息以及动画形式的主功能(项目、提取、统计、矩阵等4项)菜单等内容。2、工作区以步骤形式分页显示各主功能对应的详细功能内容。在接下来的章节将详细介绍各主功能项的详细功能内容以及操作方法。4数据收集数据收集分为检索和下载两个步骤。检索过程即为找到切题的文献。目前按照业务需求,软件系统可对xml、txt这两种格式的文件类型进行指定内容的提取工作。xml格式类型的文件(图3-1)是一种以“树”状结构形式存储数据的纯文本格式文件。软件系统要提取的就是“树”上指定“节点”上的“叶子”。而txt格式类型的文件是标准的ANSI编码的纯文本格式文件,软件系统通过遍历查找每行文字的前面的特征字符来提取其后面的内容信息。因此下载数据时要选择规定的格式,以便符合软件系统的要求。图3-1PubMed、WOS数据库、SCI-CDROM、CNKI数据库的数据收集及下载过程:PubMed1.进入检索页面:网址为http://www.ncbi.nlm.nih.gov/pubmed/。2.在检索框中输入预先拟定的检索策略进行文献检索,可通过点击检索框右侧的,可以限定检索文献的出版年限、语种、文献类型等内容(如图3-2,3-3)。5图3-2图3-3输入检索策略63.结果显示点击DisplaySettings,选择XML格式显示检索到的文献。图3-44.结果保存点击选择File,再点击CreateFile.创建保存路径和文件名称,将文献以文本文档的形式保存到本地磁盘中。图3-57图3-6WOS引文:数据检索:进入ISI的主页www.isiknowledge.com,选择“WebofScience”。在检索范围下拉列表中选择要检索的字段,之后在检索框中输入拟定的检索策略,在网页下方设定要检索的年限并勾选相应的数据库(图3-7)。图3-7检索后得到的结果如下图所示检索策略检索范围选择检索时间段和数据库8图3-8在该页面下方的输出结果(outputrecords)栏目中填入或勾选相关内容Step1选择记录(record)[]to[]。填入1和500Step2勾选全纪录(fullrecord)和包含引用的参考文献(pluscitedreferences)Step3点击(addtomarkedlist)图3-9结果保存此时,网页上方的的标记结果列表(markedlist)之后的括号内数字由原来的0变为500。9图3-10点击该处,进入WebofScience的标记记录(MarkedRecords)页面图3-11在step1输出字段中,保留缺省的作者、标题和来源文献等标记,选中被引参考文献(citedreferences),去掉ISSN前面的标记图3-12在step2中,在保存到文件(savetofile)的下拉列表中选择纯文本(plaintext),点击一段等待之后将弹出下载提示,输入文件名和路径后下载到本地机器中。勾去该项勾选该项10图3-13点击,回到markedlist中,点击(deletethislist),确认后删除掉list中的纪录。图3-14点击退出结果标记列表(leavemarkedlist),回到上述步骤3,输入501-1000,进行下一组结果的保存。图3-15SCI-CDROM1.进入SCI光盘版界面①准备阶段:双击桌面,打开虚拟光驱管理器,点击桌面右下角选择SCI.ISO,在弹出的窗口中选择检索所需的映像文件,收录1995年—2007年。11图3-16②点击开始菜单→→ISICDEditions,进入SCI-CDROM检索界面。2.数据检索在检索范围下拉列表中选择要检索的字段,之后在检索框中输入拟定的检索策略。(图3-17)图3-17检索策略检索字段12在该界面右边“Limits”中限定语种、文献类型、更新时间内容。(图3-18)图3-183.结果显示检索后得到的结果如下图所示图3-19点击“Results”,显示详细结果,点击进行逐条查看。(图3-20)检索结果13图3-204.保存结果File→SaveRecords,进入保存界面。(图3-21)选择全记录保存格式和文件类型:Dialog-Medline,输入文件名和路径后下载到本地机器中。图3-215.检索完这一年的数据后,更换下一年的光盘进行检索。返回到第一步,选择要检索的年限,点击File下的ChangeCompactDisc。重复上述步骤继续检索。(图3-22)14图3-22CNKI1.进入检索页面:网址为http://www.cnki.net/。选择并进入“学术文献总库”。2.选择进入《中国学术期刊网络出版总库》。(图3-23)图3-233.在检索控制条件中限定期刊年限、来源期刊、来源类别、支持基金,作者、作者单位等内容,在检索范围下拉列表中选择要检索的字段,之后在检索框中输入拟定的检索策略,在网页右边可以选择学科领域(图3-24)。15图3-244.检索后得到的结果如下图所示图3-255.结果保存①在该页面右边“每页记录数”选择“50”②在检索结果记录右上方点击“全选”和“存盘”检索策略检索字段限定条件16图3-26③在弹出的保存页面右侧保存形式中选择“自定义”,在保存字段中勾选题名、作者、关键词、摘要、刊名等标记。图3-27④点击,一段等待之后将弹出下载提示,输入文件名和路径后下载到本地机器中。⑤返回到检索结果页面,点击结果记录右上方的,清除列表勾选过的记录,进入下一页,回到②步的做法,保存51-100条记录,直至保存全部记录。17建立项目在上一章节介绍了数据的收集。下面开始对文献文档进行数据的提取、统计分析、矩阵计算等实际操作。首先建立一个新的项目。见图4-1。图4-11.选择“增加”功能,然后给这个新项目命名一个编号,编号可以包含数字或字母,但不可包含数字或字母以外的其他字符。2.根据项目选择特定的格式类型。如对从PubMed中获得的数据分析时应选PubMed·PubMed·xml格式类型。3.为区分各项目,方便管理,可以在“项目说明”中录入一些关于新项目的说明。图4-24.新项目建成后,软件系统将在其目录下自动创建一个以“项目编号”为名的文件夹(见图4-2)。18它将在以后的工作中存储所选取的文献文档及提取、统计的结果等。图4-35.选择“删除”功能,可以删除已建成的项目。同时软件系统将给出提示(见图4-3),提醒操作的严重性,以避免误操作。因为在确定删除后,项目所包含的所有提取、统计数据都将被删除,包括项目文件夹,且不可恢复回收!19提取字段项目建立完成后,即可选择文献文档,对其进行关键字段数据的提取,汇总统计,生成词篇矩阵、共现矩阵等一系列工作。“提取”功能(见图5-1),即完成文献文档文件的选择以及关键字段数据的提取。图5-1图5-2对一篇文档的选择对一个文件的选择20图5-3图5-4图5-5图5-6双击此处打开文件夹21图5-71、文献文档文件的选择与移除:(1)对于一个项目,可以选择一篇文件或多篇文件,也可以是一个文件夹下的所有文件。如果是一篇文件,选择“选择文档”功能,根据项目的格式类型(xml或txt)准确选择相应文件(见图5-2)。经软件系统提示(见图5-3)确认后,即完成一篇文件的选择。如果是多篇文件,重复上面的选择工作即可。如果是一个文件夹,可以选择“选择目录”功能,选择存有多篇文档文件的文件夹,并指定文件扩展名(见图5-4)。完成一个文件夹的选择。在接下来的提取工作中,软件系统有能力在选择的文件夹中,自动从其中的所有符合指定扩展名的文件中提取关键字数据。(2)选择“移除文档”,可以将当前所选择的文档文件删除(见图5-5)。应注意如果移除,相应的提取数据也将一并被移除。2、提取:正确选择文件或文件夹后,即可进行“提取”工作(见图5-6)。3、提取结果:提取完成后,选择“选关键字段”,软件系统将显示从相应文件或目录中提取的相应关键字段的全部数据内容(见图5-7)。22频数统计软件系统可以将一个项目中提取的所有关键字段数据进行汇总统计,并可将其统计结果全部或部分(通过“频次阈值”控