多语种在线语料库检索平台-BFSU-CQPweb-使用简明手册

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1多语种在线语料库检索平台BFSUCQPweb使用简明手册许家金中国外语教育研究中心1、访问及登录访问124.193.83.252/cqp/(用户名:test和密码:test),可点击使用相应的语料库。目前BFSUCQPweb平台上已安装英语、汉语、德语、日语、俄语、阿拉伯语、冰岛语等7个语种35个语料库。图1:BFSUCQPweb主界面2、CQPweb功能概要按McEnery&Hardie(2012)对语料库分析工具的时代划分,CQPweb属于第四代语料库工具,即在线语料库分析工具。四代工具的突出代表是美国杨百翰(BrighamYoung)大学MarkDavies教授创建的BYU系列语料库检索界面()。类似的在线语料库检索系统还有SketchEngine、CWB、BNCweb、PhraseinEnglish等。而当前主流的语料库工具属于第三代,其中以WordSmith、AntConc和PowerConc等为代表。第四代语料库工具,将语料库与分析工具合二为一,越来越受到普通用户的青睐。在线语料库工具通常将语料库文本按特定格式建成索引(index),存储在服务器上。用户检索响应速度要远高于三代软件在本地电脑上的检索速度。其操作也较三代语料库软件简便得多。四代语料库工具可完成三代语料库几乎所有的功能,其中又以CQPweb所能实现的功能最多最全。更重的是,CQPweb是开源软件。概括说来,CQPweb可以实现以下功能。(1)在线生成语料库的词频表(frequencylist);(2)查询(query)字词、语言结构等,以获取大量语言实例或相应结构的出现频次(frequency),并可以按语体、年代、章节、学生语言水平级别、写作题材等分别呈现查询结果;(3)计算特定词语在语料库中的典型搭配(collocation);2(4)计算语料库中的核心关键词(keywords),等。3、CQPweb使用实例3.1标准查询模式在简单查询模式(Simplequerymode)下,可输入单词、短语等进行检索。图2:BFSUCQPweb语料库查询界面图3:BFSUCQPweb查询结果界面3点击查询结果页面右上角下拉菜单,显示NewQuery(新查询)时,按Go键,即可重新回到语料库检索界面。相当于“返回”按钮。表1:查询结果后续操作分项功能表Newquery新查询,返回语料库检索首页Thin查询结果随机抽样Frequencybreakdown频数分解、分解频数Distribution查询结果的分布展示Sort查询结果排序设定Collocations搭配计算Download下载保存查询结果Thin(随机取样),比如,可从5万行结果中,随机抽取100行。Frequencybreakdown(频数分解)表示在进行复杂查询时,对命中的不同词项分别计算频数。比如,查询am|is|are|was|were|be|being|been时,会按这7个词项分别报告命中频数和频率。图4:be动词查询Frequencybreakdown(频数分解)结果示例Distribution:按语体、年代、章节、学生语言水平、写作题材等分别呈现查询结果图5:Crown语料库中lov.*的分布情况(Distributiontable)4图6:Crown语料库中lov.*的分布情况(Barchart)Collocations:计算特定词语在语料库中的典型搭配图7:Crown语料库中lov.*的典型搭配词(以loglikelihoodvalue排序)3.2限定条件查询限定条件查询,指在任务一开始,即选定一个或多个限制条件(如,语体、年代、章节、写作题材等)进行查询。限定条件的有无、多寡,源自语料库文本的元信息(metadata)。因此,在创建语料库时,应尽可能详细记录语料文本产生的社会语言学信息。丰富的社会语言学信息,可以大大丰富研究的层面和深度。这样的元信息可以存储在文本的头部,也可以在文本之外单独存储。5图8:限定在Crown语料库的学术语体中查询情态动词3.3生成词频表图9:Crown语料库的词频表63.4生成主题词表比如以《红楼梦》与Crown语料库进行对比,可能得到《红楼梦》的主题性词汇。附录1:CQPweb平台中英文术语对照表(表2)(word)token词次(word)type词种Collocation词语搭配Corpusdocumentation语料库说明文档Corpusmetadata语料库元信息CQPsyntaxCQP复杂检索语法Distribution分布(按语体等分类条件分别呈现结果)Frequency频数、频率Frequencybreakdown频数分解、分解频数Frequencylist词频表、词表Frequencylist词频表Keywords主题词Loglikelihood(ratio)对数似然率(典型词语搭配的统计方法)Maximumwindowspan最大跨距(计算搭配时中心词和左右语境词之间的距离)No.ofoccurrences出现次数Node检索词、中心词、节点词Numberofhitsperpage查询结果每页显示的行数Query查询、检索Restrictedquery限定条件查询returned35,607matchesin743differenttexts直译:在743个不同文本中返回35,607个匹配项意译:在743个文本中查到35,607例子7Showhitssortedbynode查询结果按中心词排序Simplequery(ignorecase)简单查询(不区分大小写)Wordlookup词语相关查询附录2:复杂检索举例(查询时,选择CQPSyntax)单词检索:lov.*、.*ment、am|is|are|was|were|be|being|been词码混合检索:good[pos=N.*]、happy[pos=N.*]、[pos=J.*]love、[pos=J.*][pos=J.*][pos=N.*]、something[pos=J.*]近义词批量检索:little|small、/color[]语料天涯::许家金、吴良平,2014,基于网络的第四代语料库分析工具CQPweb及应用实例,《外语电化教学》(5):10-15,56。JiajinXu&LiangpingWu.2014.Web-basedfourthgenerationcorpusanalysistoolsandtheBFSUCQPwebcase,WaiyuDianhuaJiaoxue[Computer-assistedForeingLanguageEducation](5)10-15,56.

1 / 7
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功