美国当代英语语料库(COCA)使用说明一、COCA语料库简介•COCA简介–COCA:美国当代英语语料库(CorpusofContemporaryAmericanEnglish)是由美国杨伯翰大学(BrighamYoungUniversity)的MarkDavies教授开发的美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。COCA语料库简介–COCA美国当代英语语料库涵盖美国这一时期的口语(spoken)、小说(fiction)、流行杂志(popmagzine)、报纸(newspaper)和学术期刊(academic)五大类型的语料库,并且在这五个类型方面基本呈均匀平衡分布。–网址:COCA简介选择学习COCA的原因•1.COCA免费且在线方便。•2.规模大(4.5亿,1990-2012)、速度快(一般几秒)、词性标注易于理解。•3.时效性强——每年至少更新两次,并且每年新增2000万词汇。COCA界面简介主要包括三大功能区:Ⅰ显示及查询条件界定区,包括:显示方式区,字串查询区,语料库分类区,查询结果排列方式区。Ⅱ查询结果数据显示区Ⅲ例句显示区COCA界面简介COCA界面简介•显示方式区:•1.LIST——列表显示•2.CHART——图表显示,可以显示在各语料库类型中的使用频率和各时间段内的使用情况。•3.KWIC——Keywordincontext,上下文关键词显示•4.COMPARE——单词比较显示,比较两个不同词或短语的搭配情况。COCA界面简介COCA界面简介•字串查询区:•Ⅰ、WORDS:输入字符串。•Ⅱ、COLLOCATES:上下文限定。•Ⅲ、POSLIST:词性列表COCA界面简介COCA界面简介•语料库分类区(五大类型语料库共包括42个子语料库)。•功能:此区可以对查询的字符串限定语料类型(Genre)和时段(Year),并且可以明确到查询某一个子语料库,时段也可以查询任何一年的某个字词的使用情况。COCA界面简介•语料库分类区(五大类型语料库共包括42个子语料库)。COCA界面简介•语料库分类区(五大类型语料库共包括42个子语料库)。二、COCA主要搜索功能•2.1搜索words、phrases、lemmas(单词的所有形式)、wildcards(通配符)和其他更加复杂的字词。•例1.输入单词“mysterious”(图2.1.1-1):得到相关结果(图2.1.1-2):在各子库中的频率,每百万词使用的频率。•若对图2中的相应条块进行点击,那么就可以看到KWIC,如图2.1.1-3(以点Fiction的条块为例):图2.1.1-1图2.1.1-2使用CHART显示图2.1.1-3例句显示区使用的是KWIC显示KWIC显示方式•蓝色——名词•紫色——动词•绿色——形容词•棕色——副词•灰色——代词•黄色——介词KWIC显示方式COCA主要搜索功能•例2.输入词组“white+名词”(图2.1.2-1),得到的结果都是white后面跟的名词短语(图2.1.2-2),检索表达式为:white[n*]。图2.1.2-1图2.1.2-2White+名词的短语规则:输入名词的话用正表达式:[nn*];动词:[v*];形容词:[j*];副词:[r*];代词:[p*];连词:[c*]……POSLIST词性列表noun.ALL=名词noun.SG=单数名词noun.PL=复数名词noun.CMN=普通名词noun.+PROP=专有名词noun.-PROP=非专有名词POSLISTPOSLISTverbbase=动词原形verb.INF=动词不定式verbMODAL=情态动词verb3SG=动词第三人称单数verbED=过去式verbEN=过去分词verbING=现在分词verb.LEX=lexicalverb实意动词verb.[BE]=系动词verb.[DO]=doverb.[HAVE]=havepron.INDF不定代词pron.PERS人称代词pron.WH疑问代词pron.REFL反身代词adj.CMP形容词比较级(comparative)adj.SPRL形容词最高级(superlative)adv.particle副词小品词adv.WH疑问副词POSLISTdet.GEN类指限定词det.POS物主限定词num.CARD基数词num.ORD序数词conj.CRD并列连词conj.SUB从属连词Interj.叹词PUNC标点POSLIST词性列表的使用•1)查询多义词特定的词性•2)某个词前或者后面特定词性的若干搭配词,如confidence前的形容词•3)词性附码放置的位置——WORDS或COLLOCATES处•例3.输入通配符(wildcards),如分别输入un*ly和r?n*,结果如图。COCA主要功能(一)?代替一个字母*代替任意数量字母EXAMPLE3EXAMPLE3•例4.输入lemmas(即一个单词的单复数、时态等所有形式),若要得到sing这个单词的所有形式,可以如下图所示。COCA主要搜索功能规则:若要得到某个单词的所有单复数和时态形式,那么就要在输入时,在这个单词外加[]。EXAMPLE4形容词early的原形,比较级和最高级三种形式一次性检索出来检索EXAMPLE4•例5.输入某种词性且部分带有某些字母的命令,如要得到以un-开头、-ed结尾的所有形容词的所有形式(见图2.1.5-1)和得到动词+任何词+ground的所有词组(见图2.1.5-2):规则:若要得到某种词性且词中带有部分带有某些字母的形式时,如要得到以un-开头、-ed结尾的所有形容词的所有形式,那么输入:un*ed.[j*];若要得到动词+任何词+ground的所有词组,那么输入:[v*]*[ground]即可。前者用来研究词汇,后者用来查询特定词性的搭配。COCA主要功能(一)图2.1.5-1图2.1.5-2动词+任何词+ground的所有词组•2.2搜索搭配词和出现的频率•如“thick后跟的名词”(图2.2-1)COCA主要搜索功能(二)图2.2-1规则:在collocates里输入[n*]后选择4,表示在thick4后面(4跨距范围内)出现的任何名词•如:跟在“smile前面的形容词”(图2.2-2)规则:在words里输入:smile.[n*],表示作为名词的smile;在collocates里输入:[aj*]表示其前后出现形容词的语境。COCA主要功能(二)Confidence前使用的形容词图2.2-3•2.3搜索在子语料库内(或之间)出现的频率(或比较)(不同语域中的用法)•如在Fiction和Newspaper子语料库中passionate后面可以跟任何名词的词及频率,分别如两图(2.3-1和2.3-2)。COCA主要功能(三)图2.3-1图2.3-2•但是也可以之间对两者子语料库中它们出现频率的对比,操作:分别选择section1&2,如下图(图2.3-3):COCA主要功能(三)•2.4进行语义倾向比较•2.4.1比较近义词•如:近义形容词hot和warm后面所跟名词的区别(如图2.4.1):COCA主要功能(四)图2.4.1规则:在words的方格里分别输入hot和warm,再在collocates方框里输入[nn*],表示后面所跟任何名词。当然也可以比较在某个子语料库中出现的频率比较。•2.4.2比较反义词•如:woman和man前面所跟的形容词的区别(如图2.4.2)图2.4.2规则:在words的方格里分别输入woman和man,再在collocates方框里输入[j*],选在左3,表示前面3个跨距内所有的形容词。当然也可以比较在某个子语料库中出现的频率比较。•2.4.3搜索近义词•如:搜索beautiful的所有近义词(如图2.4.3-1)规则:在words的方格里输入[=beautiful],表示和beautiful语义相近的所有形容词。•再如:搜索动词clean的所有近义词,如下图:图2.4.3-2Question•Application和increase能否作主谓搭配?查询结果筛选出“应用”和“增加”作主谓搭配的例句•Theannualapplicationoffertilizershasincreasedby5.48%onaveragesince1980,andthatofpesticide…•IntenMemberStates,averageapplicationofnitrogenincreasedalmost400%between1950and1981.•Finally,studieshaveshownthatapplicationofbiosolidsincreasesthewaterholdingcapacityaswellasreducesthepotentialofthe.结论•Application可以和increase作主谓搭配,但多用于学术期刊中,口语中出现很少。