热烈欢迎来自全国各地的老师们!语料库入门OUTLINE1.基本概念2.著名网络语料库3.常用软件Corpus(语料库,尸体):(pl.corporaorcorpuses):acollectionoftext,nowusuallyinmachine-readableformandcompiledtoberepresentativeofaparticularkindoflanguageandoftenprovidedwithsomekindofannotation(标注).按照一定的采样标准采集而来的、能代表一种语言或者某语言的一种变体或文类的电子文本集。著名语料库BNC(BritishNationalCorpus)英国国家语料库COCA(CorpusofContemporaryAmericanEnglish)美国当代英语语料库CLEC中国英语学习者语料库桂诗春、杨惠中Corpus视频CorpusLinguistics语料库语言学为何要建立语料库?为何要用语料库方法研究语言并将其运用于语言学习?Example:Startorbegin?在口语中哪个更常用?我们的老师经常说Let’sbegin!之类的话,对吗?但有人在BNC等语料库中查到,在口语中,start更常用。语料库的方法基于真实的语言使用情况,事实胜于雄辩我们通过对语料库的检索结果进行分析,可以找到很多问题的答案,例如:“学知识”在英语中是“studyknowledge”吗?“快速导航”翻译成“fastguide”对不对?“只为点滴幸福”这句广告语,对应的英文翻译是“Littlehappinessmatters.”吗?为何“ThebadweathersetinonMonday.”是正确的,但“ThegoodweathersetinonMonday.”却是错误的?“快速导航”翻译成“fastguide”对不对?上海世博会英文网站在口头表达、写作或翻译中如何确定某些用法是地道的?学习者一般要有多大词汇量才能读懂英文报纸?哪些是商务英语中最常用的单词和短语?某种考试中,哪些单词、词组或其他语言现象出现的频率特别高?如何通过量化统计来分析文学作品的写作风格?以上问题也许在词典或语法书这样的工具书中是无法找到答案的,但语料库能为我们提供方便快捷的解决方案。语料库可以辅助EFL学习的各个方面,如词汇、语法、阅读、语体分析、翻译、口语、写作、测试和西方文化学习等。具体来说,本书中语料库辅助EFL自主学习的方法(简称为“语料库方法”)主要指以下三种:(1)直接在权威的语料库中查询语言和文化现象,如英国国家语料库(BNC)和美国当代英语语料库(COCA);(2)利用语料库软件进行文本分析,如AntConc和Range;(3)利用其他基于语料库的网站进行学习,如JustTheWord和SketchEngine。语料库通用语料库专用语料库按用途书面语语料库按语体多语语料库双语/平行语料库母语语料库外语学习者语料库按是否母语历时语料库共时语料库按时效性生语语料库熟语语料库按是否被标注单语语料库按语种口语语料库TypesofcorporaGeneralcorpus通用语料库Annotated标注corpus:acorpusenhancedwithvarioustypesoflinguisticinformation(ortaggedcorpus).Anannotatedcorpusmaybeconsideredtobearepositoryoflinguisticinformation,becausetheinformationwhichwasimplicitintheplaintexthasbeenmadeexplicitthroughconcreteannotation(“addedvalue附加值”).语料库语言学常用术语Monolingual单语corpus:acorpuswhichcontainstextsinasinglelanguage.Multilingual多语corpus:acorpuswhichrepresentssmallcollectionsofindividualmonolingualcorpora(orsubcorpora)inthesensethattheyusethesameorsimilarsamplingproceduresandcategoriesforeachlanguagebutcontaincompletelydifferenttextsinthoseseverallanguages.Parallel平行(aligned)corpus:amultilingualcorpuswheretextsinonelanguageandtheirtranslationsintootherlanguagesarealigned,sentencebysentence,preferablyphrasebyphrase.语料库语言学常用术语Token形符:anindividualwordType类符:wordform.指不重复计算的形符数。Iseeacatandadogcontainsseventokensbutonlysixtypes(thetype'a'occurstwice).ThesentenceRoseisaroseisaroseisarose.waswrittenbyGertrudeSteinaspartofthe1913poemSacredEmily.语料库语言学常用术语type/tokenratio(TTR)类符/形符比,形次比Rose句的TTR:4/10*100=40TTR是衡量文本中词汇密度的常用方法。可辅助说明文本的词汇难度。但是,文本中有大量功能词(functionwords,如the、a、of等)反复出现,文本每增加一个词,形符就会增加一个,但类符却未必随之增加。这样文本越长,功能词重复次数越多,TTR会越低。因此用TTR衡量词汇密度就不合理。语料库语言学常用术语standardizedtype/tokenratio标准化类符/形符比例如,计算每个文本每1000词的TTR,均值处理,得出STTR语料库语言学常用术语Frequencies/occurences(频数,出现次数)Frequency(频率)例如每一百万词、十万词中,某单词的出现次数常常将某个单词在两个语料库中出现的频率参照两个语料库的容量,用卡方检验或对数似然率进行对比,来确定两个语料库中的该单词的使用上是否有差异语料库语言学常用术语Lemma词目在英语语料库文本中,一些实词有大量的屈折形式(inflections),如go这一动词就有go,goes,went,going,gone共5种不同的屈折变化形式。go就是词目。在分析语言时,如果把那5种形式作为5个词来看待,就有可能显得不妥。因此需要将它们全部归并到go名下。这个过程叫词目归并或词形还原(lemmatization).有专门的软件根据词形还原表,自动对文本进行词形还原。Keywords关键词Keywordsarewordswhosenormalizedfrequencyinonecorpus(observedcorpus)issignificantlyhigherorlowerthanthatinanothercomparablecorpus(referencecorpus).Positivekeywordsandnegativekeywords语料库语言学常用术语Concordance索引(又称“语境中的关键词,KeyWordInContext,KWIC”)指的是运用索引软件在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单的形式列出AntConc、WordSmithTools等检索软件语料库语言学常用术语何谓语料库检索Concordancersaredevelopedtoproduceconcordancelinesofaspecificstringoftext.WordsmithToolsAntConcManyothers语义韵SEMANTICPROSODY褒义、贬义例如,通过查询语料库,我们发现cause后面的名词,多为贬义词汇的语义韵(semanticprosody)类似我们经常说的褒义、中性和贬义等色彩,大体可分为积极语义韵(positiveprosody)、中性语义韵(neutralprosody)和消极语义韵(negativeprosody)等类型(Stubbs,1996)。例如汉语中的“广大”不能与含贬义的词搭配,我们不能说“广大犯罪分子”,只能说“广大人民群众”等。英语中像happen、incur、utterly和commit这样的词会搭配一些具有显著消极意义的词,而career和provide这样的词则会搭配一些有显著积极意义的词。这些特殊的节点词总是习惯性和某一类拥有相同或者相似语义特点的词语共现,使它们的语义相互影响、相互作用、相互渗透,在一定的语境内形成一种语义氛围,同时该节点显示出明显的语义韵特点(张瑜,2009)。我们可以利用语料库去探索发现单词的语义韵特点。当今世界上最大的英语语料库之一——COBUILD语料库的领导者JohnSinclair教授是第一个注意到语义韵现象的学者,他通过定位检索发现happen和setin(发生)常常与“不愉快的事件”(unpleasantevents)联系在一起(Sinclair,1991)。“SETin”(SET大写表示包括该词的各种变化形式,下同)的主语绝大多数是不愉快的事情,如rot、decay(腐败、腐烂)、ill-will(歹义)、decadence(颓废)、impoverishment(陷入贫困)、infection(感染)、prejudice(偏见)、viciouscircle(恶性循环)、rigormortis(僵硬死尸)、numbness(麻木)、bitterness(痛苦)、mannerism(癖性)、anticlimax(兴奋之后突然平淡而令人失望的情景)、anarchy(无政府状态)、disillusion、disillusionment(幻灭)和slump(萧条)等。Sinclair诙谐地称setin长期与坏蛋(badcompany)为伍,其结果是只要SETin一出现,人们就知道被描写的事情一定是不愉快的。另一方面,由于SETin已经染上了“贬韵”(imbuedwithan“unfavourableprosody”),一般来说它便没有资格在褒扬场合中抛头露面了。假如有人说这样一句话:“Goodtimessetin(好日子临头了)”,那么讲话人很可能是为了营造某种诙谐或讥讽的效果,否则听话人一定会感到很别扭(转引自纪玉华等,2000)。Stubbs(1995)在COBUILD语料库的1亿2千万单词中定位检索出4万个与动词cause(导致、造成)搭配使用的词群,发现该词染有较强的“贬韵”,充当其宾语的往往是accident、concern、trouble、damage或death之类的词。但是他发现动词provide(提供)在COBUILD语料库中却带着较强的“褒韵”(favourableprosody),充当其宾语的词汇多属于诸如“关怀”、“食物”、“帮助”、“金钱”之类的语义场(转引自纪玉华等,2000)。还有,Louw(1993)发现具有消极语义韵的词组BENTon和SYMPTOMATICof总是和不好的事物联系在一起,例如sin和ruining等。正则表达式例如,我们需要在选定的语料中检索analyze这个词,在索引软件的检索词输入框内,输入analyze即可。但是,另外一些文本可能使用analyse,或者我们还需要检索它的曲折形