47第3课 语料库与翻译研究

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

AnIntroductiontoCorpus-basedTranslationMemorybyYeatsONEhadalovelyface,Andtwoorthreehadcharm,ButcharmandfacewereinvainBecausethemountaingrassCannotbutkeeptheformWherethemountainharehaslain.导言语料库——语言的“压痕”记忆这位姑娘容貌可爱,那几位也风姿迷人,但这一切都成了泡影,如同山间的绿草,仅仅保存,那野兔子躺过的压痕。导言语料库——语言的“压痕”翻译示例:“制定政策”•=Policy,但“制定”的恰当翻译?•与Policy搭配的动词有哪些?导言语料库——语言的“压痕”来自搜索引擎检索的结果来自BYU语料库检索的结果来自BYU语料库检索的结果来自BYU语料库检索的结果来自SketchEngine(BNC语料库)检索的结果来自SketchEngine(BNC语料库)检索的结果1.语料库思想产生的背景2.语料库的发展历史、概念方法及问题思考3.语料库的类型及用途4.语料库检索工具(Wordsmith、Paraconc、Antconc、BYU、SketchEngine)5.语料库翻译实践本章主要内容•物质基础:电脑科技的发展•思想基础:经验主义语料库思想产生的背景•Thedifferenceofmethod,here,maybecharacterizedasfollows:•InLockeorHume,acomparativelymodestconclusionisdrawnfromabroadsurveyofmanyfacts,whereasinLeibnizavastedificeofdeductionispyramideduponapin-pointoflogicalprinciple.LockeHumeRationalismvsEmpiricism:•InLeibniz,iftheprincipleiscompletelytrueandthedeductionsareentirelyvalid,alliswell;butthestructureisunstable,andtheslightestflawanywherebringsitdowninruins.戈特弗里德·莱布尼茨RationalismvsEmpiricism:•InLockeorHume,onthecontrary,thebaseofthepyramidisonthesolidgroundofobservedfact,andthepyramidtapersupward,notdownward;consequentlytheequilibriumisstable,andaflawhereortherecanberectifiedwithouttotaldisaster.大卫·休谟RationalismvsEmpiricism:•“代表当我们看到某件事物总是「造成」另一事物时,我们所看到的其实是一件事物总是与另一件事物「恒常连结」。因此,我们并没有理由相信一件事物的确造成另一件事物,两件事物在未来也不一定会一直「互相连结」(Popkin&Stroll,1993)。因果关系论-「恒常连结」(constantconjunction)「我们无从得知因果之间的关系,只能得知某些事物总是会连结在一起,而这些事物在过去的经验里又是从不曾分开过的。我们并不能看透连结这些事物背后的理性为何,我们只能观察到这些事物的本身,并且发现这些事物总是透过一种经常的连结而被我们在想象中归类。」(Hume,1740)•在认识方法上,理性主义的“自明原则+演绎”方法与自然科学中的数学公理方法有密切联系;•经验主义的“经验+归纳”方法与自然科学中的观察实验方法有密切联系。(周晓亮,2003)RationalismvsEmpiricism:•经验累积的历程•辞典的编纂:•OxfordEnglishDictionary,accumulatedover4,000,000citationslips,2000readers,alphabetizingandsortingtheslipsbyMurray’smanychildren•现代汉语词典•Harris(1993)summarizestheapproach:“Theapproachbegan…withalargecollectionofrecordedutterancesfromsomelanguage,acorpus.Thecorpuswassubjectedtoaclear,stepwise,bottom-upstrategyofanalysis.”语言的记录、研究与理论的表达方法•Chomskysaidthatcorpuscouldneverbeausefultoolforthelinguist,asthelinguistmustseektomodellanguagecompetenceratherthanperformance.•乔姆斯基《句法结构》认为说话的方式(词序)遵循一定的句法,这种句法是以形式的语法为特征的,具体而言就是一种不受语境影响并带有转换生成规则的语法。在1980年到1992年,乔姆斯基是被文献引用数最多的健在学者,并是有史以来被引用数第8多的学者Chomsky’scriticism•Whatisacorpus?•Acollectionofmachine-readable,authentictexts(includingtranscriptsofspokendata)whichissampledtoberepresentativeofaparticularlanguageorlanguagevariety.Definitionofacorpus•用语料库对语言的某个方面进行研究•依据语料库所反映的语言事实对现行语言学理论进行校正和批判,重构新的观点或理论•依据语料库的分析结果,对于语言的规范应用给以借鉴和指导CorpusLinguistics•1959SEU(surveyofEnglishUsage)byQuirk•1961BrowncorpusbyFrancisandKucera•1970-1978LOB(Lancaster-Olso-Bergen)byStigJohansson•1975London-LundSpokenCorpusbyJ.Svartvik语料库早期建设与计算机发展直接相关•始建于1960年代初,W.N.Francis和H.Kucera发起•美国Brown大学建立,主要代表当代美国英语,规模100万词次•世界上第一个根据系统性原则采集样本的标准语料库BrownCorpus•始建于1970年代初,由英国Lancaster大学著名语言学家GeoffreyLeech倡议•挪威Oslo大学StigJohansson主持完成,规模与Brown语料库相当•主要代表当代英国英语•安装在挪威Bergen大学挪威人文科学计算中心LOBCorpus•1960年代初,由RandolphQuirk主持•收集2000小时的谈话和广播等口语素材,并整理成书面材料•由瑞典Lund大学J.Svartvik主持全部录入计算机•1975年建成London-LundSpokenCorpus•COBUILDProject•LongmanCorpus•BritishNationalCorpusBNC•InternationalCorpusofEnglishICE•AmericanNationalCorpus更大规模的发展•建于1980年代,以词典编撰为应用背景•由英国Birminghan大学与Collins出版社合作完成,规模达2000万词次•基于该语料库出版的CollinsCobuild词典(1987)受到了广泛的好评COBUILDProject•从语料库中所获得的词频信息以及其他辅助性信息,为词典编纂者决定选词立目和义项排序(例如,哪个义项该排在前面)等决策提供了依据。•新词语的发现,年度词汇语料库对词典的编纂帮助•借助于语料库数据的分析,将帮助词典编纂者对一些编纂问题做出决策,如词义(某一语词有多少义项)、片语(哪些短语或搭配值得凸显)、句法特征(哪些句法结构需要收入词典中)等等。•建于1980年代,包括三个语料库:•LLELC语料库(Longman/Lancaster英语语料库)•LSC语料库(Longman口语语料库)•LCLE(Longman英语学习语料库)•目标是编撰英语学习词典,为外国人学习英语服务•词典规模达5000万词次LongmanCorpus•1991-1995•Large(20millionwords),4Gtexts•Sara,Xairatools(1.12-1.25)•Sara=SGMLAwareRetrievalApplication•Xaira=XMLAwareIndexingandRetrievalArchitecture•90%written+10%spoken•••XairaisanenhancedversionoftheSaraprogram,originallyproducedforusewiththeBNC.InadditiontothefeaturesincludedintheSaraprogram,youcanuseXairawithBNCXMLto:Xaira1.searchbytagonly.2.searchsubcorporadefinedbyexistingtextcategories3.definesearchablesubcorporaaccordingtoyourowncategorization4.displaysearchresultasgraphs5.quicklyseedistributionacrosstextcategories6.retrievecollocationsbasedonwords,lemmas,orpart-of-speechtags••国内的早期语料库建设国内的语料库建设•large•Tagged/annotated•Parsed•领域vs通用•平衡性•粗糙vs精细•加工深度:用途vs成本vs发展语料库的特点•语料一旦确定,很少更新•人工参与过多,自动化程度不高•缺乏语言资源管理•缺乏用户定制功能•成本大,周期长•高度分化,缺乏集成-北京大学计算语言所综合语言知识库语料库建设的基本问题现代语料库建设Web-basedcorporaWiki-basedcorpora客观性科学性通用性Advantagesofcorpus-basedmethod•corpsevs.alive•partvs.whole•datavs.theory•quantitativevs.qualitative•universalvs.individualorspecialDisadvantages•Theonegreatcriticismoft

1 / 58
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功