建立自己的语料库

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

建设自己的田野语料库(Constructyourownfieldcorpus)--Makeyourowncorpusandmakethecorpusyourown定义:田野语料库教师在语言教学和学习环境中,为观察和描述具体现象和难题,并通过行动研究寻求解决难题方案和途径而建设的小型语料库田野语料库是一种专用语料库准备阶段:确定设计原则--withreferencetoJ.Sinclair确定样本的语言取向教学设计、难题解决、教学话语分析、评价确定抽样标准文本模式口语笔语电子文本来源教材、讲义、课堂英语、其它材料学生语言输出:作业、写作、日记、论文等准备阶段:确定设计原则文本域:学术的、非学术的语言类型:教学输入、教师语言、学习者语言文本产生位置:校园、远程等文本产生日期准备阶段:确定设计原则确定样本的性质和维度按交际功能选择内容尽可能具有代表性针对研究目的设计语料库的结构语料库结构标准应简洁、独立、具有区分性分离文本信息与文本本身收集完整文本设计阶段:文本分类及标注方案Withoutmetadata,corpuslinguisticswouldbevirtuallyimpossible(Bernardini,2004).确定文本分类标准外部标准语料库识别信息:名称、生产者、发行者、建库日期等语料库派生信息:语料来源、语料状态、语料目标设计阶段:文本分类及标注方案内部标准主题(topic)样式(style):正式程度、准备、交际分组、交际方向文本结构信息标题段落句子其它元素(Seedemo:EAGLES)设计阶段:文本分类及标注方案确定标注方案和标记语言标注的定义分类信息及结构信息的编码制定码集(tagset)选择标记语言:Html,XML(seesampleTempest;BNCfiles)观察与评价:CLEC的头部信息及错误附码其它原则一个文件一篇文本文件夹结构反映文本分类信息建立语料库档案(documentation)手工附码与机助附码:ademo执行阶段:收集文本的工作流程抽样范围和方法样本数量和覆盖面随机抽样样本的平衡文本录入及整理工具:电子文本拷贝、扫描与识别、人工录入文本整理文本校对标注信息插入:批量/人工执行阶段:收集文本的工作流程团队的分工与管理工作计划实施完成阶段:应用与开发开源语料库新语料的补充应用研究软件开发及应用资源共享

1 / 12
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功