基于动态流通语料库的现代汉语词语研究

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基于动态流通语料库的现代汉语词语研究北京语言大学应用语言学研究所张普Zhangpu@blcu.edu.cnTel:008610-82303034Fax:008610-82300365主要内容动态语料库流通度词语研究动态语料库与共时语料库相对而言,是历时语料库,是对语言的变化进行检测和监测的语料库。特点:语料是动态的语料是历时的语料是与时俱进、不断更新的语言知识滞后无法反映大规模真实文本词语克隆、宽带、超平、背投、非典、疑似、喷塑、科盲、沙尘暴、数字化、VCD、WTO、CEO、因特网、网民、网虫、上网、下载、消毒软件、泡沫经济、环保工程、高新技术、知识创新、纳米技术、现代远程教育、高致病性禽流感、H5N1、扑杀、叮当村、群死群伤、公投、勇气号、高官、蒜农、危改、拆迁、房改房、3加1、3改4、退2进3、市话、高检、扫黄、打假、打黑、反腐倡廉、盗版、大片、管涌、遗洒、千禧、两会、禁放、按揭、套牢三讲、三个代表、豆腐渣工程、邓小平理论、阿富汗、北方联盟、本拉登、科索沃、法轮功、申奥、奥组委APEC、克林顿、布什、反恐、世界杯、黑哨菲佣、足按、三陪小姐、美体修形、鸿运当头、唐装、脐装、太阳裙、透明装、人体彩绘、人体艺术、酷毖、很in、美白、净白、柔嫩、双赢、人气、另类年龄的“代沟”生理年龄的“代”在延长社会年龄的“代”相对稳定语言年龄的“代”在缩短改变语言的时间观共时时间观历时时间观相对时间观——共时中有历时和历时中有共时共时语料库的历时观察香港城市大学“共时语料库”95-05观察:大哥大--手提--手持--移动电话--手机互联网--因特网关于“非典”的例子2003年2月28日,46岁的世界卫生组织(WHO)传染病专家乌尔巴尼博士在河内一个华裔美国商人约翰尼·陈身上发现了一种非常规病毒,引起这种疾病的病毒与以往导致感冒、肺炎等疾病的病毒完全不同,他称之为“非典型肺炎病毒”,并随即向世界卫生组织报告,世界卫生组织建议称这种疾病为“严重急性呼吸系统综合症”。18天后,乌尔巴尼死于自已一个月前发现的疾病——“严重急性呼吸系统综合症”。关于“非典”的例子2002年11月:非典型肺炎第一个病例,佛山市。2003年1月:第一次报告病例,SARS是一个新的病毒,河源市。2003年1月后,发现SARS病情在中山、佛山、广州市出现了,我们把它命名为非典型传染性肺炎。2003年2月11号,我们向世界卫生组织驻北京代表处报告了这个情况,世界卫生组织在2月14号发行的流行病记录周刊当中,把它称为SARS。世界卫生组织(WHO)在3月15日新公布的名称已正式定为“严重急性呼吸道综合征”(SevereAcuteRespiratorySyndrome),简称SARS。3月21号,世界卫生组织开始使用SARS来称呼这个新的疾病。3月18日,德国和中国香港中文大学的实验室用电子显微镜拍到了一种病毒。5分钟之内,该病毒的照片就通过网站发布出来,以供其他实验室的科学家参考。3月21日晚上,香港大学的裴伟士向“全球病毒实验室”各成员发了一个电子邮件,宣称从患者组织中分离了一种病毒,经电子显微镜下形态观察表现为冠状病毒。很快这项实验在美国、加拿大等其他成员实验室中重复出来。3月26日开始,中国参与了世界卫生组织全球协作网路。并且发现SARS的疾病病因可能是冠状病毒。关于“非典”的例子有“非典”字样的网页:39458个新浪有“SARS”的网页:12410个有“萨斯”字样的网页:1660个俞允海《非典还是SARS》关于“非典”的例子2003年入选动态流通语料库的14家主流报纸是(按音序排列):北京青年报北京日报北京晚报法制日报光明日报环球时报今晚报南方周末人民日报深圳特区报新民晚报羊城晚报扬子晚报中国青年报关于“非典”的例子14种报纸2003年1月1日-12月25日总文件数:562669个。即56万2千多个文本。总字数:426805177字。即约4亿3千万字。动态追踪发展历程描述“非典”动态流通曲线的例子衡量动态语料库的四个标准是否是动态滚动语料语料库加工是否是动态的加工方法是否取得动态的加工结果(走势图)语料库的文本是否具有量化的流通度属性报告内容动态语料库流通度词语研究从频度到流通度使用度:提纲13次3类8篇哨棒13次1类1篇通用度:频度通用度猿人52次10.4花园40次23.7欣赏35次33.9T阶频度:A表频度表下812;上532B表通用度表总差:1344个词语15%从频度到流通度重复文本历时文本次数散布散布流通频度+使用度++通用度+++流通度++++流通度的计算媒体的发行量:流通量(thevolumeofcirculation)媒体的发行周期:流通密度(thedensityofcirculation)媒体的发行地区:流通空间(theareaofcirculation)媒体的阅读率:流通率(thefrequencyofcirculation)计算公式:Ct=Vc·Dc·Ac·Fc·…流通度=流通量·流通密度·流通空间·流通率·…1997年11月-1998年6月全国周报的阅读率前15名排名表刊名名次阅读率足球112.9南方周末27.3民主与法制36.7报刊文摘46.5中国足球56.4文摘报6中国电视报75.8球迷84.4作家文摘93.7每周文摘103.5体坛周报113.5计算机世界123.2足球报133舞台与银幕143健康文摘报152.5表四 媒体流通度前十位(未包含阅读率参数)位次地域媒体流通度年总发行量(%)1全国性25.962.892广东19.821.553广东13.611.184全国性12.841.075福建11.251.416江苏9.971.567全国性9.130.818全国性8.911.119广东8.220.9210江苏7.060.59流通性:流通度例证(一)伟哥“1998年6月-12月,中国约有320种以上杂志,1800种报纸刊文介绍伟哥。”《”伟哥“事件告诉中国企业家什么》载《北京晚报》:1999年8月5日。流通度例证(二、三)妹力(张惠妹)=魅力北京地区报纸算机《谈谈科学名词》载《科技术语研究》1999年2期报告内容动态语料库流通度词语研究词语研究什么是词语提出词语研究的信息处理背景当前北京语言大学基于动态流通语料库的词语研究情况今后的词语研究和应用什么是“词语”词语:词和短语;字眼wordandphrase语词:指词、词组一类的语言成分Wordandphrase汉英双语《现代汉语词典》词语:交际(表达和理解)中言语(话)的结构单位,即结合紧密、使用稳定的“词”和“语”。可以是我们通常理解的词、短语(词+词)、词+短语、短语+短语等。研究“语”的背景“词”和“短语”划界的困难何为“词”?从“猪肉”到“孔雀肉”、“骆驼肉”;经常当作一个词来使用的“语”:成语、谚语、歇后语、熟语、惯用语、缩略语、术语、流行语、字母“词”、数字“词”等。自然语言理解推进的需求浅层分析和信息提取的需求提出:基本短语、块、语块(chunk)、功能语块、双语语块、语义块、结构串、有效字符串。认知探索的新进展人在阅读理解中的阅读单位是什么?眼动仪的追踪结果的分析。短语形式:词+词词+短语短语+短语分类:我们不能将所有的“语”收入《语典》,“语”有两类:固定短语和临时短语。固定短语的特点:结合紧密、使用稳定如何衡量结合紧密和使用稳定?哪些“语”应该进入“语表”?一些“语”的流通度远高于一般的词,语义和语用更像一个“词”:改革开放、国民经济、西部大开发、交通拥堵、环境保护、反恐怖活动、非典疑似、高致病性禽流感、走有中国特色的社会主义道路。词语研究什么是词语提出词语研究的信息处理背景当前北京语言大学基于动态流通语料库的词语研究情况今后的词语研究和应用关于动态词语研究应用语言学面向人的应用面向机器的应用本体研究教学语言信息处理动态词语研究动态词典动态流通语料库支持语言本体研究流行语研究字母词研究IT术语研究基本词汇研究数字词研究通用词语研究流行语提取与发布2002年十大流行语发布2003春夏季十大流行语发布通用领域经济领域非典专题伊拉克专题2003年十大流行语发布通用领域国际领域经济领域非典专题隋岩、杨尔弘、郭惠志、谢学敏等博士2002年中国主流报纸“十大流行语”发布主办北京语言大学中国中文信息学会中国新闻技术工作者联合会15家主流报纸媒体北京青年报北京日报北京晚报法制日报光明日报环球时报经济日报今晚报南方周末人民日报深圳特区报新民晚报羊城晚报扬子晚报中国青年报2002年十大流行语发布1、十六大2、世界杯3、短信4、降息5、反恐6、数字影像7、姚明8、车市9、CDMA10、三个代表数家电视广播台、数十家报纸、2240网页转载2003春夏季十大流行语(综合类)1非典(SARS)2疫情3消毒4隔离5巴格达6萨达姆7三峡8疑似9伊拉克战争10世界卫生组织(WHO)2003春夏季十大流行语(非典专题)1、非典(SARS)2、疫情3、消毒4、隔离5、抗击非典6、疑似7、口罩8、体温9、防控10、世界卫生组织(WHO)2003年流行语发布14种报纸2003年1月1日-12月25日总文件数:562669个。即56万2千多个文本。总字数:426805177字。即约4亿3千万字。字母词粗考察媒体:2002《××青年报》、《××日报》情况:××青年报2002年字母词情况粗略统计××青年报2002年纯字母串统计表××青年报与××日报的情况比较郑泽芝、史艳兰等博士IT术语的提取研究DCC通用领域语料库2002年语料(Gen0)共计489694篇文档,1256602278字节,约合6.3亿双字节字符。IT领域语料库(Ccw02),共计12272篇文档,35579231字节,约合1779万双字节字符。王强军博士抽出的新术语类型(1)新事物、新概念,如:彩屏、彩信、彩壳、纯平、公网、群发、容灾、闪盘、视讯、贴图、网视、光互连、全光网、上网率、智能流、网络防毒、数字灾难、容灾备份、网络货币、无缝移动、在线存储、移动上网等。(2)术语的构成成分,如:针式、流式、关系型、可擦写等。这一类一般不作为单独条目出现在术语词典中。(3)术语的简称、缩略等形式:如:彩喷、激打(激光打印[机])、针打、标配(标准配置)、固话、喷打、重启、彩色激打等。(4)专业领域中的行话、俗语:宕机、水货、掉线、版主、黑屏、蓝屏、帖子、正版、正版化等等。(5)借用其他领域的概念:变种(病毒)、和弦(手机铃声)等。王强军博士IT新术语及例句彩壳:该产品最大的特点在于其浓厚的时尚色彩和可换彩壳的设计理念。容灾:面对中国移动的备份难题,众多IT厂商提出了各种容灾方案,如磁盘镜像、数据库复制、……闪盘:随身Q是建达蓝德公司率先推出的时尚闪盘。“随身Q”除了提供最基本的QQ功能以外……贴图:在R300推出大约一个月以后,代号RV250的简版图形芯片也将问世。该核心采用0.15微米工艺,具备4条渲染管线,每条管线拥有两个纹理贴图单元,核心频率在300MHz~350MHz……支持语言教学研究支持语言教学《最新汉语流行词语快递》(2003)关于数字化动态《报刊阅读》课和《热门话题》课的设计关于“对韩汉语教学词汇大纲”的设计关于数字化《生存汉语》的设计词语研究什么是词语提出词语研究的信息处理背景当前北京语言大学基于动态流通语料库的词语研究情况今后的词语研究和应用今后的词语研究和应用动态字频、词频和语频动态的频度、使用度、流通度研究清除伪频研究流通度曲线类型研究语类研究语类研究语类的确定语类的形式分类同形语同音语同义语语类的语法分类NPVPAP语类的语义分类语类的语用分类同义语非典SARS萨斯沙司非典型性肺炎严重急性呼吸系统综合症同音语锦绣“

1 / 55
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功