1报纸、广播电视、网络(新闻)用字用语调查报纸、广播电视、网络(新闻)用字用词用语调查,是每年语褀实态调查的基本项目,已经在国家语褀资源监测语料库(包括平面媒体、有声媒体、网络媒体)2005年、2006年的语料上调查了两次。第三次调查是在2007年的语料上进行的。一调查使用的语料及调查内容(一)调查使用的语料调查语料分为平面媒体、有声媒体、网络媒体三种,共计1363747个文本文件,1236120162字符次(包括标点、符号及西文字母、数字等出现的次数),其中汉字出现1007053180字次。2007年语料采集的依据及选择过程与2006年一致。在进行此项调查时,为了使2007年与2006年的数据在同等规模的情况下进行比较,约定平面、有声、网络媒体的语料量按照5:1:4的比例分配,字符次保持在12亿左右,汉字次保持在10亿左右。1.报纸平面媒体选择了2007年十五种报纸作为调查语料,选择时综合考虑了“发行量、发行地域、发行周期、媒体价值”等因素。发行量参考了2006年6月5日召开的第59届世界报业大会(俄罗斯莫斯科)发布的“2006年世界日报发行量前100名排行榜”(中国部分);媒体价值参考了2006年6月16日召开的世界品牌大会(中国北京)发布的“2006年《中国500最具价值品牌》排行榜”。这15种报纸是(按音序排列):《北京青年报》、《北京日报》、《北京晚报》、《法制日报》、《光明日报》、《广州日报》、《华西都市报》、《今晚报》、《南方周末》、《钱江晚报》、《人民日报》、《深圳特区报》、《羊城晚报》、《扬子晚报》、《中国青年报》。报纸语料共计901743个文本,656478384字符次,其中汉字出现531287305字次。2.广播电视作为电台或电视台播出的录音或录像的文本转写材料,广播电视语料选取的主要依据是流通度(即节目收视率),综合考虑了这样一些因素:传播媒介(广播、电视)、媒体级别(中央、地方)、传播广度(是否上星)、播出时间(黄金时段、非黄金时段)、节目样态(独白、对话、综合)、文本现存(是否有转写好的文本)等。2007年选取的广播电视语料,包括中央电视台、北京电视台、上海电视台、上海东方电视台、天津电视台、重庆电视台、广东电视台、山东电视台、新华电视台共九家电视台,以及中央人民广播电台、北京人民广播电台、天津人民广播电台、山东人民广播电台、深圳人民广播电台共五家广播电台,总计282个栏目的21864个文本。广播电视语料总数为105791513字符次,其中汉字出现86109014字次。23.网络(新闻)根据约定的语料规模,网络媒体语料从所采集的新浪、网易、腾讯、Tom、搜狐五个网络门户网站2007年全年的新闻语料中,选取了新浪、腾讯两个网站的全部新闻语料,共计440140个文本,473850265字符次,其中汉字出现389656861字次。(二)调查内容与统计方法本次的调查对象主要是汉字和词语。词语是自动分词产生的结果,是分词单位,既包括语文词,也包括专名(人名、地名、组织机构名、其他专名)、时间表达式(如“2007年、5月、15点30分”)以及结合紧密使用稳定的短语(如“高等教育、知识分子”)。调查项目主要有“频次、频率、累加频率、出现文本数、使用率、累加使用率”等。其中,频次、频率、累加频率、出现文本数的含义及计算方法同2005年的《报纸、广播电视、网络(新闻)用字用词调查》。①使用率的计算方法同2006年的《报纸、广播电视、网络(新闻)用字用词调查》。②二汉字使用情况(一)说明1.报纸语料是网络版的。广播电视语料是由广播电视节目转写的文本,与原始有声语料之间存在某些差异。网络(新闻)语料来自新浪、腾讯2007年的页面。上述语料均做了去除HTML标签信息和广告信息的处理。2.本次统计没有甄别文本中的别字。3.本次统计不包括汉字部件、乱码以及无法显示的字符。乱码及无法显示的字符的出现情形同往年。③在2007年的语料中,部件的使用有两种情况:一是拼字,如“扌票”、“扌扇”、“讠志”,这一现象和往年一致;二是出现在网络上,或是人物的虚拟名字中,如“孤々独的θ狼”,或存在于网络上的火星文④中,如“ ﹎莪會愛伱一輩Zi_/~↘”。报纸语料中出现这种情形,都是引用性的使用,出现在对火星文进行评述的文章中。(二)基本情况1.字符总数:指全部语料中汉字、标点、符号等的总量,计1236120162字符次。2.汉字总数:指全部语料中汉字出现的总字次,计1007053180字次。3.字种数:10123个。指字形不同的汉字种数。①见王铁琨主编《中国语褀生活状况报告(2005)》下编,第003-016页,商务印书馆2006年。②见王铁琨主编《中国语褀生活状况报告(2006)》下编,第002页,商务印书馆2007年。③关于乱码和无法显示的字符的具体说明,见王铁琨主编《中国语褀生活状况报告(2005)》下编,第6页,商务印书馆2006年。④火星文:随着网络的普及,网友(尤其是年轻网友)开始大量使用以同音字、近音字、特殊符号来表音的文字,由于这种文字与日常生活中使用的文字相比有明显的不同并且相当奇异,故被称为“火星文”。34.共用字种数:6192个。指报纸、广播电视、网络三种媒体中都出现的汉字。5.部分共用字种数:1507个。指只在某两种媒体中出现的汉字。6.独用字种数:2424个。指只在报纸、广播电视、网络某一种媒体中出现的汉字。汉字使用情况的具体数据见表1-1。本次调查的全部语料用字构成2007年用字总表(简称用字总表)。表1-12007年汉字使用情况媒体总字次字种数共用字种数部分共用字种数独用字种数报纸5312873059082619213991491广播电视8610901465396192232115网络(新闻)389656861839361921383818全部语料100705318010123619215072424(三)根据频率、使用率排序所得字表的比较使用率在频率的基础上考虑了汉字在文本间的分布情况。从2006年用字总表分别按频率和使用率进行排序统计①的比较中可以看到,在一定范围内,按频率还是按使用率排序来提取常用字,结果不完全一样。2007年我们做了同样的统计比较,表1-2显示了前200、500、1000、2000、3000字范围内二者的区别。表1-22007年用字总表按频率、使用率排序比较范围相同字数按频率排序独现字按使用率排序独现字前200字186股管广京路女球赛设社收水斯投(14)常及解近示受数无向样由只至总(14)前500字474奥病村党防购火警剧罗买男农牌票售它维销校协义亿益银游(26)百必边除存断负功即类历另满且却声往响象像效曾照争致终(26)前1000字971餐唱贷弹董毒俄钢患婚津锦课库朗妈梅盟您瑞润萨森孙塔泰湾玉赵(29)晨穿顶端顿夺归呼既键脚静距苦努释授熟谁探讨献幸序延映尤载召(29)前2000字1957饼厕肠瓷帆肝亨淮肌爵菌壳坤辣蕾铃铝墓妮挪乒葡侨晴尸狮寺塌帖婷艇胃溪仙怡乙渔浴岳肇脂肿仲(43)饱碑鼻辨勃惩斥赤聪脆挫呆抚赋糕罕糊煌皆渴框拦浏闷弥囊盼飘浅屈擅爽弯掀衔掩绎溢幽悠枝滞衷(43)前3000字2950煲镖祠雌郸洱阀坟氟钙镐菇棺邯婕鲸筷姥涝栗凹叭颤绰萃陡镀敷袱俯捍吼畸亟窘沮锯旷拎庐①见王铁琨主编《中国语褀生活状况报告(2006)》下编,第004页-第006页,商务印书馆2007年。4鹭驴氯莓咪淼圃芹氢冉榕蕊鲨姗膳蜀钛豚皖襄猩铉丫蚁铀芸藻筝洙粽(50)掠昧袂拇挠呐钮煞拭抒烁枉妄侮犀娴硝屑腥嘘靴凿栅辗辄辙炙肘烛缀(50)与2006年相应数据对比,频率和使用率排序分布的差异很小,见表1-3。这是一种偶然现象,还是一种规律表现,有待我们对更多年度语料的监测与研究。表1-32006年、2007年用字总表按频率、使用率排序相同字数用字总表按频率、使用率排序相同的字数比较范围2007年2006年前200字186186前500字474475前1000字971970前2000字19571958前3000字29502947(四)汉字的覆盖率覆盖率是数据调查的重要指标,反映了汉字在整个语料库中的分布情况。统计结果见下表1-4。表1-42007年汉字对语料的覆盖情况覆盖率语料达到80%的字种数达到90%的字种数达到99%的字种数达到100%的字种数报纸60397624399082广播电视55092023896539网络(新闻)57392822818393全部语料595964239410123(五)与现行规范字表的比较1.用字总表前2500字与一级常用字比较用字总表前2500字与《现代汉语常用字表》①一级常用字(2500字)比较,用字总表中有334字是一级常用字中所没有的。将用字总表按照前500字、501至1500字、1501至2500字分为三段,具体情况见表1-5。表1-5用字总表前2500字与一级常用字比较①国家语褀文字工作委员会、国家教育委员会1988年联合发布。5范围一级常用字之外的字前500字尔(1)501-1500字伊圳媒韩频诺俄迪萨辑综措曼伦莱姆澳杭谐聘菲蒂姚沪洛署郭账莞咨谓埃凌娜艾鹏帕弗拟邦邓卢屏浦赫贾拓(47)1501-2500字翔穆潘曹颁胎冯霍秦氛琳兹聊粤敦肖蔡戈募彭莉斌旭玛徽颇讼奈玲蒋癌履廷袁颖涵韦吕兑卓莎侯晖茨抑耶郁鸿厢铝憾魏琼逊诈汰枚婴墅吁辖柯瓷娟妮魅淮翰硕曝崔涯庞妆谭怡契爵歧苑婷寓晰仲岳蕾坤鼎彬肇亨逻詹擅逸磊湘铭芯淀炬勃赋萧镑雇砸裸楠薇嘛衷鑫娥弥挫鲍幽绎邱邵滞豫溢罕浏宠舆薛彦赁侠佐熙坞琪雯彰啤尬尴廖骏尹蓉弘轴赎瘤杉瞬坠陌逾嫦暨惟峻奢函坎刹淑玫侣凰勘钦靓玮邹郝勋腺撰琦澜馨呵龚坪冕禺咖遂扳菱吻槛甸啡珊揽缉荔澄瑜碳奠卿仕瑟瑰喻昊睐轩瘾沽逛巢骚碟醇歹奎鹤遏擎蕴撼粹凸飙渝殴噪淫倩崛莹湛赂缅迄睹祭矶殷啥晤禅埔腕靖馈潭媳儒昔藤赃郅皓蟹溃隧谍寂崩幢汕缆辐讶懈芭瞩喀腻锌肪俞昭衍帷玄奕萎筱肋蔚汛茹睿炫(286)2.用字总表前3500字与《现代汉语常用字表》比较用字总表前3500字与《现代汉语常用字表》(3500字)比较,用字总表中有396字是《现代汉语常用字表》中所没有的,具体情况见表1-6。表1-6用字总表前3500字与《现代汉语常用字表》比较范围常用字表之外的字前1000圳迪(2)1001-1500莞弗(2)1051-2500兹蔡斌韦莎晖茨耶柯娟妮魅曝怡苑婷肇亨詹磊镑楠嘛鑫娥鲍邱邵浏彦佐琪雯尬尴廖尹弘嫦暨惟靓玮邹郝琦馨龚禺槛缉瑜仕昊睐奎飙渝倩崛湛矶禅埔馈郅皓汕瞩喀俞帷筱茹睿(75)2051-3500倪朔磋窦裔韶妍瑶媛涅娅晏璐萸淇霖霆炳麟牟妃荫哦炜闫黛弈厄洱圭茜尧潇裴伽诠戛鄂卉殡绯渎滕阜佟吾阮迭巅郡侃珀颐钰璇舜姬洙汀岚盎甄闵坍泸琛汝酋跻昕淼祁咋邯驭铉峪禹豚孚煲菁阪婕丫慑芸曦赣翟铀雍镖绚莓郸冉聆襄姗铮俨皖斐鲨钛鹭焱氟粽萃拎岐沁曰辗禄烨禧佼狄嘘陀亟黏栩翡庚娴嵩隋敖梓苯孜虞炙饪霾汾缪哇婧籁墟黯拽辄俑喆郴愣兮袂峨竺岑臻猝缮蓓萱藉跤锵葆髦轶骸佬邸潍胺辍嫖钊抨踝釉佘憬烯峥憧跆炖釜咎飓覃忡荟驿峙亢匮毋羁嘟汶珩榻蹿瑛煜嘻漳6瑾纶滇沂毗濮恪睫嫣瑕熠璀癫瞿汲寅樵寰蹊醛烽悖酶崚炯妞贻荼鳌嘎钒抉煽镍霄渲锂郜韬瀚俪榈麒惬琶潢玘伎璨羚骥佰眩悚昱祀匡铂绮丞裘镁嗯钗桔媲悸踵酮厮坂暧孰槟狙祛晟逍冥迥隽诧沓溥邬沱浒矣臧簧骋蓟骼祺玺啪疵奚戎瑚篪骊麓踞亵遴忻獗膺焉(317)3.用字总表前7000字与《现代汉语通用字表》比较用字总表前7000字与《现代汉语通用字表》(7000字)比较,用字总表中有654字是《现代汉语通用字表》中所没有的。具体情况见表1-7。表1-7用字总表前7000字与《现代汉语通用字表》比较范围通用字表之外汉字前3000闫淼(2)3001-5000喆崚玘濛碁飚堃崧珺嬅弢皙玟翀瘀钜後镕唰琍吒埗焗尓蟯鲶吋哒芃昇垚珅捱迳畊槃珮嬿磡祐暐孖岜邨堀锺樑姵戉(49)5001-7000仝劼茺桠馼巿旼琊鱀係鏸嘅熺嘢蚡迴崑佢甦頫呎纮苾祘內訢塚谘咁诶铖簕榘啫冇妳蘋芘咲漖炘炤瞡噘徳稹鮰啟癑塱暻沢誘劵咗啲迺譞肞燦郞氹姫祇琹呯湴喦贇霑臖湧嫲勣蹚辻靬栢锠岺礽蚵蠧闇椹拋瑩這秈炆艏醣吶噉漷脷瑷穂虓飏鷉惪哋秡菴別妏偊鵟來鶼罛徹噁鸊繤遷矇苺粦嗰犇贠濬龢搧晩發