传媒语言语料库的建设与应用中国传媒大学播音主持艺术学院侯敏houminxx@263.net主要内容一、建设传媒语言语料库的目的二、传媒语言语料库的结构三、语料的采集与标注四、传媒语言语料库的应用五、目前存在的问题一、建设传媒语言语料库的目的语料库已成为语言研究和自然语言信息处理研究的信息源和知识源,成为一种必要的现代化的研究工具和手段;广播电视语言对社会语言生活具有深远的影响;为我院教师、研究生研究广播电视语言搭建一个平台,提供语言资源及现代化工具,为教学服务;为所有对传媒有声语言、尤其是广播电视语言有兴趣的人员提供研究资源及现代化工具,为社会服务。二、传媒语言语料库的结构传媒语料库文本语料库音视频语料库文本生语料库文本熟语料库音视频生语料库音视频熟语料库生语料库检索界面熟语料库检索界面音视频语料库点播系统界面三、语料的采集与标注语料的采集文本语料的采集音视频语料的采集语料的标注文本语料的标注音视频语料的标注ESDWRISTSTRAPGROUNDINGRECEPTACLE6C105RESET13141516171819202122232413X15X17X19X21X23X1234567891011121X3X5X7X9X11XCOMCPU2526SYSLNKEPIM11SPETHERNETEE162-25RESETMMAC13141516171819202122232413X15X17X19X21X23X1234567891011121X3X5X7X9X11XCOMCPU1235PS2PS146C205-1SN100-125V~54A200-250V~2,7A50-60HzPOKREDUNDANCYA00964100046C205-1SN100-125V~54A200-250V~2,7A50-60HzPOKREDUNDANCYA00964100046C300音视频采集工作站磁盘阵列语料加工工作站服务器用户浏览查询终端DVD录像机数字化工作站转写工作站互联网工作流程音频语料的采集和标注语料规模:大约400小时语料内容:以新闻节目为主电视节目:340小时广播节目:50小时其他:10小时已标注:1小时标注工具:开发了一个面向汉语的语音标注系统a.将Tcl的跨平台性能、Tk卓越的图形界面、Snack的可视化语音功能整合在一起,在绘制波形、语图、音高曲线等方面省时省力;b.标注文件可以和其他语音处理软件兼容,如PRAAT等;c.中文界面,实现了中文语音文件的汉字标注。基于Tcl/Tk+Snack开发的语音标注工具界面基于Tcl/Tk+Snack工具开发的标注工具界面及标注实例汉字层拼音层声韵层停断层重音层采集原则:以节目文本为单位,全面采样,力求均衡;语料来源:电台、电视台网站的节目文本;选样参数:大陆与港台、中央与地方、不同的语言样态不同的受众群体、不同的内容领域……目前规模:目前已达到5000万字(不包括篇头信息)电视语料4000万;包括17家电视台,165个电视栏目;广播语料1000万;包括22家电台,133个广播栏目;总共有12396个文件。文本语料的采集文本语料的标注篇头信息:各种背景信息的标注(元数据)篇体信息:自动分词词性信息标注语体信息标注句法信息标注语义关系信息标注语用信息标注篇章关系标注已做正在做许多/m游客/n在/p景点/n前/f“/w望票兴叹/v/i/ls”/w。/w游客/n是/v“/w车/n到/v山/n前/f”/w,/w进退两难/v/i,/w大老远/a/ky慕名而来/v/l,/w如/c不/d进去/v游览/v,/w实在/d不/d甘心/v,/w而/c要/v了却/v“/w到此一游/v/l”/w的/u心愿/n,/w一行/n三五/m人/n就/d得/v先/d掏/v几百/m元/q的/u“/w进门费/n/ls”/w。/w词性标注样本熟语的双层标注语体信息标注XWLB040415-001P(DJ_ZJ(O1_SU胡/nr锦涛/nr)(I1主持/v)(O2_OB仪式/n)(I2欢迎/v)(O3_OS_NP(A_LS拉脱维亚/ns)(!总统/n))(I3访华/v))/PXWLB040415-138(YF(O_SU孔/nr泉/nr)(I说/v),/w)(DJ_ZJ(E1_SJ_NP4月/t13号/t,/w)(O_DS_NP(A1_NU_QP17/m名/q)(A2_LS中国/ns)(!船员/n)(E2_CS_PP在/p印度/ns孟加拉湾/ns海域/n)(E3_YY_PP因/p沉船/v)(I遇险/v)。/w)XWLB040415-005(DJ_ZJ(E_SJ_FP中拉关系/n正常化/v以来/f,/w)(O_DS_NP(A_LS_NP两/m国/n)(!关系/n))(E_ZT顺利/a)(I发展/v)。/w)句法、语义关系标注样本篇章标注(RST树图分析)样本目标与特点语音(音节、韵律标注)文字词语(分词、词性标注、语体信息、语用信息)短语(浅层分析、短语结构标注)句子(句法、语义关系标注)篇章(篇章关系标注)多层次一体化四、传媒语言语料库的应用研制语料库分词标注系统面向信息处理的语言研究一般的语言研究广播电视语言研究普通话韵律研究五、目前存在的问题语料使用权问题文本语料自动及辅助标注工具的研制音视频语料的转写音频语料的标注语料库的功能带标语料库的运用请批评指正!谢谢!