语音数据标注规范(V2.1.5)文档信息文档名称:语音数据标注规范适用范围:自2014年10月16后的批次版本号:2.1.5密级:文档编号:编写人:日期:批准人:日期:更改记录更改序号更改原因更改前版本号更改后版本号更改人批准人生效日期备注1新方法-新3项1.X2.02014-1-7PICC196小时中共2新2项2.02.12014-1-173新2项的简化版,内容无变化2.12.1.12014-1-184新2项的简化版,内容无变化,#的定义加上注意事项2.1.22.1.22014-1-265新3项增加性别#个数放宽:1个#或正确个数的#都算对2.1.32.1.22014-3-5湖北电信127小时语音数据标注规范北京华语广源信息技术有限公司第2页共6页6修改#规范2.1.42.1.52014-10-16自2014年10月16后所有标注的数据语音数据标注规范V2.1.5【电话录音_3项】2014-10-16语音数据标注规范北京华语广源信息技术有限公司第3页共6页1、标注平台使用说明操作系统:操作系统是XP以上系统都可以。浏览器:请使用IE浏览器和搜狗浏览器步骤:(1)登录网址:(2)输入用户名及密码登陆后,先安装控件,请点击vs2008运行库。(注意安全卫士先退出)(3)点击“标注中”查看任务含新任务和被打回任务(4)在任务列表中,点击tagging,进入标注页面,下载安装控件进行标注说明:1)做完一句,直接点击“下一句”,系统自动保存,做完最后一句,点击“保存”按钮。2)临时有事,或系统突然中断,重新登录后,系统将自动跳转到上次标注的位置;3)当前账号标注完成后,可以点击“上一句”和“下一句”,对标注结果进行检查,确认没有问题后,点击提交验收;注意:提交验收后将不能再更改。4)每人有一次修改机会,共可提交2次。(5)在任务统计中,查看验收结果快捷键:键盘上的,可播放选中部分的声音。键盘上的和可实现上一句和下一句的切换。2、标注规范共标3项(无效、性别、文本)文本正确率:95%其它正确率:95%2.1是否为无效语音无效:1、主体人声音的前面、或后面:有一段安静或噪声等非人声,长度在2秒以上(宽条是0.3语音数据标注规范北京华语广源信息技术有限公司第4页共6页秒)。【注意整句无人声的不是无效】有效:其它都是有效无效语音,直接打勾,文本不用修改。2.2性别类别分类定义男性别女童声童声指小孩非常稚嫩的声音,大概是在5岁以下的范围。大孩子的声音归到男女。其他没有人声,或者男女混声的统一规为其他2.2修改文本按钮显示:类别规范文本校对一、文本书写规范1)如果标注员能听清,理解说话人的语意,要做到标注的字和音完全正确。不知道该怎么写的字,要查字典,不能用同音字替换;如本人讲话带有口音,则要写成对应普通话的字。注意:姓名,姓,必须写对。名字可以任意。地名,能查到的地名必须写对。2)文本写成简体字,不要繁体字。3)阿拉伯数字要写成汉字的形式;注意:“一”和“幺”4)带儿话音的,要写出“儿”字,并且加括号。例如:我得了5分儿,文本要写成:我得了五分(儿),注意:不是儿化的不用加,如女儿,婴儿等不是儿话,就不能加在“儿”字上加括号。注意:如果自己不能准确判断发音是否有(儿),就自己发一下不带儿的音,对比看wav是否是不带儿的音。也可以只选中这一个音去判断。5)文本和声音一致,以声音为准改文本。不能出现多字、少字、错字。6)注意口语的字;口语中,结结巴巴说出的,要写出对应接接巴巴声音的字。口语中,“嗯”、“哦”、“啊””等,要准确对应文本。例:声音“呀”,不能写成:“啊”7)英文:说单词的写成单词,整个单词要小写。说字母的写成字母,要写成大写。英文单词发的不标准,如能听出是哪个单词,就写单词。注意:QQ、MSN,是字母发音,要写成大写。8)不是重口音,而是发错音的,写成错的字。但注意不要将口音当成发错音。9)文本中标点符号不作要求。语音数据标注规范北京华语广源信息技术有限公司第5页共6页二、#在文本中的标注规范混音包括3类:1、当前电话通话的两个人同时说话,相混2、当前人声与较亮或尖锐的音乐声(如铃声、汽车喇叭)相混混音部分的标注方法:如果非主体人插话不影响对主体人说话的理解,标注员可以听出主体人说话的字,则要求写字。例如:非主体人插入的话,音量小、字数少,可忽略当成没听见。如果非主体人插话,造成标注员已听不出主体人混音部分的字,则要求混音部分标#。例如:非主体人插入的话,由于音量过大相混在一起,听不清主体的话,混的部分写#。如果音乐声相混,不影响对主体人说话的理解,标注员可以听出主体人说话的字,则要求写字。如果音乐声相混,造成标注员已听不出主体人混音部分的字,则要求混音部分标#。3:增加#的情况人声中出现突然间的大噪音且与人声不相混,包括铃声、叮声、咳嗽、扑话筒等,写1个#。人声前边或后面出现一片乱乱的小声说话,写#和不写#都可以。注意:人声背后持续的背景噪声、安静的,不用写#如不确认是哪个字不清楚或混音,请用蓝条和黄条选中进一步确认。蓝条和黄条的功能有3个1)尺子,表示0.3秒,可以用于量取2秒判断无效。2)选中功能。选中的是播放蓝条最左端到黄条最右端的声音。当语速特别快时,建议分段选中去听,写下文本,正确率会提高。3)确定#在哪儿出现。其它注意:1)整句音频无人声:写一个#.(注意不是无效)2)听不懂的方言或除英语外的其它国语言,写为#。3)不是正常人的说话,象机器人或语音合成的声音;或录的电视里的播音;声音被破坏的;音量特别小,听几遍也听不清楚的;听得清楚的部分写成文本,听不清楚的部分写为#.4)发音出现拼音而不是英文时,如:a1bo1ci1de1,不能写成:abcd,应写#。5)笑着说的,能听清楚写文字,听不清楚写#。普通话与口音对照:类别定义特例举例说明无口音拼音、声调都正确轻口音拼音对,声调不对n和l不分;那个,发音:la4ge5(标准na4ge5)语音数据标注规范北京华语广源信息技术有限公司第6页共6页n和ng不分;z/c/s和zh/ch/sh不分属于轻口音电信,发音:dian4xing4(标准dian4xin4)平时,发音:pin2shi2(标准ping2shi2)政治,发音:zeng4zi4(标准zheng4zhi4)刚才,发音:gang1chai2(标准gang1cai2)重口音拼音不对(n和l不分;n和ng不分;z/c/s和zh/ch/sh不分)除外湖南,发音是fu2nan2(标准hu2nan2)歌曲,发音是guo1qu3(标准ge1qu3)