1音频信号标注规范文档(v1.3)一、用Transcriber软件标注音频信号的基本流程:步骤1:准备a)使用命令[文件]\[新建标注](Ctrl+n)开始一个新的标注,该命令同时会再要求使用者打开要标注的音频文件。打开的音频信号的波形会显示在窗口的下方。窗口的上方为标注的位置。b)如果要更换音频文件,使用命令[文件]\[打开音频文件…](Ctrl+a),重新选择音频文件。c)如果此音频文件有对应的同步脚本,在Transcriber软件外部,使用其他文本编辑器打开此脚本,方便标注过程。步骤2:标注,标记时间点信息及背景信息d)播放音频信号文件,标记片断信息(section)、说话人切换信息(turn)和间隔点信息(breakpoint),标注音频内容文本:a)点击工具按钮上的播放(Tab)和暂停(Tab)按钮来播放或暂停。间隔点(breakpoint)b)用光标在信号波形图上选择下一个需要标记的时间点,回车(Enter)产生新的间隔点。片断信息(section)c)如果此间隔点处是新的片断的开始,使用命令[片断]\[创建片断…](Ctrl+e)来产生一个新的片断,并编辑此片断的属性:i.类别:记录(report)、垃圾(filler)、无标注(nontrans);ii.主题(topic)。d)点击片断标记的按钮可以修改此片断的属性,或者用[去除]命令删除该片断。说话人切换(turn)e)一个新的片断产生时会自动在当前时间标记点增加新的说话人切换。f)使用命令[片断]\[创建说话人切换…](Ctrl+t)产生一个新的说话人切换,同时编辑其属性:i.是否两个说话人的语音交叠;ii.说话人信息:名字;类别:男(male)、女(female)、未知(unknown);口音:无口音(native)、有口音(nonnative);iii.说话方式:自发式(spontaneous)、朗读式(planned);iv.保真度:高(high)、中(medium)、低(low);v.信道:宽带(studio)、窄带(telephone)。g)点击说话人切换标记的按钮可以修改此说话人切换的属性,或者用[去除]命令删除该说话人切换。h)重复b)到g)的步骤,直到音频信号的结束。标注文本i)根据音频文件对应的同步脚本内容,标注间隔点间的文本。j)根据听到的语音的精确信息,对文本中的错误做出修正。2k)对标注文本进行特殊标记处理。调整l)对时间点位置进行调整:按下Ctrl键,并用鼠标左键拖动位于信号波形下方的分隔信息条上的分隔线,可以对此分隔线对应的时间点做出调整。m)根据需要增加或减少间隔点:i.增加间隔点:点击鼠标左键,将信号波形图上的时间点光标选择到需要增加标记的时间点上,窗口上方的标注区内的光标,会自动移动到当前时间段所对应的标注文本行上,点击鼠标左键,使标注区内的光标移动到当前增加的间隔点所对应的文字的起始处(注意,改变标注区内的光标位置时,确保不改变信号波形图上光标已选定的时间点),回车(Enter),波形图上光标处产生新的分隔,而标注区内文本从光标处断开,增加新的间隔点标记。如需要在此间隔点处增加片断标记或说话人标记,参照步骤c)和f)。ii.减少间隔点:减少间隔点,将使得间隔点之后的时间段与其之前的时间段合并。选择间隔点之后的时间段,使用命令(Shift+backspace),即可合并两个时间段。注意:如果要减少的间隔点同时是说话人切换标记的时间点,减少此间隔点的同时,自动去除该说话人切换标记;如果要减少的间隔点同时是片断标记的时间点,减少此间隔点,也会去除该片断标记,程序将做出询问,以确定是否去除此间隔点。e)标记背景信息确认片断信息(section)、说话人切换信息(turn)和间隔点信息(breakpoint)标记的位置,以及标注内容文本无误后,开始标记背景信息:a)在标注区内或分隔信息区内,选择一个时间段,信号波形图上光标自动位于此时间段开始的时间点,使用命令[片断]\[插入背景],并编辑背景的属性,可以在此时间点之后标记上背景信息,其作用域一直持续到下一个背景标记处或音频末尾(当其后不再有背景标记时)。b)如果整个场景或某个片断或某个说话人切换之中有较长、较明显的背景噪声,则需要标记背景信息。否则不用标记(比如,仅在某一时间段中有小段的噪声——不超过相邻间隔点间的长度,则不需要标记背景信息)。c)背景的属性:音乐、shh(含义不明,不予考虑)、语音、其他。d)点击背景标记符号可以修改此背景的属性,或者用[去除]命令删除该处的背景标记。步骤3:检查f)重新检查片断信息(section)和说话人切换信息(turn)的属性:a)修改片断信息,i.确保片断类别正确;ii.确保片断的主题信息正确;b)修改说话人切换信息i.确保是否语音交叠信息正确;ii.确保说话人信息正确;iii.确保说话方式、保真度、信道的属性正确。g)重新检查一遍,确认整个音频文件标注无误后,使用命令[文件]\[编辑场景属性],3检查场景属性中标注员名字,主体语言等信息,确保正确。步骤4:保存h)使用命令[文件]\[保存](Ctrl+s),保存标注成果!(文件名与音频文件名相同,后缀不同,为.trs,内容为XML格式文本)i)使用命令[文件]\[输出]\[输出为STM格式…],将标注保存为对应的stm格式(文件名不变,只改变后缀名为.stm)。(包含focusconditions信息)j)重新开始步骤1,标注下一个音频文件。二、标注流程中的注意点(重要!)1.关于片断(section)的属性标注a)片断的类别包括记录(report)、垃圾(filler)、无标注(nontrans),详细说明如下:对于新闻播报的段落,标记为记录(report);对比较长的纯噪声段或非语音段(超过5秒),标记为无标注(nontrans);对于非上面两种情况,标记为垃圾(filler);例如出现广告段落,或者当前音频文件由于初始切割不准确而包含进的其他主题碎片。b)片断的主题(topic)信息可以标记为音频文件对应的同步脚本中开始的说明文字,如“央视国际(2005年01月08日19:54)”,其他情况可直接使用默认名称或联系标注规范制定人员。2.关于说话人切换信息(turn)的属性标注a)一个时间段内有两个说话人同时说话的情况,标记语音交叠选项,并且同时标注两个人说话的文本内容。b)对于说话人信息:在音频文件对应的同步脚本中有名字出现的说话人,名字按同步脚本的内容编辑,其他情况可直接使用默认创建的说话人名,speaker#1等;类别:男(male)、女(female)区分不清的标记为未知(unknown);口音:标准普通话的说话人标记为无口音(native),否则标记为有口音(nonnative),只要有个别词的发音属于方言式发音,即标记为有口音(nonnative);对于同一个音频文件中,两个说话人切换段落中如果说话人是相同的,不应增加新的说话人,仍使用同一个说话人信息。c)说话方式:对于自然化、口语化的说话方式标记为自发式(spontaneous),该方式语法不严密,句子可能不连贯,尤其是句子中会出现“嗯”、“呃”之类的犹豫词,一般为新闻中的非播音员人员或被采访人员的讲话;而符合朗读方式的、播音员口吻的说话方式标记为朗读式(planned),该方式句法严谨,句子连贯,通常外出采访的记者也属于朗读式。d)保真度:信噪比小于10db设定为“低(low)”,信噪比在10db到20db之间设定为“中(medium)”,信噪比大于20db设定为“高(high)”。通常来说,“高”和“中”之间的区别尺度可以略为放松,十分纯净的标记为“高”,较差些的标记为“中”,而“低”通常要对应发音变形较大,受持续性嘈杂信道噪声影响,或回响比较严重的情况。e)信道:通常在本任务中要标记得数据均为新闻播报语音数据,在16K采样的条件下通常要标记为宽带(studio),而可能出现的电话采访等语音情况才标记为窄带(telephone),有其他情况出现,请与标注规范制定人员联系。f)注意:如果两个时间段落相邻,且属于同一个说话人,但其说话方式、保真度或信4道信息发生了改变,仍然要标记为两个说话人切换标记,虽然其属性中的说话人信息可以保持不变。3.关于间隔点位置的确定a)在较明显的停顿处,句子或短语的结尾处加间隔点,可以缩短持续语音段的长度,方便文本的标注和声学模型的训练。b)句子的结尾(逗号或句号处),只要有较明显的停顿(一至两个字的长度),就应该加间隔点。如果是只有两三个字的句子(比如“他说,”),可酌情考虑,通常其后的句子也较短时,不加间隔点。c)在一个比较长的句子中间,通常说话人也会在某些地方做出停顿(可能是顿号处,也可能是一个短语之后),如果此停顿较明显,加间隔点。d)由相邻间隔点隔出的时间段的长度通常不超过8秒钟,长的时间段一般出现在语音太快太密的情况下,遇到这种情况时,尽可能找到语音段中间停顿时间最长的地方(不短于0.1秒)插入间隔点。e)一个语音段对应的文字脚本中汉字的个数应该控制在50字以内,通常不超过35个字。f)对于出现的即时噪声——语音段之间咳嗽、笑声、呼吸声,一小段纯背景噪声等事件,最好能用两个间隔点将其首尾标出,确定其具体位置。如果其与语音段连接过于紧密,不作单独时间段标出,而仅在其出现的文字位置处做出正确的标记。间隔点一定不要标记到事件的中间。g)对于长度大于0.5秒的空白区(可适当放宽标准,但不要超过1秒),要用两个间隔点将其首尾标出,作为独立的时间段,避免一段语音前后有太多的空白区;相反,如果纯静音的长度不足0.5秒,通常均分给相邻的前后语音段,如果相邻的一边是咳嗽、笑声、呼吸声等事件的独立时间段,则偏重于分给语音段(尽量使事件的段落仅包含此事件)。h)在音频文件的结尾部分,如果语音结束后还有较长的空白区,一定要用间隔点将语音与空白区隔开。i)注意:间隔点不要出现在声音的中间!也不要出现在咳嗽、笑声、呼吸声等时间段的中间(尽量使得间隔点在其两端,保证咳嗽、笑、呼吸等声音的完整性和单纯性)!4.关于背景信息的标注a)背景信息标注的一般应用:主要说话人说话同时,背景可能会有现场声音等持续性、一贯性的场景噪声,这种情况下标记为背景信息。场景例子1:播音员播报一段新闻,同时背景图像是当前新闻内容所发生的现场,当此现场原声具有持续性和一贯性(比如领导人在会议上的讲话现场,领导人的慰问现场等),而且比较明显时,将与此相关的时间段用背景信息做出标记。场景例子2:记者在现场进行采访,现场的噪声具有持续性和一贯性(比如集贸市场的背景噪声,施工工地的背景噪声等),而且比较明显,将与此相关的时间段用背景信息做出标记。当符合上面例子中提到的背景噪声现象,但此噪声比较轻微,对主要说话人的语音影响比较不明显,不作背景信息的标记,而是考虑在说话人转换标记中的使用较低的保真度。b)背景信息的起始点应该与间隔点的位置一致,即一种背景信息的开始点同时也是一个时间段落的开始。使用前面流程中提到的方法即可实现,即在标注区内或分隔信5息区内,选择一个时间段,信号波形图上光标自动位于此时间段开始的时间点,使用命令[片断]\[插入背景],并编辑背景的属性。c)注意,在一个时间点标记好背景标记后,该背景信息的作用范围是从当前时间点一直到下一个背景标记的位置时间点;若其后不在有背景标记时,则其作用范围持续到音频文件的末尾。d)注意,此标记软件不支持背景信息的起始点位于整个音频信号的开头的情况。如果一个音频文件从开头就需要标记背景信息,要把背景信息的标记时间点稍微向后移一些,具体操作可以是在音频信号的开头切出一个很小的时间片段,从该片段后再标记背景信息。e)背景信息的属性,注意纯音乐背景的属性标记。(用于确定focusconditions)f)背景信息应该以时间段落为单位,调整其属性。即当一个时间段落的背景与相邻时间段落的背景属性有变化时,标记新的背景信息。5.标注文本的特殊