音频数据标注规范_离线标注(1)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
腾讯音频标注规范
一、标注内容
本次针对语音标注以下内容:
有效性判定:有效,无效。有效则进行后续标注。
无效的判别标准:
1)无法听清音频中的内容(不论部分还是全部)
2)音频为与普通话差异较大的方言,如:粤语、上海话、闽南语等
3)音频中出现了除了中文、英文之外的语言
4)音频中无人声
5)音频中全部都是歌曲、电视声等
6)背景人声音量大于主说话人1/4的
7)音频中内容仅有一个汉字或一个英文单词
8)音频中内容仅有一些语气词,例如:嗯,啊,哈
对于有效的音频:
进行分段标注:分段的标准:两个语音段中间无发音时长大于等于1秒
PS:分片后,某个分片内仅有一个汉字或一个英文单词,此分片不进行标注。
每个分段标注内容:
1)标注文本:语音对应的文本
2)性别、儿童:发音人的性别,发音人是否为儿童
3)语言:中文、英文、中英
4)是否有口音:发音人发音是否有口音
5)是否有变音:发音人是正常人声,还是娱乐性质的变音
6)发音边界:按照规定标记处发音的起点和终点(毫秒)
二、标注内容具体说明
1、标注文本
A)正常标注中,
1)文本中不能出现除规定使用的标点符号(”_”(英文短下划线)、“ ”(英文空格)、“’”(英文单引号))之外的符号(如换行,逗号等),可以出现空格2)标注文本以发音人实际发音为准
a)缺字或者多字时,不用进行人工纠正(即加字或者去除字)
b)儿童发音有变音、走音的情况下,请按照正确发音标注文字(例如:
音调上有变化)
3)文本中出现英文时,字母全部大写,在英文停顿处,使用符号”_”(英文中的下划线,不需要引号)来进行标注。
如:
NBA,标注为N_B_A
I love you 标注为I_LOVE_YOU
我爱China 标注为我爱CHINA
我要听ABC 标注为我要听A_B_C
4)出现语气词,尽量选用带“口”字部首的字
5)阿拉伯数据标注为中文,
如1998年:标注为:一九九八年
数字24标注为:二十四
6)出现无法辨别的词汇,如“你”“您”的时候,取符合语境的字即可
7)出现能确定发音,无法确定字的情况,如果是歌名、专有名词、地名等,可以百度一下,只要真实出现过即可;如果还是无法确定具体字,可以使用
同音字代替(要是同音字发音和音调都完全相同的)
8)儿化音,不标注“儿”,例如,发音为“听歌儿”,标注为“听歌”
9)如果音频开始、结尾处部分发音出现截断的情况,若可以听出截断发音,则进行标注,若听不出截断发音(需要靠猜测或者推测)则发音边界标注时,
将截断的音刨除,文本标注也只标注发音边界内的内容。
10)出现多人说话的场景
a)当其他人说话声音小于主发音人音量1/4时,其他人发音视为背景噪
声,不进行标注。
2、性别、儿童
标注为“男”、“女”、“儿童”(如果出现无法辨别的中性声音,请标注为女)
多发音人以主发音人为准。
3、语言
标注为
中文:全部都是中文
英文:全部都是英文
中英:中英文混合
4、是否有口音
标注为“是”,“否”,无法确认时,请标注为“否”
5、是否有变音
标注为“是”,“否”,无法确认时,请标注为“否”
6、发音边界
标注句中发音部分的起点、终点,精度到毫秒,如[1.234][3.456](使用英文的中括号,两个为一组),
三、交付具体说明
1、每批数据交付两个txt文本,一个为有效标注文本,一个为无效标注文本
样例如下(中间分隔符为“\t”,换行统一使用“\n”):
PS:同一个音频多个片段,每个片段一行,名字不用单独处理,发音边界不同即可。
对于试标结果的格式,我这边要说面一下
1)所有文件、文件夹,只能出现英文和“_”,不要出现中文及
其他格式
2)标注内容按照标注规范中要求的顺序进行排版
2、文本编码要求为utf-8
3、要求句准确率大于95%
4、有效时长统计方法:
有效时间段:通过有效标注的发音边界来取时间段,
最后的有效时长:为全部有效发音段的时长和。
具体如下:
1)以人有意义发音的开始、结束点为计时起点和终点
2)起点和终点距离人发音,若无法精确判定,可以有100ms 左右的静音(最长不超过200ms),此处静音计入有效小时
3)人发音过程中,不能出现超过1s 的停顿,若有超过1s以上的停顿,则停顿的时间不算入有效时长
4)数据中小于等于2个字和全部是语气词的音频,总时长小于1小时,多出部分为无效数据
5)若背景要求为安静,出现明显噪声的总时长不能多余0.5小时,多出部分为无效数据