音频数据标注规范_离线标注(1)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

腾讯音频标注规范

一、标注内容

本次针对语音标注以下内容:

有效性判定:有效,无效。有效则进行后续标注。

无效的判别标准:

1)无法听清音频中的内容(不论部分还是全部)

2)音频为与普通话差异较大的方言,如:粤语、上海话、闽南语等

3)音频中出现了除了中文、英文之外的语言

4)音频中无人声

5)音频中全部都是歌曲、电视声等

6)背景人声音量大于主说话人1/4的

7)音频中内容仅有一个汉字或一个英文单词

8)音频中内容仅有一些语气词,例如:嗯,啊,哈

对于有效的音频:

进行分段标注:分段的标准:两个语音段中间无发音时长大于等于1秒

PS:分片后,某个分片内仅有一个汉字或一个英文单词,此分片不进行标注。

每个分段标注内容:

1)标注文本:语音对应的文本

2)性别、儿童:发音人的性别,发音人是否为儿童

3)语言:中文、英文、中英

4)是否有口音:发音人发音是否有口音

5)是否有变音:发音人是正常人声,还是娱乐性质的变音

6)发音边界:按照规定标记处发音的起点和终点(毫秒)

二、标注内容具体说明

1、标注文本

A)正常标注中,

1)文本中不能出现除规定使用的标点符号(”_”(英文短下划线)、“ ”(英文空格)、“’”(英文单引号))之外的符号(如换行,逗号等),可以出现空格2)标注文本以发音人实际发音为准

a)缺字或者多字时,不用进行人工纠正(即加字或者去除字)

b)儿童发音有变音、走音的情况下,请按照正确发音标注文字(例如:

音调上有变化)

3)文本中出现英文时,字母全部大写,在英文停顿处,使用符号”_”(英文中的下划线,不需要引号)来进行标注。

如:

NBA,标注为N_B_A

I love you 标注为I_LOVE_YOU

我爱China 标注为我爱CHINA

我要听ABC 标注为我要听A_B_C

4)出现语气词,尽量选用带“口”字部首的字

5)阿拉伯数据标注为中文,

如1998年:标注为:一九九八年

数字24标注为:二十四

6)出现无法辨别的词汇,如“你”“您”的时候,取符合语境的字即可

7)出现能确定发音,无法确定字的情况,如果是歌名、专有名词、地名等,可以百度一下,只要真实出现过即可;如果还是无法确定具体字,可以使用

同音字代替(要是同音字发音和音调都完全相同的)

8)儿化音,不标注“儿”,例如,发音为“听歌儿”,标注为“听歌”

9)如果音频开始、结尾处部分发音出现截断的情况,若可以听出截断发音,则进行标注,若听不出截断发音(需要靠猜测或者推测)则发音边界标注时,

将截断的音刨除,文本标注也只标注发音边界内的内容。

10)出现多人说话的场景

a)当其他人说话声音小于主发音人音量1/4时,其他人发音视为背景噪

声,不进行标注。

2、性别、儿童

标注为“男”、“女”、“儿童”(如果出现无法辨别的中性声音,请标注为女)

多发音人以主发音人为准。

3、语言

标注为

中文:全部都是中文

英文:全部都是英文

中英:中英文混合

4、是否有口音

标注为“是”,“否”,无法确认时,请标注为“否”

5、是否有变音

标注为“是”,“否”,无法确认时,请标注为“否”

6、发音边界

标注句中发音部分的起点、终点,精度到毫秒,如[1.234][3.456](使用英文的中括号,两个为一组),

三、交付具体说明

1、每批数据交付两个txt文本,一个为有效标注文本,一个为无效标注文本

样例如下(中间分隔符为“\t”,换行统一使用“\n”):

PS:同一个音频多个片段,每个片段一行,名字不用单独处理,发音边界不同即可。

对于试标结果的格式,我这边要说面一下

1)所有文件、文件夹,只能出现英文和“_”,不要出现中文及

其他格式

2)标注内容按照标注规范中要求的顺序进行排版

2、文本编码要求为utf-8

3、要求句准确率大于95%

4、有效时长统计方法:

有效时间段:通过有效标注的发音边界来取时间段,

最后的有效时长:为全部有效发音段的时长和。

具体如下:

1)以人有意义发音的开始、结束点为计时起点和终点

2)起点和终点距离人发音,若无法精确判定,可以有100ms 左右的静音(最长不超过200ms),此处静音计入有效小时

3)人发音过程中,不能出现超过1s 的停顿,若有超过1s以上的停顿,则停顿的时间不算入有效时长

4)数据中小于等于2个字和全部是语气词的音频,总时长小于1小时,多出部分为无效数据

5)若背景要求为安静,出现明显噪声的总时长不能多余0.5小时,多出部分为无效数据

相关文档
最新文档