自然对话标注规范

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

自然对话标注规范

看完之后找我要语音,价格150元一

个小时

1、标注之前需要进行的工作

1)确定你所拿到的语音是否为电话录音(而不是两个人面对面聊天录音),是电话录音才进行标注,不是电话录音的此语音作废。

2)不能是讲故事、说相声或者念课文等等

3)确定所要标注语音的近端音(一般会在文件夹中的txt文档中显示)。

4)关于什么是近端音,用一个例子解释:甲和乙进行手机通话,甲的手机安装了录音软件,在通话过程中将语音录了下来,那生成的

录音中甲说的话就是近端音,乙说的话是远端音。

5)1、语音是否合格问题。标注员在标注的过程中要注意一下语音是不是合格,避免白做工。语音核查标准有三:格式上,语音的比

特率是256kbps;内容

上,第一,双人电话录音;第二,自然聊天对话。

2、是否标注

需要标注的是近端音,不需要标注远端音,远端音切掉即可。

3、是否有效(此条规则针对近端音,近端音又分为有效音和无效

音):

无效的不用管,什么也不用标注

判断是否为有效或无效语音的原则:

1)语音重叠问题。远端音和近端音说话重叠时(也就是两个人说话重叠的部分)切掉,标为无效。

2)如果一句话声音极小,小到几乎听不到,则标注为无效。

3)如果一句中只含有噪声或者静音,则标注为无效。

4)如果只有一个“嗯”、“啊”、“哇噻”、“喂”等,则标注为无效。

5)一句话有听不清楚的部分,写不出正确结果的情况下,切掉标为无效即可,注意尽量不要截再波峰上。

4、语音内容及切分:

1).一句话尽量切为10-15个字左右,长句子要从停顿的位置切分开,并尽量保证句意完整。句子首尾尽量留200-300ms静音段,如本身没有这么长静音的情况下不强求。2、静音处截断问题。在切分语音的时候保证切分点在静音段上,也就是说不要切在音节上。标注时不需要加标点符号,有断句处用空格隔开即可.

2).两个人先后说话没有重叠的要切分开。

4). 语音内容必须和听到的语音完全一致,不能多字、少字、错字。

5). 阿拉伯数字要写成汉字形式,如“一二三”,而不是“123”。注意区分“一”和“幺”。“二”和“两”

6). 标注中只能含有中文、英文以及英文中特殊符号,如I'm中的'。如果符号被读出,则根据发音需写成相应汉字或英文。例如“@”读“at”时要写为“AT”,“.com”读成“点com”时要写成“点COM”

7). 语气词: 音频中说话人清楚地讲出的语气词,如“呃啊嗯哦唉呐”等,要按照正确发音进行转写。语气词除了“了不”没有口字旁,其他基本上都有口字旁。

8). 标注内容的完整性要与实际发音一致,不得删减。

9).说话人发音不标准的时候,要按这个音的标准发音来标。

10).网络用语,hui ji,要写成灰机,jiang zi要写成酱紫,网络用语按照网络用语写

12).有的音找不到对应的汉字,标成无效。(特殊情况,“duang”这个音没有对应的汉字,就标注成“duang”)

总结,只要自己听不懂的就切掉,只标注听得懂的。

5、文字内容中的噪音标记(有效近端音中出现噪音才标记出来,其他情况不用标记噪音):

: 表示说话人的各种非文本内容的噪声信息,包括唇咂嘴,咳嗽,清嗓子声,啧啧声,笑声。

:非人发出的声音,主要是一些偶然出现的噪声,例如:鼠标操作声音,敲击键盘的声音等。

: 稳定的噪声,主要是录音环境的一些非偶然噪声,例如周围音乐,风声,空调声等。

: 非说话人的周围人发出的噪音,包括唇咂嘴,咳嗽,清嗓子声,啧啧声,笑声。

问:噪音符号什么时候加?

答:明显的噪音且作为独立的声音段时才加(说话同时的噪音不用加,不明显的噪声也不用加)。

例1:A说完“今天”后笑了下,继续说“我去吃饭了”,那么标为“今天我去吃饭了”

例2:A说话时,周围产生了噪音,那么因为噪音不构成独立声音段,所

以不需要标噪音符号。

例3:如在整个语音都存在音乐声比较明显,同时开头和结尾存在静音段情况下,在开头结尾处加上。(如果开头和结尾没有静音段,则不用加,音乐声不明显也可以忽略不加。)

6、遇到远近端音分辨不清或者其他实在无法确定的情况,就不标了,千万不能乱标。记住要在你标的那个文件夹里面建一个文档,注明这个文件夹里哪条语音存在问题,因为什么原因没有标注。

7、每个提交的语音包有两次免费质检的机会,质检三次或三次以上,每增加一次扣除5%的质检费。

四、标注准确率要求:

按句统计标注准确率要求达到95%以上。请严格按照此标准进行标注。

相关文档
最新文档