客服录音数据标注规范(完整版)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
客服录音数据标注规范(完整版)
用谷歌浏览器(至少32.0以上版本)来标注。其他浏览器或低版本谷歌浏览器可能出现部分文件播放不了的问题。
质量要求:
●文字错误率:3%以内
⏹注:文字错误率指语音内容标注错误,只要有一个字错,该条语音就算
错。
●其他错误率:5%以内
⏹注:综合错误率指:除了语音内容以外的其他标注项错误,只要有一项
错,该条语音就算错。
客服语音内容说明:
都是鲜百味公司和客户的电话语音,公司主营业务是卖海鲜,所以大部分内容都是关于海鲜(如大闸蟹)的购买、礼品券、配送等方面。
1. 当前语音是否包含有效语音
无效语音(即不包含有效语音)的类型:
●文件播放不了;
●音频全部是静音或噪音;
●许多地方听不清或者听不懂,例如,方言太重、噪音太大、音量过低等。
●两个人同时说话超过3个字(包括3个字)并且听内容不清楚的或者噪音声
音盖住说话人声大于3个字(包括3个字)导致内容听不清楚的
2.当前语音的噪声情况
如果能听到明显的噪音(噪音指说话人正常说话外的其他声音),则选择“含噪音”,否则选“安静”。
常见噪音举例(但不限以下):
●其他人说话声
●背景音乐声
●动物叫声
●汽车滴滴声
●咳嗽声
●明显的电流声
3.说话人数量(即标注的语音内容是几个人说的)
●一人说话(主体说话人):只有一个人说话
●多人说话:有多个人说话(因为是客服语音,一般是两个人)
4.说话人性别
如果有多个人说话,则标第一个说话人的性别。
标注项:
●男
●女
5.是否包含口音
如果有多个人说话,则标第一个说话人是否有口音。
标注项:
●否:无口音
●是:有口音
⏹有口音是指说话人发音的拼音或声调和正确发音的不一致。常见情形
包括:l和n不分,h和f不分,n和ng不分,e和uo不分,前后鼻
音,平翘舌,以及其他情况。
6.语音内容
如果两个人同时说话,以主体说话人声音大的为准来转写文字。
如果一条语音中,低于3个字有两个人同时说话,并听不清楚的,将听不清的部分用“[d]”表示。
如果一条语音中,低于3个字部分噪音太大,盖住说话人声音导致听不清的,将听不清的部分用“[n]”表示。
文字转写具体要求:
●语音内容必须和听到的语音完全一致,不能多字、少字、错字。
●阿拉伯数字要写成汉字形式,如“一二三”,而不是“123”。注意区分“一”
和“幺”。“二”和“两”
●语气词: 音频中说话人清楚地讲出的语气词,如“呃啊嗯哦唉呐”
等,要按照正确发音进行转写。语气词除了“了不”没有口字旁,其他基本上都有口字旁。
●转写内容的完整性要与实际发音一致,不得删减;
⏹如发音为:我是北北京人;“北”字有重复现象,那转写的时候要
写成:我是北,北京人。
●英文比较复杂,转写的原则是:按字母读的情况(如缩写词,网址等)
一律大写,按词读的则小写,例如“APPLE”表示用户是逐个字母念的,“apple”表示用户按单词念的。
●明显的儿化音必须标注出来