客服录音数据标注规范(完整版)
输入法数据标注规范标准
输入法数据标注规范地址栏内输入标注系统地址:一定使用谷歌浏览,并将其设置为默认浏览器1.登陆界面:百度的账户一律实名认证不可修改个人信息及密码严格保证账号安全做到一人一号实名认证,不得修改密码信息如果导致账号丢失的账户内的时长及账户成本费用个人承担。
导致数据错乱造成损失的对其追究相应赔偿。
红框内显示为音频可点击播放暂停蓝色框框选的部分就是我们要标注的内容了标注信息,默认选择为第一个选项:第一项: 判断是否为无效语音例控制在15%左右,不要超过90%的有效数据,让公司一看就是刷F5出的数据。
质检判罚尺度在标注无效数据时,除非这条语音是明显有效的,你标成无效算错,如果这条语音可有效也可无效,你标记成无效,质检不能判错。
这些无效数据的共性是文本不清晰,有歧义,文本是死扣出来的。
不要为了文本标注有语义,硬猜去写文本。
标成有效可能会错;标成无效,质检不能判错。
第二项: 噪音:☆☆☆耳朵所能听到的文本【也就是当前说话人】以外的声音标注为有噪音。
说话以外的声音包括咳嗽声,打喷嚏,喷麦。
背景人说话,汽笛声、能听到我们就标注为噪音,反之安静。
第四项:语音内容;(文本)1.结巴,语气口语词诸如嗯啊呀这些照录。
【一律带口字边,嗯啊呀喂哦。
】2.”写成井号键“*”写星号键。
没有阿拉伯数字,数字以汉字形式,如“一二三”,而不是“123”。
注意区分“一”和“幺”。
“二”和“两”。
3地名,古诗词,名人名字这些不能用同音字代替。
没有正常的逻辑思维能力也要有常识,没有常识的问度娘。
不行就F5刷新!全角wifi半角 wifi第五项:性别能听出是儿童的标为“儿童”。
男就是男,女就是女,分不清性别的标男或女都行。
第六项:口音☆☆☆发音不标准的普通话,跟标的这个字的字典发音不同,就标记口音。
因为地域不同而造成的普通话的差异不算口音,如同儿化音不算口音只因北方人说话都是差不多调调。
标注结束后,点击“标注提交”即可工作量查询➢点击右上角查询,将会出现工作量查询页面查询起始时间是2015年5月1号至表单日期止为了方便区分检查,把“有效语音”和“无效语音”显示成黑色和红色。
电话信道音乐搜索数据标注规范
电话信道音乐搜索数据标注规范
一、内容栏
1.内容栏里面文字需要修改准确,
2.发音人说话只说了一个汉字(是音乐)的需要转写出来
3.歌手名/歌曲名/歌手名或歌曲名/歌手名或歌曲名前后加了前后缀的都需要转写出来
4.专辑名称,电视剧的主题曲,音乐种类(DJ音乐)需要转写出来
5.歌曲名与歌手名不一致也需要转写出来
6.发音人只说了电视剧名称且该剧不是歌曲名需要转写出来。
7.发音人说完话后,低噪音持续达到1.5秒的,在标签栏加标低噪音标签
8.模棱两可的语音按照正确语意来标注,(如张杰和张姐,标注张杰)
9.英文字母大写不要空格,单词小写中间空一格,汉字与字母(单词)不用空格
二、拼音栏不用管
三、标签栏不用标注
四、坏数据
1)✧左右截断/发音人的声音中途被截/信号差的声音/与音乐无关;
2)✧整句纯环境噪音,纯方言,纯人声噪音;唱出来的或拼读或歌词内容;
3)✧说话只说一个字母;说英文听不清或听不懂的;
4)✧整条音频声音异常、回音、喷麦严重、说话不清楚、结巴严重,虚着嗓子说话的;5)✧发音人声音小无法听清内容、发音人语速极快听不清内容、;发音跑偏厉害
✧音频整句是系统播报音即机器人的声音,例:公交车报站音、银行叫号音,语点6)
声音等;
7)✧静音段达到0.5s,歌手名或歌曲名不完整
✧人声噪音/环境噪音/设备噪音/人声非语音(笑、哭、咳嗽、清嗓子等)/背景音8)
乐声音过大
9)✧除英语以外的其他外语(如日语、韩语、泰语等),口音严重。
音频数据标注规范_离线标注(1)
腾讯音频标注规范一、标注内容本次针对语音标注以下内容:有效性判定:有效,无效。
有效则进行后续标注。
无效的判别标准:1)无法听清音频中的内容(不论部分还是全部)2)音频为与普通话差异较大的方言,如:粤语、上海话、闽南语等3)音频中出现了除了中文、英文之外的语言4)音频中无人声5)音频中全部都是歌曲、电视声等6)背景人声音量大于主说话人1/4的7)音频中内容仅有一个汉字或一个英文单词8)音频中内容仅有一些语气词,例如:嗯,啊,哈对于有效的音频:进行分段标注:分段的标准:两个语音段中间无发音时长大于等于1秒PS:分片后,某个分片内仅有一个汉字或一个英文单词,此分片不进行标注。
每个分段标注内容:1)标注文本:语音对应的文本2)性别、儿童:发音人的性别,发音人是否为儿童3)语言:中文、英文、中英4)是否有口音:发音人发音是否有口音5)是否有变音:发音人是正常人声,还是娱乐性质的变音6)发音边界:按照规定标记处发音的起点和终点(毫秒)二、标注内容具体说明1、标注文本A)正常标注中,1)文本中不能出现除规定使用的标点符号(”_”(英文短下划线)、“ ”(英文空格)、“’”(英文单引号))之外的符号(如换行,逗号等),可以出现空格2)标注文本以发音人实际发音为准a)缺字或者多字时,不用进行人工纠正(即加字或者去除字)b)儿童发音有变音、走音的情况下,请按照正确发音标注文字(例如:音调上有变化)3)文本中出现英文时,字母全部大写,在英文停顿处,使用符号”_”(英文中的下划线,不需要引号)来进行标注。
如:NBA,标注为N_B_AI love you 标注为I_LOVE_YOU我爱China 标注为我爱CHINA我要听ABC 标注为我要听A_B_C4)出现语气词,尽量选用带“口”字部首的字5)阿拉伯数据标注为中文,如1998年:标注为:一九九八年数字24标注为:二十四6)出现无法辨别的词汇,如“你”“您”的时候,取符合语境的字即可7)出现能确定发音,无法确定字的情况,如果是歌名、专有名词、地名等,可以百度一下,只要真实出现过即可;如果还是无法确定具体字,可以使用同音字代替(要是同音字发音和音调都完全相同的)8)儿化音,不标注“儿”,例如,发音为“听歌儿”,标注为“听歌”9)如果音频开始、结尾处部分发音出现截断的情况,若可以听出截断发音,则进行标注,若听不出截断发音(需要靠猜测或者推测)则发音边界标注时,将截断的音刨除,文本标注也只标注发音边界内的内容。
short8短音频转写规范及标准-final
标注规范及标准一.简单介绍对每个语音段,分别标注文本内容、说话人性别、口音、底噪、儿童音。
二.操作步骤及方法1.登录界面如下图,用给定的账号和密码登录;http://123.56.137.109:18002.登录进去之后,选择申请任务,在项目名称下面选择对应负责人团队的任务(申请“陈思团队”,选错做完不结算工资),然后同意保密协议,就进入工作页面开始工作;3.工作页面如下图所示,具体的切分标注步骤如下:1)首先,框1是音频播放波形图,上边的箭头用作前后翻页,但是只起到浏览作用。
还有需要在波形前后标注时间边界(直接在波形上拖动鼠标即可),波形下边是时间轴,底下的快捷键避免使用,免得出现语句错乱。
2)框2中是对属性的标记。
(尤其注意底噪和口音,不能全标有也不能全选无,要根据每句话的音频断定)3)框3是文本输入区,要求输入的文本必须与音频完全一致,不能出现多字漏字错别字的现象。
左下角的是跳转翻页,如果想跳到第五页,则输入数字五后直接回车即可。
4)框4是三种标签。
注意:时间轴第一个字到最后一个字,文字前后噪音划在红线外就不用标注口音是这句有口音味或者其中1-2个字带口音都算有口音底噪是本句的第一个字到最后一个字持续明显有才标有,如果中间出现一个突发明显噪音,在出现处标noise标签句子有标点,句尾必须有标点可点击跳转第几句到相应的句子,或者上面箭头前后翻页点击“保存继续下一句”本句就自动保存了三.切分标注的标准3.1 时间边界添加时间边界的方法:直接在波形上拖动鼠标,前后语音不用有静音预留(第一字到最后一个字),即波形两边不用留空白时长3.2文本标注规范1.录音转写的第一要求忠实地按照音频录音念什么就转写成什么的原则,如真实发音为“我们去哪哪里啊”,“哪”字有重复,就要忠实地录成“我们去哪哪里啊”,。
2.口音问题由于口音或个人习惯导致的音变,按普通话标注音录入。
多音字或者生活中有不同发音的字,也按照普通话标注音录入。
中文标注任务规范
内容与音频一致
无需操作完成本条标注,点击“下一句”
内容与音频不一致
内容栏文本根据声音文件修改一致,点击“下一句”
坏数据
无
点击“标记不可用”或“配置的快捷键”,继续标注
3.
3.1内容文本要与真实音频发音完全一致,不可增减字、错字;人名、小区名、道路名无法确定用字时,录入准确发音的常用字;
3.2真实发音为“我去哪哪里呀”,“哪”字有重复,就要忠实地录成“我去哪哪里呀”。另由于口音或个人习惯导致的音变,按普通话标注音录入;
4.1音频无主发音人类型:
纯环境噪音;两个人对话、纯人声噪音;纯音乐、说唱;纯人声非语音,例如笑,打喷嚏,咳嗽等;纯机器人的声音;
4.2音频有主发音人类型:
1)语音波形不完整现象指语句首字音或尾字音被截,打开音频前后无静音段,从听感上首字音或尾字音不完整,此为截断数据;
2)发音人语音不清晰类型:例如方言、口音严重,除英语以外其他外语;
3.3多音字或生活中有不同发音的字,也按普通话标注音录入。例如,“办公室”的“室”,有人说成shǐ,有人说成shì,都录成“办公室”;
3.4对于儿化音,也要忠实于发音录入。例如,发音是“哪儿”,就录成“哪儿”,没有发出儿化音的,就录成“哪”;
3.5发音停顿录入文本连续,不需要空格或添加符号,英文缩写除外;例如,“what’s your name”中的撇号必须是英文状态下录入,特殊符号读法“#”录入“井号键”;“*”录入“星号键”;
数据分类子分类标注方式群音信息服务有限公司2014日星期日好数据内容不音频一致无需操作完成本条标注点击下一句内容不音频丌一致内容栏文本根据声音文件修改一致点击下一句坏数据好数据文本录入标准31内容文本要不真实音频发音完全一致丌可增减字错字
2024手机通话录音规范
2024手机通话录音规范合同编号:__________地址:联系人:联系电话:地址:联系人:联系电话:鉴于甲方为手机通话录音的提供方,乙方为手机通话录音的使用方,双方为了规范手机通话录音的提供和使用,经友好协商,达成如下协议:第一条手机通话录音的提供1.1 甲方应保证手机通话录音的真实性、准确性和完整性。
1.2 甲方应在录音中明确标识出通话的起始时间和终止时间。
1.3 甲方应在录音中明确标识出通话双方的姓名或号码。
1.4 甲方应对录音进行妥善保管,确保录音不被未经授权的第三方获取。
第二条手机通话录音的使用2.1 乙方应在合法范围内使用手机通话录音,并确保不会将录音用于非法目的。
2.2 乙方不得将录音提供给第三方,除非法律有明确规定。
2.3 乙方应在取得甲方书面同意后,才能对录音进行复制、编辑或删除。
第三条保密条款3.1 除非依法应当向行政机关、司法机关提供本协议外,双方应对本协议的内容和签订过程予以保密,未经对方同意不得向第三方披露。
3.2 本协议的保密义务自本协议签订之日起生效,至本协议终止或履行完毕之日止。
第四条违约责任4.1 任何一方违反本协议的约定,导致本协议无法履行或造成对方损失的,应承担违约责任,向对方支付违约金,违约金为本协议金额的__%。
4.2 违约方应承担因违约所产生的相关费用,包括诉讼费、律师费等。
第五条争议解决5.1 双方在履行本协议过程中发生的争议,应通过友好协商解决;协商不成的,任何一方均有权向合同签订地人民法院提起诉讼。
5.2 诉讼费用由败诉方承担,但法律另有规定的除外。
第六条其他条款6.1 本协议自双方签字或盖章之日起生效。
6.2 本协议一式两份,甲乙双方各执一份,具有同等法律效力。
甲方(盖章):乙方(盖章):签订日期:____年____月____日多方为主导时的,附件条款及说明一、当甲方为主导时,增加的多项条款及说明7. 甲方权利和义务7.1 甲方有权要求乙方按照约定使用手机通话录音,并确保乙方的使用行为符合法律法规的要求。
语音数据标注规范V2.1.5【电话录音_3项】_20141016(定稿)
第系统: 操作系统是 XP 以上系统都可以。 浏览器: 请使用 IE 浏览器和搜狗浏览器
语音数据标注规范
步骤:
(1) 登录网址: http://182.48.116.149:8088/index.php/root/assigntask.html (2) 输入用户名及密码
地名,能查到的地名必须写对。 2) 文本写成简体字,不要繁体字。 3)阿拉伯数字要写成汉字的形式;注意:“一”和“幺” 4)带儿话音的,要写出“儿”字,并且加括号。 例如:我得了 5 分儿,文本要写成:我得了五分(儿), 注意:不是儿化的不用加,如女儿,婴儿等不是儿话,就不能加在“儿”字上加括号。 注意:如果自己不能准确判断发音是否有(儿),就自己发一下不带儿的音,对比看 wav 是否是不带儿的音。也可以只选中这一个音去判断。 5) 文本和声音一致,以声音为准改文本。不能出现多字、少字、错字。 6)注意口语的字;口语中,结结巴巴说出的,要写出对应接接巴巴声音的字。口语中,“嗯”、 “哦”、“啊””等,要准确对应文本。例:声音“呀”,不能写成:“啊” 7) 英文:说单词的写成单词,整个单词要小写。说字母的写成字母,要写成大写。英 文单词发的不标准,如能听出是哪个单词,就写单词。注意:QQ、MSN,是字母发音,要写 成大写。 8)不是重口音,而是发错音的,写成错的字。但注意不要将口音当成发错音。 9) 文本中标点符号不作要求。
2014-3-5
备注
PICC 196 小时 中共
湖北电信 127 小 时
6
修改#规范
2.1.4 2.1.5
2014-10-16
语音数据标注规范
自 2014 年 10 月 16 后 所 有 标 注 的数据
语音数据标注规范 V2.1.5 【电话录音_3 项】2014-10-16
人机对话系统语音数据加工处理
3.7语音标注软件
3.7.1Praat软件下载安装
Praat支持Windows、Linux、Macintosh等系统,同时还公开源代码,用户可以访问 http://www.fon.hum.uva.nl/praat/据电脑操作系统选择对应版本下载。
3.6.1 什么是语音数据标注
我们在聊天软件中,通 常会有一个语音转文本的 功 能,大多数人可能都知道 该功 能是由智能算法实现的 ,但是 很少有人会想,算法 为什么能 够识别这些语音?
算法最初是无法直接识别语音内容的,而是经过人工 对语音内容进行文本转录,将算法无法理解的语音内容转化 成容易识别的文本内容。在这个过程中,需要大量的人工去 标记这些“说出的话”所对应的“文字”,采用人工的方式 一点点去修正语音和文字之间的误差,这就是语音数据标 注。
3.6语音标注基本概念
3.6.3语音标注的应用场景
①车载语音助手:车载场景最突出的特点是用户的注意力被占用,从而为屏幕操作 带来不便。在此情景下,车载语音助手变得尤为重要。
3.6语音标注基本概念
3.6.3语音标注的应用场景
②语音智能家居:人们越来越习惯用声音去操作复杂的家居设备,如电视、空调、 家用摄像头等。智能语音家居生态系统正在快速成熟,构建高效、安全、便捷的家居环 境成为现实。
1.Adobe Audition语音数据降噪
➢ 第三步:选取噪声以后,点击“效果”菜单项“降噪/恢复(N)”子菜单项中的“捕 捉噪声样本(B)。
1.Adobe Audition语音数据降噪
➢ 第四步:点击后,会发现画面一闪,再没有变化。这时候选取需要降噪的区域(这 里全选,整段音频都需要降噪)。
1.Adobe Audition语音数据降噪
语音标注规范_20150706
语音转写规范一、语音转写总体目标针对给定的语音片段,人工判断其是否为有效语音,对于有效语音,给出其中语音的起止时间段、标准的文本标注以及语音本身的相关属性,对于无效语音直接抛弃。
操作说明1.下载并安装chrome浏览器(必须条件);2.用给定的账号和密码登陆网址http://182.92.174.146/index.php?c=login3.登陆成功后,点击菜单栏“申请任务”,如果有任务的话,便可以点击“项目名称下”给定的项目进入,如下图:4.同意保密协议开始工作后,工作界面如下所示:操作顺序分为五步:1首先判断声音的有效性,如果有效的话,再继续进行下面步骤;如果声音无效,则只需选择无效原因即可(选中“无效声音”后,自动下一句)。
2在上图1所框波形中,通过鼠标拖拽的方式,标记出有效声音的起止时间点;3对有效声音进行“性别,底噪,口音、儿童音”四种属性的标记;4两条红色竖线内的音频即为需要转写的音频段(我们把这一段称为有效声音,转写校对时只需要转写校对有效声音段内的内容)转写内容写到下面文本框内。
5需要加标签的地方加上标签,单击即可加入;6标记完毕后,点击“保存继续下一句”7点击1of150处的箭头的话,本句的标注结果是不保存的,只是浏览8做到每个任务包的最后一句时,波形图的右上方会显示“提交“按钮,点击即可提交任务。
注:账户中如果存在没有提交的任务,则无法领取新任务。
先校对文字,再点生成拼音。
二、有效语音判断标准单个发音人的清晰普通话语音是标注中需要处理的有效语音;对于带有一定口音,导致发音不标准的普通话以及由于发音习惯,导致个别发音改变的普通话,都属于有效语音;对于背景存在噪声,但不影响说话内容辨识的语音,也属于有效语音;其它情况的语音都属于无效语音,直接抛弃,无需进行任何标注,典型的无效语音有:1.音频中无人说话,只有背景噪声或音乐等。
2.音频背景噪声过大,影响说话内容辨识。
3.语音不是普通话发音,如广东话、唱歌、其它语言(普通话中夹杂少量英语情况除外)等。
音频数据标注规范_离线标注(1)
音频数据标注规范_离线标注(1)腾讯音频标注规范一、标注内容本次针对语音标注以下内容:有效性判定:有效,无效。
有效则进行后续标注。
无效的判别标准:1)无法听清音频中的内容(不论部分还是全部)2)音频为与普通话差异较大的方言,如:粤语、上海话、闽南语等3)音频中出现了除了中文、英文之外的语言4)音频中无人声5)音频中全部都是歌曲、电视声等6)背景人声音量大于主说话人1/4的7)音频中内容仅有一个汉字或一个英文单词8)音频中内容仅有一些语气词,例如:嗯,啊,哈对于有效的音频:进行分段标注:分段的标准:两个语音段中间无发音时长大于等于1秒PS:分片后,某个分片内仅有一个汉字或一个英文单词,此分片不进行标注。
每个分段标注内容:1)标注文本:语音对应的文本2)性别、儿童:发音人的性别,发音人是否为儿童3)语言:中文、英文、中英4)是否有口音:发音人发音是否有口音5)是否有变音:发音人是正常人声,还是娱乐性质的变音6)发音边界:按照规定标记处发音的起点和终点(毫秒)二、标注内容具体说明1、标注文本A)正常标注中,1)文本中不能出现除规定使用的标点符号(”_”(英文短下划线)、“ ”(英文空格)、“’”(英文单引号))之外的符号(如换行,逗号等),可以出现空格2)标注文本以发音人实际发音为准a)缺字或者多字时,不用进行人工纠正(即加字或者去除字)b)儿童发音有变音、走音的情况下,请按照正确发音标注文字(例如:音调上有变化)3)文本中出现英文时,字母全部大写,在英文停顿处,使用符号”_”(英文中的下划线,不需要引号)来进行标注。
如:NBA,标注为N_B_AI love you 标注为I_LOVE_YOU我爱China 标注为我爱CHINA我要听ABC 标注为我要听A_B_C4)出现语气词,尽量选用带“口”字部首的字5)阿拉伯数据标注为中文,如1998年:标注为:一九九八年数字24标注为:二十四6)出现无法辨别的词汇,如“你”“您”的时候,取符合语境的字即可7)出现能确定发音,无法确定字的情况,如果是歌名、专有名词、地名等,可以百度一下,只要真实出现过即可;如果还是无法确定具体字,可以使用同音字代替(要是同音字发音和音调都完全相同的)8)儿化音,不标注“儿”,例如,发音为“听歌儿”,标注为“听歌”9)如果音频开始、结尾处部分发音出现截断的情况,若可以听出截断发音,则进行标注,若听不出截断发音(需要靠猜测或者推测)则发音边界标注时,将截断的音刨除,文本标注也只标注发音边界内的内容。
录音标注新手入门手册
符号未半角, 标识未大写 两人同时说话 情况未用 | 分隔,或上下 层顺序不一致
切割线位置 不准; 同一人说话 时长10S以 上的未分段
LOGO
3
标注结束后,保存 标注信息文件时, 请确保标注的 textgrid文件与当 前的wav语音文件 所在路径保持一致 。
质检验收标准讲解
1、正确率96%
2、质检验收标准细则
验
收
标
准
文本有误( 多字少字错 字) 主说话人的 大段文本未 标注(漏标 、大段标成 听不清)
听不清的未单 独切段; 说话人角色、 性别、身份有 误 噪音标识有误 (错标、漏标 )
出现标注界面,进行标注
点击确定后 按住Ctrl键,同时选中wav 文件和textgrid文件,点 击右侧的Edit
标注软件操作讲解
三、常用操作指令
播放/暂停:Tab键 放大/缩小:界面左下角:all 全屏显示;in 逐步放大;out逐步缩小;sel 选中部 分全屏显示 选中音频:在语音波形上拖动鼠标 拖动音频:拖动标注界面最下的滑动条 生成切割线:在语音波形上用鼠标点击需切割处,即出现一条红色虚线,同时该 红色虚线与每个标注层的相交处有一个空心圆圈。点击空心圆圈,即可生成切割 线。(快捷键:Enter) 移动切割线:鼠标点住要移动的切割线,左右拖动。
静音段噪音标注
静音段中的人声 噪音片段
切割此片段,不标记;(此条规则的 优先级高于其他) 如:背景人说话声
静音段中的非人 声噪音片段
切割此片段,标记为N;(noise) 如:敲键盘声、严重电流声等
图片案例
标注规范讲解
静音段中的人声 呼吸段
切割此片段,标记为V (voice) 如:咳嗽声、呼吸声、清嗓子 声
客服部通话录音质检评分标准
语言组织、 服务 用语是否规范 (15 分)
语音、 语调是否 饱满热情,语 音量是否适 语音语音、 语调是 速、 中(10 分) 否饱满热情, 语速 录音质 是否适中(20 分) 聆听是否准确、 检(满分 细致(10 分) 100 分, 减分项)
沟通技巧及服务 主动性(25 分)
沟通技巧(20 分)
服务主动性(5 分) 业务提供正确 业务回答(35 分) 度及完整性 (25 分)
是否出现推诿 现, 直接按 0 分处理
0分 10 分 5分 0分 5分
致命性错误
业务资料提供错误,内容不完整,可能引起投诉 通话服务过程中,没有出现推诿现象(推诿现象详见推诿情况明细表) 通话服务过程中,出现推诿现象,但能及时纠正(推诿现象详见推诿情况明细表) 通话服务过程中,出现推诿现象,也没有纠正(推诿现象详见推诿情况明细表) 在电话沟通过程中客户对处理人员很满意并且有明显表扬的字样 此条录音引起用户投诉,且投诉成立 在录音中出现讽刺性语句、严重质问反问、抱怨、不文明用语等 出现侮辱讽刺性语言--"去死吧""你有病啊"等语言(发现两次退回人事部) 在录音中出现对公司、对用户造成恶劣影响的语言或事件,如:泄露公司相关资料 利用公司电话拨打私人电话
客服部通话录音质检评分标准
项目 分类 首尾语是否规 范 5 分) 规范用语使用情 况(20 分) 得分 5分 3分 3分 0分 15 分 12 分 8分 5分 0分 10 分 8分 5分 0分 10 分 5分 0分 20 分 15 分 10 分 5分 0分 5分 3分 0分 25 分 20 分 15 分 8分 得分情况说明 正确使用首尾语 未使用首语或首语使用不正确,尾语使用且正确 未使用尾语或尾语使用不正确,首语使用且正确 未使用首尾语、或首尾语使用不正确 语言组织规范,表达流畅,服务用语规范使用,无口语化 语言组织一般,表达流畅,服务用语规范使用,无口语化 语言组织一般,表达断断续续,服务用语使用规范,出现口语化现象(1 次) 语言组织不当,表达断断续续,服务用语使用不规范,出现口语化现象(1-3 次以上) 语言组织不当,表达断断续续,服务用语使用不规范,出现口语化现象(3 次以上) 语音、语调饱满热情,语速平稳,能配合客户调整语速音量 语音、语调平淡、语速平稳,能配合客户调整语速音量 语音、语调冷淡、语速平稳,音量偏大或偏小 语音、语调冷淡、语速过快或过慢,音量偏大或偏小 聆听准确、细致 聆听出现偏差、但无影响,或聆听出现严重偏差但补救措施 聆听出现严重偏差,答非所问,影响整体通话,且没有补救措施 准确理解客户意图,及时响应,主动引导,沟通顺畅愉悦 基本理解客户意图,沟通较通畅,引导性较好,临场应变能力较好 对客户意图理解较慢,需多次确认才能给予回复,引导性欠缺,应变能力一般,解决问题较慢 引导性差,任凭客户唠叨或被客户带入其他话题;被客户一直压制无法接话,以敷衍结束通话, 或者屡次打断客户讲话,不理会客户感受,自顾自滔滔不绝 客户在通话中因各种原因表现出投诉倾向或不满情绪,未能主动道歉安抚、 道歉 ,对问题置之不理 合理分析用户的咨询,给予用户正确的解答,提供适合用户需求的业务信息 针对用户咨询,仅做解答,在可以给予更多信息以供参考时 在用户过程中,服务被动,出现一问一答现象 业务资料提供正确,内容完整。 业务资料提供正确,内容不完整,对用户不造成影响,不引起投诉 业务资料提供错误,内容不完整,对用户不造成影响,能及时纠正,不引起投诉 业务资料提供错误,内容不完整,对用户造成影响,能及时纠正,不引起投放
录音通知规范
附件一:中国移动GSM网上录音通知业务规范随着移动网上开放的新业务增多,面向用户的服务标准,服务介面均需不断提高与完善。
现在征求各省建议基础上,根据新业务及服务标准要求,对原1998年部移动局制定的<<公用蜂窝式移动电话业务规程>>中规定的在移动网上播放的录音通知标准进行修订,对移动网上的录音通知统一规范为:一、GSM网1、空号中文:您好!您所拔打的号码是空号,请核对后再拔。
英文: sorry!The number you dialed does not exist , please check it and redial.2、被叫用户关机中文:您好!您所拔打的电话已关机。
英文:Sorry! the subcriber you dialed is power off.(1)(2)3、被叫不在服务区中文:对不起,您拨得用户暂时无法接通,请稍后再拨。
英文:目前为“Sorry! the subscriber you dialed can not connected for the moment, please redial later.4、主叫欠费停机/单向停机中文:对不起!您的电话已欠费,请您续缴话费,谢谢!英文:Sorry, your telephone charge is overdue, please recharge it, thank you!5、用户主动申请停机/其它原因的停机中文:对不起!您的电话已停机,详情请垂询“10086”。
英文:Sorry! Your telephone service is suspended, formore information, please dial 10086.6、被叫停机(欠停)中文:对不起!您拔打的电话已停机。
英文:Sorry! The number you dialed is out of service.放通原则:由发起查询的交换机负责放通。
电话长音规范
一、标注员行为规范百度语音标注是百度标注员使用标注工具人工对百度语音数据详细信息进行标记的过程,标注员需要严格遵守百度的各项规章制度,同时严格执行以下的标注员行为规范:.严禁下载、拷贝、传播标注语音,如出现标注语音泄漏的情况,我们将追究相关人员的责任;.杜绝一切不认真、不负责任的标注行为;.标注中出现的问题应及时反映;.标注系统的用户名,密码只限标注员本人使用,请严格保密。
二、语音标注规范建议:客服语音和用户语音声音分开标注三、标注任务及规则介绍(一)音频切分切分出来的音频分为有效和无效,无效需对应规则分别标注<sil> <sys>标签。
切分点要落在说话停顿处,找音频波形有明显静音段的地方切分。
第一项: 当前语音是否包含有效语音.判断是否为有效或无效语音的原则:.1、如果背景有人说话声音比当前说话人小,可以作为背景噪音,则只标注主说话人声音。
.2、如果声音极小,小到几乎听不到,与当前对话内容无关,则无需标注,判断为静音。
.3、只有一个字或两个字的“嗯、啊、喂、你好”等等,表示肯定的词语,需正常标注。
.4、如果一个人唱歌,则无需标注。
.5、如果两个人同时说一个词,说话完全重叠,内容可听清,则需正常标注。
.6、如果两个人说话有重叠部分,这一段放在一起切分,文本框中标记为<sil>,不进行转写。
.7、两个人一前一后顺序说话,没有重叠,正常标注。
.8、音频中实在听不懂说话人说的话,定义为无效音频,切分后标注为<sil>标签。
.9、系统提示音(比如:幺零零零八号坐席为您服务)标注符号<SYS>,系统音提示内容不需要标注出相应文本。
只需要在文本层写上<SYS>,如果有用户或者客服的声音与系统提示音重叠,直接忽略,只标注一个<SYS>第二项:语音内容.直接输入语音内容。
根据自己听到的内容进行输入。
具体规则如下:.1、语音内容必须和听到的语音完全一致,不能多字、少字、错字。
自然对话标注规范
自然对话标注规范看完之后找我要语音,价格150元一个小时1、标注之前需要进行的工作1)确定你所拿到的语音是否为电话录音(而不是两个人面对面聊天录音),是电话录音才进行标注,不是电话录音的此语音作废。
2)不能是讲故事、说相声或者念课文等等3)确定所要标注语音的近端音(一般会在文件夹中的txt文档中显示)。
4)关于什么是近端音,用一个例子解释:甲和乙进行手机通话,甲的手机安装了录音软件,在通话过程中将语音录了下来,那生成的录音中甲说的话就是近端音,乙说的话是远端音。
5)1、语音是否合格问题。
标注员在标注的过程中要注意一下语音是不是合格,避免白做工。
语音核查标准有三:格式上,语音的比特率是256kbps;内容上,第一,双人电话录音;第二,自然聊天对话。
2、是否标注需要标注的是近端音,不需要标注远端音,远端音切掉即可。
3、是否有效(此条规则针对近端音,近端音又分为有效音和无效音):无效的不用管,什么也不用标注判断是否为有效或无效语音的原则:1)语音重叠问题。
远端音和近端音说话重叠时(也就是两个人说话重叠的部分)切掉,标为无效。
2)如果一句话声音极小,小到几乎听不到,则标注为无效。
3)如果一句中只含有噪声或者静音,则标注为无效。
4)如果只有一个“嗯”、“啊”、“哇噻”、“喂”等,则标注为无效。
5)一句话有听不清楚的部分,写不出正确结果的情况下,切掉标为无效即可,注意尽量不要截再波峰上。
4、语音内容及切分:1).一句话尽量切为10-15个字左右,长句子要从停顿的位置切分开,并尽量保证句意完整。
句子首尾尽量留200-300ms静音段,如本身没有这么长静音的情况下不强求。
2、静音处截断问题。
在切分语音的时候保证切分点在静音段上,也就是说不要切在音节上。
标注时不需要加标点符号,有断句处用空格隔开即可.2).两个人先后说话没有重叠的要切分开。
4). 语音内容必须和听到的语音完全一致,不能多字、少字、错字。
5). 阿拉伯数字要写成汉字形式,如“一二三”,而不是“123”。
语音标注规则
语音标注规则
语音标注是指对语音数据进行标记、注释和标定,以便于后续的语音处理与分析。
语音标注的目的在于将语音数据转化为计算机可处理的形式,进而开展语音识别、语音合成、语音转换、语音分析等相关研究工作。
语音标注的意义在于提高语音处理的准确性和效率,促进语音技术的发展和应用。
二、语音标注的基本原则和标记要求
1.基本原则:语音标注应遵循规范化、标准化和准确性的原则,保证标注数据的一致性和可比性。
2.标记要求:语音标注应包括以下方面的标记:
(1)音素标记:对语音信号进行分段,标记每个音素的开始和结束时间。
(2)语调标记:标记句子的语调轮廓和语调边界。
(3)语音事件标记:标记语音事件的发生时刻、持续时间、类型等信息。
(4)语音质量标记:标记语音的质量、清晰度、流畅度等信息。
三、语音标注的具体方法和工具
1.语音标注的具体方法包括手工标注和自动标注两种方式。
手工标注是指依据标注规则和标记要求,手动标注语音数据。
自动标注是指利用计算机技术和相关算法,对语音数据进行自动标注。
2.语音标注的具体工具包括Audacity、Praat、ELAN等多种工具。
这些工具可以实现语音数据的录制、切割、标记、编辑、修改等操作,
支持多种音频格式,具有易用性和高效性的特点。
四、语音标注的应用领域和前景展望
语音标注的应用领域包括语音识别、语音合成、语音转换、情感识别、语音翻译等多个领域。
未来,随着人工智能、自然语言处理等技术的发展和应用,语音标注将在更广泛的领域得到应用,推动语音技术的不断创新和发展。
手机自然通话语音数据-标注规范V1.4 (1)
手机自然通话语音数据标注规范数据堂(北京)科技股份公司二○一五年五月文档控制更改记录目录文档控制 (2)1前言 (4)2数据要求 (4)3数据来源 (4)4标注属性 (4)5数据处理过程 ................................................................................. 错误!未定义书签。
6数据约束 ......................................................................................... 错误!未定义书签。
7交付格式 ......................................................................................... 错误!未定义书签。
8质量保证 (6)9最新疑问 (6)1前言本文档为“手机自然通话项目”的标注规范,阅读人员为录制实施人员。
2数据要求最终要标注出9000小时的有效语音数据。
3数据来源录制好的电话语音数据。
4标注4.1标注要求对切开的每个语音段,进行标注。
做标注的语音段周围尽量留0.2~0.3秒静音段,如本身没有这么长静音的情况不强求。
(V1.3修改内容)注:音频为近端说话者的声音。
(近端:装有采集软件的手机麦克风录制的语音。
远端:装有采集软件的手机听筒传出的语音。
)●是否有效无效标注无效判断是否为有效或无效语音的原则:1)如果一段语音中两个人说话重叠声音大小接近,重叠部分比较多,则标注为无效语音;如果重叠部分较少,一两个词情况,截取不重叠部分标为有效。
如果重叠另一个人声音很小可忽略。
2)如果一段语音声音极小,小到几乎听不到,则标注为无效。
3)如果一段语音中只含有噪声或者静音(视为无声音),则标注为无效。
4)如果只有一个“嗯”、“啊”、“哇噻”、“喂”等,则标注为无效。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
客服录音数据标注规范(完整版)
用谷歌浏览器(至少32.0以上版本)来标注。
其他浏览器或低版本谷歌浏览器可能出现部分文件播放不了的问题。
质量要求:
●文字错误率:3%以内
⏹注:文字错误率指语音内容标注错误,只要有一个字错,该条语音就算
错。
●其他错误率:5%以内
⏹注:综合错误率指:除了语音内容以外的其他标注项错误,只要有一项
错,该条语音就算错。
客服语音内容说明:
都是鲜百味公司和客户的电话语音,公司主营业务是卖海鲜,所以大部分内容都是关于海鲜(如大闸蟹)的购买、礼品券、配送等方面。
1. 当前语音是否包含有效语音
无效语音(即不包含有效语音)的类型:
●文件播放不了;
●音频全部是静音或噪音;
●许多地方听不清或者听不懂,例如,方言太重、噪音太大、音量过低等。
●两个人同时说话超过3个字(包括3个字)并且听内容不清楚的或者噪音声
音盖住说话人声大于3个字(包括3个字)导致内容听不清楚的
2.当前语音的噪声情况
如果能听到明显的噪音(噪音指说话人正常说话外的其他声音),则选择“含噪音”,否则选“安静”。
常见噪音举例(但不限以下):
●其他人说话声
●背景音乐声
●动物叫声
●汽车滴滴声
●咳嗽声
●明显的电流声
3.说话人数量(即标注的语音内容是几个人说的)
●一人说话(主体说话人):只有一个人说话
●多人说话:有多个人说话(因为是客服语音,一般是两个人)
4.说话人性别
如果有多个人说话,则标第一个说话人的性别。
标注项:
●男
●女
5.是否包含口音
如果有多个人说话,则标第一个说话人是否有口音。
标注项:
●否:无口音
●是:有口音
⏹有口音是指说话人发音的拼音或声调和正确发音的不一致。
常见情形
包括:l和n不分,h和f不分,n和ng不分,e和uo不分,前后鼻
音,平翘舌,以及其他情况。
6.语音内容
如果两个人同时说话,以主体说话人声音大的为准来转写文字。
如果一条语音中,低于3个字有两个人同时说话,并听不清楚的,将听不清的部分用“[d]”表示。
如果一条语音中,低于3个字部分噪音太大,盖住说话人声音导致听不清的,将听不清的部分用“[n]”表示。
文字转写具体要求:
●语音内容必须和听到的语音完全一致,不能多字、少字、错字。
●阿拉伯数字要写成汉字形式,如“一二三”,而不是“123”。
注意区分“一”
和“幺”。
“二”和“两”
●语气词: 音频中说话人清楚地讲出的语气词,如“呃啊嗯哦唉呐”
等,要按照正确发音进行转写。
语气词除了“了不”没有口字旁,其他基本上都有口字旁。
●转写内容的完整性要与实际发音一致,不得删减;
⏹如发音为:我是北北京人;“北”字有重复现象,那转写的时候要
写成:我是北,北京人。
●英文比较复杂,转写的原则是:按字母读的情况(如缩写词,网址等)
一律大写,按词读的则小写,例如“APPLE”表示用户是逐个字母念的,“apple”表示用户按单词念的。
●明显的儿化音必须标注出来。