音频数据标注规范_离线标注(1)

合集下载

输入法数据标注规范标准

输入法数据标注规范地址栏内输入标注系统地址:一定使用谷歌浏览，并将其设置为默认浏览器1.登陆界面：百度的账户一律实名认证不可修改个人信息及密码严格保证账号安全做到一人一号实名认证，不得修改密码信息如果导致账号丢失的账户内的时长及账户成本费用个人承担。

导致数据错乱造成损失的对其追究相应赔偿。

红框内显示为音频可点击播放暂停蓝色框框选的部分就是我们要标注的内容了标注信息，默认选择为第一个选项：第一项: 判断是否为无效语音例控制在15%左右，不要超过90%的有效数据，让公司一看就是刷F5出的数据。

质检判罚尺度在标注无效数据时，除非这条语音是明显有效的，你标成无效算错，如果这条语音可有效也可无效，你标记成无效，质检不能判错。

这些无效数据的共性是文本不清晰，有歧义，文本是死扣出来的。

不要为了文本标注有语义，硬猜去写文本。

标成有效可能会错；标成无效，质检不能判错。

第二项: 噪音：☆☆☆耳朵所能听到的文本【也就是当前说话人】以外的声音标注为有噪音。

说话以外的声音包括咳嗽声，打喷嚏，喷麦。

背景人说话，汽笛声、能听到我们就标注为噪音，反之安静。

第四项：语音内容；（文本）1.结巴，语气口语词诸如嗯啊呀这些照录。

【一律带口字边，嗯啊呀喂哦。

】2.”写成井号键“*”写星号键。

没有阿拉伯数字，数字以汉字形式，如“一二三”，而不是“123”。

注意区分“一”和“幺”。

“二”和“两”。

3地名，古诗词，名人名字这些不能用同音字代替。

没有正常的逻辑思维能力也要有常识，没有常识的问度娘。

不行就F5刷新！全角ｗｉｆｉ半角 wifi第五项：性别能听出是儿童的标为“儿童”。

男就是男，女就是女，分不清性别的标男或女都行。

第六项:口音☆☆☆发音不标准的普通话，跟标的这个字的字典发音不同，就标记口音。

因为地域不同而造成的普通话的差异不算口音，如同儿化音不算口音只因北方人说话都是差不多调调。

标注结束后，点击“标注提交”即可工作量查询➢点击右上角查询，将会出现工作量查询页面查询起始时间是2015年5月1号至表单日期止为了方便区分检查，把“有效语音”和“无效语音”显示成黑色和红色。

CASIA语音合成语料库存储及标注规范

CASIA语音合成语料库存储及标注规范1、本数据库包括的内容，分为陈述语句、疑问语句和短消息风格；每种语料都包含语音和文本两种数据。

其中陈述语句、短消息为一个女声播音员，疑问语句为四个播音员（两男两女）。

语料覆盖汉语的所有音节、diphone信息。

2、文件命名方式（1）文本文件所有陈述句的文本都放在“陈述句.txt”中；所有疑问句的文本都放在“疑问句.txt”中；所有短消息的文本都放在“短消息.txt”中；示例：1. 只好求别人替他介绍一个最轻松的工作.2. 我母亲和我都是耽于梦想的人.（2）语音文件语音数据的存储格式皆为16K采样16位的无压缩wav格式。

命名方式为：陈述句：c_序号.wav。

其中序号用数字表示，例如第一个语句就是c_00001.wav，对应着“陈述句.txt”文本中的一个句子。

疑问句：q_序号.wav。

其中序号用数字表示，例如第一个语句就是q_00001.wav，对应着“疑问句.txt”文本中的一个句子。

短消息：s_序号.wav。

其中序号用数字表示，例如第一个语句就是s_00001.wav，对应着“短消息.txt”文本中的一个句子。

（3）标注文件语料的标注分为声学层、韵律层和文本层共三层标注。

声学层标注包括语音的音素、音节边界、基频曲线、音强参数等。

声学层标注文件的命名方式为：c_序号.laa；q_序号.laa；s_序号.laa韵律层标注包括语音的韵律节奏边界等信息，文本层标注包括语句的读音、语法词边界、词性标注等信息。

韵律层标注和文本层标注共用一个文件，命名方式为：c_序号.lap；q_序号.lap；s_序号.lap3、语料标注内容及方式（1）声学层标注示例：SIL 28089 13590000到 d:aod 13590000 14730000ao 14730000 20370000 (14732000,…, )处 ch:uch 20370000 21500000u 21500000 23310000 (21532000,…, )找 zh:aozh 23310000 27770000ao 27770000 30570000 (27773200,…, )寻 x:vnx 30570000 34340000vn 34340000 36470000 (34360200,…, )SIL 37470000 47190000这里SIL表示静音，汉字字符后面紧跟的是其读音，如果读音中间有“:”，表示这是一个多音素字节，紧接在SIL以及音素后面的两个数字是其在语音中的起始和结束边界，单位为10-7毫秒。

客服录音数据标注规范(完整版)

客服录音数据标注规范（完整版）用谷歌浏览器（至少32.0以上版本）来标注。

其他浏览器或低版本谷歌浏览器可能出现部分文件播放不了的问题。

质量要求：●文字错误率：3%以内⏹注：文字错误率指语音内容标注错误，只要有一个字错，该条语音就算错。

●其他错误率：5%以内⏹注：综合错误率指：除了语音内容以外的其他标注项错误，只要有一项错，该条语音就算错。

客服语音内容说明：都是鲜百味公司和客户的电话语音，公司主营业务是卖海鲜，所以大部分内容都是关于海鲜（如大闸蟹）的购买、礼品券、配送等方面。

1. 当前语音是否包含有效语音无效语音（即不包含有效语音）的类型：●文件播放不了；●音频全部是静音或噪音；●许多地方听不清或者听不懂，例如，方言太重、噪音太大、音量过低等。

●两个人同时说话超过3个字（包括3个字）并且听内容不清楚的或者噪音声音盖住说话人声大于3个字（包括3个字）导致内容听不清楚的2.当前语音的噪声情况如果能听到明显的噪音（噪音指说话人正常说话外的其他声音），则选择“含噪音”，否则选“安静”。

常见噪音举例（但不限以下）：●其他人说话声●背景音乐声●动物叫声●汽车滴滴声●咳嗽声●明显的电流声3.说话人数量（即标注的语音内容是几个人说的）●一人说话（主体说话人）：只有一个人说话●多人说话：有多个人说话（因为是客服语音，一般是两个人）4.说话人性别如果有多个人说话，则标第一个说话人的性别。

标注项：●男●女5.是否包含口音如果有多个人说话，则标第一个说话人是否有口音。

标注项：●否：无口音●是：有口音⏹有口音是指说话人发音的拼音或声调和正确发音的不一致。

常见情形包括：l和n不分，h和f不分，n和ng不分，e和uo不分，前后鼻音，平翘舌，以及其他情况。

6.语音内容如果两个人同时说话，以主体说话人声音大的为准来转写文字。

如果一条语音中，低于3个字有两个人同时说话，并听不清楚的，将听不清的部分用“[d]”表示。

如果一条语音中，低于3个字部分噪音太大，盖住说话人声音导致听不清的，将听不清的部分用“[n]”表示。

音频信号标注文档

音频信号标注规范文档(v1.3)一、用Transcriber软件标注音频信号的基本流程：▪步骤1：准备a)使用命令[文件]\[新建标注] (Ctrl+n)开始一个新的标注，该命令同时会再要求使用者打开要标注的音频文件。

打开的音频信号的波形会显示在窗口的下方。

窗口的上方为标注的位置。

b)如果要更换音频文件，使用命令[文件]\[打开音频文件…] (Ctrl+a)，重新选择音频文件。

c)如果此音频文件有对应的同步脚本，在Transcriber软件外部，使用其他文本编辑器打开此脚本，方便标注过程。

▪步骤2：标注，标记时间点信息及背景信息d)播放音频信号文件，标记片断信息(section)、说话人切换信息(turn)和间隔点信息(breakpoint)，标注音频内容文本：a)点击工具按钮上的播放（Tab）和暂停（Tab）按钮来播放或暂停。

◆间隔点（breakpoint）b)用光标在信号波形图上选择下一个需要标记的时间点，回车（Enter）产生新的间隔点。

◆片断信息（section）c)如果此间隔点处是新的片断的开始，使用命令[片断]\[创建片断…] (Ctrl+e)来产生一个新的片断，并编辑此片断的属性：i.类别：记录(report)、垃圾(filler)、无标注(nontrans)；ii.主题(topic)。

d)点击片断标记的按钮可以修改此片断的属性，或者用[去除]命令删除该片断。

◆说话人切换（turn）e)一个新的片断产生时会自动在当前时间标记点增加新的说话人切换。

f)使用命令[片断]\[创建说话人切换…] (Ctrl+t)产生一个新的说话人切换，同时编辑其属性：i.是否两个说话人的语音交叠；ii.说话人信息：▪名字；▪类别：男(male)、女(female)、未知(unknown)；▪口音：无口音(native)、有口音(nonnative)；iii.说话方式：自发式(spontaneous)、朗读式(planned)；iv.保真度：高(high)、中(medium)、低(low)；v.信道：宽带(studio)、窄带(telephone)。

客服录音数据标注规范(完整版)

客服录音数据标注规范（完整版）用谷歌浏览器（至少32.0以上版本）来标注。

其他浏览器或低版本谷歌浏览器可能出现部分文件播放不了的问题。

质量要求：●文字错误率：3%以内⏹注：文字错误率指语音内容标注错误，只要有一个字错，该条语音就算错。

●其他错误率：5%以内⏹注：综合错误率指：除了语音内容以外的其他标注项错误，只要有一项错，该条语音就算错。

标注项：●男●女5.是否包含口音如果有多个人说话，则标第一个说话人是否有口音。

标注项：●否：无口音●是：有口音⏹有口音是指说话人发音的拼音或声调和正确发音的不一致。

常见情形包括：l和n不分，h和f不分，n和ng不分，e和uo不分，前后鼻音，平翘舌，以及其他情况。

6.语音内容如果两个人同时说话，以主体说话人声音大的为准来转写文字。

如果一条语音中，低于3个字有两个人同时说话，并听不清楚的，将听不清的部分用“[d]”表示。

如果一条语音中，低于3个字部分噪音太大，盖住说话人声音导致听不清的，将听不清的部分用“[n]”表示。

中文标注任务规范

好数据
内容与音频一致
无需操作完成本条标注，点击“下一句”
内容与音频不一致
内容栏文本根据声音文件修改一致，点击“下一句”
坏数据
无
点击“标记不可用”或“配置的快捷键”，继续标注
3.
3.1内容文本要与真实音频发音完全一致，不可增减字、错字；人名、小区名、道路名无法确定用字时，录入准确发音的常用字；
3.2真实发音为“我去哪哪里呀”，“哪”字有重复，就要忠实地录成“我去哪哪里呀”。另由于口音或个人习惯导致的音变，按普通话标注音录入；
4.1音频无主发音人类型：
纯环境噪音；两个人对话、纯人声噪音；纯音乐、说唱；纯人声非语音，例如笑，打喷嚏，咳嗽等；纯机器人的声音；
4.2音频有主发音人类型：
1)语音波形不完整现象指语句首字音或尾字音被截，打开音频前后无静音段，从听感上首字音或尾字音不完整，此为截断数据；
2)发音人语音不清晰类型：例如方言、口音严重，除英语以外其他外语；
3.3多音字或生活中有不同发音的字，也按普通话标注音录入。例如，“办公室”的“室”，有人说成shǐ，有人说成shì，都录成“办公室”；
3.4对于儿化音，也要忠实于发音录入。例如，发音是“哪儿”，就录成“哪儿”，没有发出儿化音的，就录成“哪”；
3.5发音停顿录入文本连续，不需要空格或添加符号,英文缩写除外；例如，“what’s your name”中的撇号必须是英文状态下录入，特殊符号读法“#”录入“井号键”；“*”录入“星号键”；
数据分类子分类标注方式群音信息服务有限公司2014日星期日好数据内容不音频一致无需操作完成本条标注点击下一句内容不音频丌一致内容栏文本根据声音文件修改一致点击下一句坏数据好数据文本录入标准31内容文本要不真实音频发音完全一致丌可增减字错字

电话信道音乐搜索数据标注规范

电话信道音乐搜索数据标注规范
一、内容栏
1.内容栏里面文字需要修改准确，
2.发音人说话只说了一个汉字（是音乐）的需要转写出来
3.歌手名/歌曲名/歌手名或歌曲名/歌手名或歌曲名前后加了前后缀的都需要转写出来
4.专辑名称，电视剧的主题曲，音乐种类（DJ音乐）需要转写出来
5.歌曲名与歌手名不一致也需要转写出来
6.发音人只说了电视剧名称且该剧不是歌曲名需要转写出来。

7.发音人说完话后，低噪音持续达到1.5秒的，在标签栏加标低噪音标签
8.模棱两可的语音按照正确语意来标注，（如张杰和张姐，标注张杰）
9.英文字母大写不要空格，单词小写，单词与单词之间空一格，字母与单词之间需要空一格，汉字与字母（单词）不用空格
PS:做音乐数据一定要上网搜索，最好在百度音乐上搜索
二、拼音栏不用管
三、标签栏不用标注
四、坏数据
1）✧左右截断/发音人的声音中途被截/信号差的声音/与音乐无关；
2）✧整句纯环境噪音，纯方言，纯人声噪音；唱出来的或拼读或歌词内容；
3）✧说话只说一个字母；说英文听不清或听不懂的；
4）✧整条音频声音异常、回音、喷麦严重、说话不清楚、结巴严重，虚着嗓子说话的；5）✧发音人声音小无法听清内容、发音人语速极快听不清内容、；发音跑偏厉害
✧音频整句是系统播报音即机器人的声音，例：公交车报站音、银行叫号音，语点6）
声音等；
7）✧歌手名或歌曲名不完整（如：刘德德华、新娘不是不是我）
✧人声噪音/环境噪音/设备噪音/人声非语音（笑、哭、咳嗽、清嗓子等）/背景音8）
乐等声音过大
9）✧除英语以外的其他外语（如日语、韩语、泰语等），口音严重。

数据标注项目二语音数据标注教案

项目2 语音数据标注实训教案小结与作业时间控制（分钟）一【课堂小结】（1）回顾上课前的学习目标，对本节课知识点进行总结。

（2）布置随堂练习，检测学生掌握情况。

5二【课后作业】（1）什么是语音数据标注。

（2）语音数据标注的基本规范。

（3）语音数据标注的流程。

教学后记项目2 语音数据标注实训教案（7）点击【保存】按钮，保存当前编辑完成的音频标注模板。

在操作中可以进行模板预览。

三【学生实训】布置随堂练习，检查学生掌握情况，并对学生出现的问题进行解决。

15四【新建音频标注任务，导入数据】（1）点击AILAB数据标注平台左侧的【任务管理】按钮，进入任务管理页面，点击【添加新任务】按钮。

（2）进入任务信息窗口，填写标注工具为“智能家居语音数据标注”，任务名称为“智能家居语音数据标注”，数据描述内容自定，最后导入文件，要求上传格式为zip，最大不超过500M。

（3）点击【下一步】按钮，进入配置任务信息页面，填写配置任务的相关信息，点击【完成任务创建】按钮。

（4）点击【完成任务创建】按钮后，显示任务创建成功提示信息。

（5）点击【开始分配】按钮，将标注任务分配给标注员，点击【导入成员】按钮，导入标注员信息后，点击【分配】按钮分配任务，也可以批量分配任务量或批量移出，如下图所示。

10五【学生实训】布置“导入数据”随堂练习，检测学生掌握情况。

10项目2 语音数据标注实训教案如图所示。

（3）在音频容器中标注员选择要标注的控件和内容，在本例中，单选框“是否有噪音”标注为“有”，复选框“语言”标注为“中文”，在音频容器中可以选择需要标注的音频部分，完成后在音频分段标注控件中可以显示截取开始和结束的时间，标注员标注出音频选择部分的文字内容，该任务标注完毕，点击【保存】，即可看到标注结果，最后按【提交】按钮。

如图所示。

三【学生实训】布置“数据标注”随堂练习，检查学生掌握情况，并对学生出现的问题进行解决。

20二【检查数据】（1）数据标注任务结束后，使用“应用管理员”账号登录AILAB数据标注平台，点击任务管理模块，分配检查员任务。

音频资料描述元数据著录规则

2.4
元素/修饰词的说明事项 .......................................................................................... 5
3 细则...........................................................................................................................................5
3.3
主题........................................................................................................................... 7
3.4
描述........................................................................................................................... 9
3.15 权限管理.................................................................................................................35
3.16 版本.........................................................................................................................35

自然对话语音标注规范

标注内容两个人的自然对话。

每组对话45分钟左右，每组对话可能有一个或分成多个wav文件保存（文件名以ZXXXX开头，例如Z0001**.wav表示属于第1组对话）。

质量要求●文字错误率：3%以内⏹注：文字错误率指语音内容标注错误，只要有一个字错，该条语音就算错。

●其他错误率：5%以内⏹注：综合错误率指：除了语音内容以外的其他标注项错误，只要有一项错，该条语音就算错。

标注工具praat.exe，输出textgrid格式的标注结果（TextGrid文件）标注要求根据不同说话人加时间戳（每个片段不超过10秒，如果说话人连续说了10秒以上，可按句子截成多个10秒以内的片段）并标出说话人的文字内容●无效语音段写为W：听不清的、抢话的、噪音大、静音的语音片段均被认为无效●语音内容必须和听到的语音完全一致，不能多字、少字、错字。

●阿拉伯数字要写成汉字形式，如“一二三”，而不是“123”。

注意区分“一”和“幺”。

“二”和“两”●标注中只能含有中文、英文以及常用标点符号（空格、逗号、句号、问号）●语气词: 音频中说话人清楚地讲出的语气词，如“呃啊嗯哦唉呐”等，要按照正确发音进行转写。

语气词除了“了不”没有口字旁，其他基本上都有口字旁。

●转写内容的完整性要与实际发音一致，不得删减；⏹如发音为：我是北北京人；“北”字有重复现象，那转写的时候要写成：我是北，北京人。

●英文比较复杂，转写的原则是：按字母读的情况（如缩写词，网址等）一律大写，按词读的则小写，例如“APPLE”表示用户是逐个字母念的，“apple”表示用户按单词念的。

●明显的儿化音必须标注出来●句子间要用标点符号隔开。

例如“就把这事跟我妈说了我妈也挺生气的就找来我舅其中有个哥是我舅家的孩子”应写为“就把这事跟我妈说了，我妈也挺生气的，就找来我舅。

其中有个哥是我舅家的孩子”上述文字内容中的特殊标记●*：表示人发音但无法标注语音（有一两个字听不懂或听不清）●如果有噪音，则需在噪音开始的位置插入噪音符号。

语音数据标注规范V2.1.7【3项】_20141210(定稿)

语音数据标注规范V2.1.7【3项标注】2014-12-111、标注平台使用说明操作系统：操作系统是 XP以上系统都可以。

浏览器：请使用IE浏览器和搜狗浏览器步骤：(1) 登录网址：http://182.48.116.149:8088/index.php/root/assigntask.html(2) 输入用户名及密码登陆后，先安装控件，请点击vs2008运行库。

（注意安全卫士先退出）(3) 点击“标注中”查看任务含新任务和被打回任务(4) 在任务列表中，点击tagging，进入标注页面，下载安装控件进行标注说明：1)做完一句，直接点击“下一句”，系统自动保存，做完最后一句，点击“保存”按钮。

2)临时有事，或系统突然中断，重新登录后，系统将自动跳转到上次标注的位置；3)当前账号标注完成后，可以点击“上一句”和“下一句”，对标注结果进行检查，确认没有问题后，点击提交验收；注意：提交验收后将不能再更改。

4)每人有一次修改机会，共可提交2次。

(5) 在任务统计中，查看验收结果快捷键：键盘上的，可播放选中部分的声音。

键盘上的和可实现上一句和下一句的切换。

2、标注规范共标3项（文本、无效、性别）文本正确率：95%其它（无效+性别）正确率：95%2.1是否为无效语音无效：1、主体人声音的前面、或后面、或中间：有一段安静或噪声等非人声，长度在2秒以上（宽条是0.3秒）。

【注意整句无人声的不是无效】2、声音是转格式转错的。

无效语音，直接打勾，文本不用修改。

有效：其它都是有效2.2 性别2.2修改文本按钮显示：标注文本，目的是用普通话的耳朵把听到的“普通话或带口音的普通话”标成普通话文本，普通话的耳朵听不懂“方言”时，不要将“方言”翻译成普通话文本。

标准普通话与带口音的普通话对照表：。

音视频库著录标引规则

音视频库著录标引规则
一、音视频库的字段设置
音视频库以收录关于徐州的各类音频视频资料为主要对象。

针对本库的资源内容特点，参照CALIS的相关标准，数据库字段设置覆盖15个DC元数据，共27个字段，具体字段设置如下表。

二、音视频库著录标引规则
参见“地图库”，个别字段著录细则说明如下：
1.名称
通常指音视频资料的正题名，包括对正题名的解释性题名。

根据在源文献中出现的形式著录；源文献中地图没有命名者，可根据内容自拟名称，不必加[]；个别易引起混淆或表述不清题名可自拟标注性说明。

著录范例：题名为“文明养狗”的徐州方言音频资料，可著录为：
名称：方言:文明养狗
2.ISRC
指音视频资料出版发行的标准号。

电话长音规范

一、标注员行为规范百度语音标注是百度标注员使用标注工具人工对百度语音数据详细信息进行标记的过程，标注员需要严格遵守百度的各项规章制度，同时严格执行以下的标注员行为规范：.严禁下载、拷贝、传播标注语音，如出现标注语音泄漏的情况，我们将追究相关人员的责任；.杜绝一切不认真、不负责任的标注行为；.标注中出现的问题应及时反映；.标注系统的用户名，密码只限标注员本人使用，请严格保密。

二、语音标注规范建议：客服语音和用户语音声音分开标注三、标注任务及规则介绍（一）音频切分切分出来的音频分为有效和无效，无效需对应规则分别标注<sil> <sys>标签。

切分点要落在说话停顿处，找音频波形有明显静音段的地方切分。

第一项: 当前语音是否包含有效语音.判断是否为有效或无效语音的原则：.1、如果背景有人说话声音比当前说话人小，可以作为背景噪音，则只标注主说话人声音。

.2、如果声音极小，小到几乎听不到，与当前对话内容无关，则无需标注，判断为静音。

.3、只有一个字或两个字的“嗯、啊、喂、你好”等等，表示肯定的词语，需正常标注。

.4、如果一个人唱歌，则无需标注。

.5、如果两个人同时说一个词，说话完全重叠，内容可听清，则需正常标注。

.6、如果两个人说话有重叠部分，这一段放在一起切分，文本框中标记为<sil>，不进行转写。

.7、两个人一前一后顺序说话，没有重叠，正常标注。

.8、音频中实在听不懂说话人说的话，定义为无效音频，切分后标注为<sil>标签。

.9、系统提示音（比如：幺零零零八号坐席为您服务）标注符号<SYS>，系统音提示内容不需要标注出相应文本。

只需要在文本层写上<SYS>，如果有用户或者客服的声音与系统提示音重叠，直接忽略，只标注一个<SYS>第二项：语音内容.直接输入语音内容。

根据自己听到的内容进行输入。

具体规则如下：.1、语音内容必须和听到的语音完全一致，不能多字、少字、错字。

音频信号标注文档

打开的音频信号的波形会显示在窗口的下方。

窗口的上方为标注的位置。

b)如果要更换音频文件，使用命令[文件]\[打开音频文件…] (Ctrl+a)，重新选择音频文件。

c)如果此音频文件有对应的同步脚本，在Transcriber软件外部，使用其他文本编辑器打开此脚本，方便标注过程。

◆间隔点（breakpoint）b)用光标在信号波形图上选择下一个需要标记的时间点，回车（Enter）产生新的间隔点。

d)点击片断标记的按钮可以修改此片断的属性，或者用[去除]命令删除该片断。

◆说话人切换（turn）e)一个新的片断产生时会自动在当前时间标记点增加新的说话人切换。

语音标注规范_20150706

语音转写规范一、语音转写总体目标针对给定的语音片段，人工判断其是否为有效语音，对于有效语音，给出其中语音的起止时间段、标准的文本标注以及语音本身的相关属性，对于无效语音直接抛弃。

操作说明1.下载并安装chrome浏览器（必须条件）；2.用给定的账号和密码登陆网址http://182.92.174.146/index.php?c=login3.登陆成功后，点击菜单栏“申请任务”，如果有任务的话，便可以点击“项目名称下”给定的项目进入，如下图：4.同意保密协议开始工作后，工作界面如下所示：操作顺序分为五步：1首先判断声音的有效性，如果有效的话，再继续进行下面步骤；如果声音无效，则只需选择无效原因即可（选中“无效声音”后，自动下一句）。

2在上图1所框波形中，通过鼠标拖拽的方式，标记出有效声音的起止时间点；3对有效声音进行“性别，底噪，口音、儿童音”四种属性的标记；4两条红色竖线内的音频即为需要转写的音频段（我们把这一段称为有效声音，转写校对时只需要转写校对有效声音段内的内容）转写内容写到下面文本框内。

5需要加标签的地方加上标签，单击即可加入；6标记完毕后，点击“保存继续下一句”7点击1of150处的箭头的话，本句的标注结果是不保存的，只是浏览8做到每个任务包的最后一句时，波形图的右上方会显示“提交“按钮，点击即可提交任务。

注：账户中如果存在没有提交的任务，则无法领取新任务。

先校对文字，再点生成拼音。

二、有效语音判断标准单个发音人的清晰普通话语音是标注中需要处理的有效语音；对于带有一定口音，导致发音不标准的普通话以及由于发音习惯，导致个别发音改变的普通话，都属于有效语音；对于背景存在噪声，但不影响说话内容辨识的语音，也属于有效语音；其它情况的语音都属于无效语音，直接抛弃，无需进行任何标注，典型的无效语音有：1.音频中无人说话，只有背景噪声或音乐等。

2.音频背景噪声过大，影响说话内容辨识。

3.语音不是普通话发音，如广东话、唱歌、其它语言（普通话中夹杂少量英语情况除外）等。

语音标注规则

语音标注规则
语音标注是指对语音数据进行标记、注释和标定，以便于后续的语音处理与分析。

语音标注的目的在于将语音数据转化为计算机可处理的形式，进而开展语音识别、语音合成、语音转换、语音分析等相关研究工作。

语音标注的意义在于提高语音处理的准确性和效率，促进语音技术的发展和应用。

二、语音标注的基本原则和标记要求
1.基本原则：语音标注应遵循规范化、标准化和准确性的原则，保证标注数据的一致性和可比性。

2.标记要求：语音标注应包括以下方面的标记：
（1）音素标记：对语音信号进行分段，标记每个音素的开始和结束时间。

（2）语调标记：标记句子的语调轮廓和语调边界。

（3）语音事件标记：标记语音事件的发生时刻、持续时间、类型等信息。

（4）语音质量标记：标记语音的质量、清晰度、流畅度等信息。

三、语音标注的具体方法和工具
1.语音标注的具体方法包括手工标注和自动标注两种方式。

手工标注是指依据标注规则和标记要求，手动标注语音数据。

自动标注是指利用计算机技术和相关算法，对语音数据进行自动标注。

2.语音标注的具体工具包括Audacity、Praat、ELAN等多种工具。

这些工具可以实现语音数据的录制、切割、标记、编辑、修改等操作，
支持多种音频格式，具有易用性和高效性的特点。

四、语音标注的应用领域和前景展望
语音标注的应用领域包括语音识别、语音合成、语音转换、情感识别、语音翻译等多个领域。

未来，随着人工智能、自然语言处理等技术的发展和应用，语音标注将在更广泛的领域得到应用，推动语音技术的不断创新和发展。

录音标注新手入门手册

作训练语音中标注）。
可编辑ppt
8
二、标注层级
标注规范讲解
中文层（chinese）
1、标注语音对应的文本和噪音标识; 2、中文文字要与语音一致
标注层级
说话人层 (speaker)
1、标注主说话人的角色、性别和身份。 2、客服用A表示，客户用B表示； 3、用“M、F”+编号1或2，分别表示男 (male)、女(female)性别；性别相同时，用数字按编号1、2来区别身份。如：AF1、BF2……（两女声），AM1、 BM2……（两男声），AF1、BM1……（一男一女）
背景有严重噪音时（听感上达到说话声的30%以上，为严重噪音）
将语音文本加上[]标记，其他同上。
可编辑ppt
11
图片案例
可编辑ppt
12
标注规范讲解
听不清的语音片段
1、将这个词或句单独切段，标记为(())。 2、说话人层也标记相应的信息。
特殊语音片段
两个主说话人同时说话, 音量相当且
内容有意义时
风声和干扰声等）
③文本方面：不能听懂的方言类语音，如某些南方方言等；经常性听不清，不能准
确写出文本的语音；无贡献文本的语音（如：文本只有“喂，你好”这几个字的语音）；整段语音中50%以上文本为脏话的语音。
④其他方面：回声大的语音（听觉上出现双字的语音）；过载严重的语音（音量过
大导致截幅严重的语音，这里指全段语音的每字都严重截幅的语音；稍微截幅的要算
情绪层 (emotion)
标注该段语音的语速、情绪
可编辑ppt
9
图片案例
可编辑ppt
10
标注规范讲解
三、标注规范细则
背景无噪音或有轻微噪音时

数据标注标准

数据标注标准是指在进行数据标注过程中的一系列约定和规范，确保标注结果的一致性和可靠性。

以下是一些常见的数据标注标准：
1.一致性：所有标注人员需要遵循相同的标注规范和标准，以保证数据标注的一致性。

标注规范应明确标注的目的、要求和标注方法，确保不同标注人员在相同的情况下能够得到相似的结果。

2.清晰度和明确性：标注规范应当清晰明确，确保标注人员能够正确理解并遵守标注要求。

标注规范应明确标注对象、标注类别、标注方式等关键要素。

3.细致度和准确性：标注人员需要细致入微地进行标注，尽可能精确地反映数据中的信息。

标注结果应当准确且具有可重复性，以确保数据的科学性和可用性。

4.可扩展性：标注规范应具备良好的可扩展性，能够适应标注任务的不同需求和变化。

如果标注规范需要调整或改进，应确保变更对标注结果的影响最小化。

5.文档化和记录：标注规范和标注过程的所有细节都应该进行文档化和记录。

这有助于标注的追溯和质量控制，同时也为后续分析和研究提供依据。

6.质量控制：在数据标注过程中，应采取质量控制措施，包括检查、复审和评估等。

定期对标注结果进行统计分析，检验标注人员的一致性和准确性。

在实际数据标注中，具体的标注标准和要求会因不同任务和数据类型而有所差异。

因此，在制定数据标注标准时，需要根据具体情况进行调整和优化，以确保标注结果的质量和可应用性。

同时，持续的培训和沟通也是保证标注人员理解和遵守标注标准的重要手段。

数据标注：常见语音数据异常

常见语音数据异常
切音
在语音录制过程中，由于过早结束或过晚开始录制而导致个别字被截断，从而表现出发音不完整，此现象称为 “切音”。
常见语音数据异常
吞音
在说话人发音时，由于个别字的声母或韵母未完全发音而表现出的发音不完整，此现象称为 “吞音”。
常见语音数据异常
喷麦
在说话人发音时，由于距离麦克风太近而表现出的录入语音不清晰，听起来有明显“噗噗”的声音，此现象称为“喷麦”。
常见语音数据异常
重音
在说话人发音时，语音中出现两个或多个说话人，他们的音量大小相近且有大段重叠，无法分清主次，此现象称为“重音”。
常见语音数据异常
空旷音
在进行语音合成等研究时，往往对语音数据质量要求极高，特别是语据异常
常见语音数据异常
在语音数据标注的过程中，语音数据的有效性判定是至关重要的一步。在数据标注过程中，需要对这些异常语音数据加以鉴别并挑选出来，保证标注数据的整洁性。
常见语音数据异常
丢帧
在语音录制过程中，由于音频设备的问题而表现出的发音卡顿，它常出现于整句话的句中，此时，在做有效语音判定时该句话即被判定为无效语音。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

腾讯音频标注规范
一、标注内容
本次针对语音标注以下内容：
有效性判定：有效，无效。

有效则进行后续标注。

无效的判别标准：
1）无法听清音频中的内容（不论部分还是全部）
2）音频为与普通话差异较大的方言，如：粤语、上海话、闽南语等
3）音频中出现了除了中文、英文之外的语言
4）音频中无人声
5）音频中全部都是歌曲、电视声等
6）背景人声音量大于主说话人1/4的
7）音频中内容仅有一个汉字或一个英文单词
8）音频中内容仅有一些语气词，例如：嗯，啊，哈
对于有效的音频：
进行分段标注：分段的标准：两个语音段中间无发音时长大于等于1秒
PS：分片后，某个分片内仅有一个汉字或一个英文单词，此分片不进行标注。

每个分段标注内容：
1）标注文本：语音对应的文本
2）性别、儿童：发音人的性别，发音人是否为儿童
3）语言：中文、英文、中英
4）是否有口音：发音人发音是否有口音
5）是否有变音：发音人是正常人声，还是娱乐性质的变音
6）发音边界：按照规定标记处发音的起点和终点（毫秒）
二、标注内容具体说明
1、标注文本
A）正常标注中，
1）文本中不能出现除规定使用的标点符号（”_”（英文短下划线）、“ ”（英文空格）、“’”（英文单引号））之外的符号（如换行，逗号等），可以出现空格2）标注文本以发音人实际发音为准
a）缺字或者多字时，不用进行人工纠正（即加字或者去除字）
b）儿童发音有变音、走音的情况下，请按照正确发音标注文字（例如：
音调上有变化）
3）文本中出现英文时，字母全部大写，在英文停顿处，使用符号”_”（英文中的下划线，不需要引号）来进行标注。

如：
NBA，标注为N_B_A
I love you 标注为I_LOVE_YOU
我爱China 标注为我爱CHINA
我要听ABC 标注为我要听A_B_C
4）出现语气词，尽量选用带“口”字部首的字
5）阿拉伯数据标注为中文，
如1998年：标注为：一九九八年
数字24标注为：二十四
6）出现无法辨别的词汇，如“你”“您”的时候，取符合语境的字即可
7）出现能确定发音，无法确定字的情况，如果是歌名、专有名词、地名等，可以百度一下，只要真实出现过即可；如果还是无法确定具体字，可以使用
同音字代替（要是同音字发音和音调都完全相同的）
8）儿化音，不标注“儿”，例如，发音为“听歌儿”，标注为“听歌”
9）如果音频开始、结尾处部分发音出现截断的情况，若可以听出截断发音，则进行标注，若听不出截断发音（需要靠猜测或者推测）则发音边界标注时，
将截断的音刨除，文本标注也只标注发音边界内的内容。

10）出现多人说话的场景
a)当其他人说话声音小于主发音人音量1/4时，其他人发音视为背景噪
声，不进行标注。

2、性别、儿童
标注为“男”、“女”、“儿童”（如果出现无法辨别的中性声音，请标注为女）
多发音人以主发音人为准。

3、语言
标注为
中文：全部都是中文
英文：全部都是英文
中英：中英文混合
4、是否有口音
标注为“是”，“否”，无法确认时，请标注为“否”
5、是否有变音
标注为“是”，“否”，无法确认时，请标注为“否”
6、发音边界
标注句中发音部分的起点、终点，精度到毫秒，如[1.234][3.456]（使用英文的中括号，两个为一组），
三、交付具体说明
1、每批数据交付两个txt文本，一个为有效标注文本，一个为无效标注文本
样例如下（中间分隔符为“\t”，换行统一使用“\n”）：
PS：同一个音频多个片段，每个片段一行，名字不用单独处理，发音边界不同即可。

对于试标结果的格式，我这边要说面一下
1）所有文件、文件夹，只能出现英文和“_”，不要出现中文及
其他格式
2）标注内容按照标注规范中要求的顺序进行排版
2、文本编码要求为utf-8
3、要求句准确率大于95%
4、有效时长统计方法：
有效时间段：通过有效标注的发音边界来取时间段，
最后的有效时长：为全部有效发音段的时长和。

具体如下：
1）以人有意义发音的开始、结束点为计时起点和终点
2）起点和终点距离人发音，若无法精确判定，可以有100ms 左右的静音（最长不超过200ms），此处静音计入有效小时
3）人发音过程中，不能出现超过1s 的停顿，若有超过1s以上的停顿，则停顿的时间不算入有效时长
4）数据中小于等于2个字和全部是语气词的音频，总时长小于1小时，多出部分为无效数据
5）若背景要求为安静，出现明显噪声的总时长不能多余0.5小时，多出部分为无效数据。

音频数据标注规范_离线标注(1)

输入法数据标注规范标准

CASIA语音合成语料库存储及标注规范

客服录音数据标注规范(完整版)

音频信号标注文档

客服录音数据标注规范(完整版)

中文标注任务规范

电话信道音乐搜索数据标注规范

数据标注 项目二 语音数据标注教案

音频资料描述元数据著录规则

自然对话语音标注规范

语音数据标注规范V2.1.7【3项】_20141210(定稿)

音视频库著录标引规则

电话长音规范

音频信号标注文档

语音标注规范_20150706

语音标注规则

录音标注新手入门手册

数据标注标准

数据标注：常见语音数据异常

数据标注项目二语音数据标注教案