输入法数据标注规范标准

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

输入法数据标注规范
地址栏内输入标注系统地址:
一定使用谷歌浏览,并将其设置为默认浏览器
1.登陆界面:百度的账户一律实名认证不可修改个人信息及密码
严格保证账号安全做到一人一号实名认证,不得修改密码信息
如果导致账号丢失的账户内的时长及账户成本费用个人承担。

导致数据错乱造成损失的对其追究相应赔偿。

红框内显示为音频可点击播放暂停
蓝色框框选的部分就是我们要标注的内容了
标注信息,默认选择为第一个选项:
第一项: 判断是否为无效语音
例控制在15%左右,不要超过90%的有效数据,让公司一看就是刷F5出的数据。

质检判罚尺度
在标注无效数据时,除非这条语音是明显有效的,你标成无效算错,如果这条语音可有效也可无效,你标记成无效,质检不能判错。

这些无效数据的共性是文本不清晰,有歧义,文本是死扣出来的。

不要为了文本标注有语义,硬猜去写文本。

标成有效可能会错;标成无效,质检不能判错。

第二项: 噪音:☆☆☆
耳朵所能听到的文本【也就是当前说话人】以外的声音标注为有噪音。

说话以外的声音包括咳嗽声,打喷嚏,喷麦。

背景人说话,汽笛声、能听到我们就标注为噪音,反之安静。

第四项:语音内容;(文本)
1.结巴,语气口语词诸如嗯啊呀这些照录。

【一律带口字边,嗯啊呀喂哦。


2.”写成井号键“*”写星号键。

没有阿拉伯
数字,数字以汉字形式,如“一二三”,而不是“123”。

注意区分“一”和“幺”。

“二”和“两”。

3地名,古诗词,名人名字这些不能用同音字代替。

没有正常的逻辑思维能力也要有常识,没有常识的问度娘。

不行就F5刷新!
全角wifi半角 wifi
第五项:性别
能听出是儿童的标为“儿童”。

男就是男,女就是女,分不清性别的标男或女都行。

第六项:口音☆☆☆
发音不标准的普通话,跟标的这个字的字典发音不同,就标记口音。

因为地域不同而造成的普通话的差异不算口音,如同儿化音不算口音只因北方人说话都是差不多调调。

标注结束后,点击“标注提交”即可
工作量查询
➢点击右上角查询,将会出现工作量查询页面
查询起始时间是2015年5月1号至表单日期止
为了方便区分检查,把“有效语音”和“无效语音”显示成黑色和红色。

Ctrl+f 可通过搜索speech时间或者speech id来找到相应的条目。

注意表单speech日期时间会随着修改重置,speech id是最准确的语音终身编号,搜索不会出错。

标注员可以对自己已标注结果进行修改及重新提交。

➢点击退出,则用户退出标注系统,
需要特别提醒,用户不进行标注时,一定要点退出或者注销键退出标注系统。

精品文档资料,适用于企业管理从业者,供大家参考,提高大家的办公效率。

精品文档资料,适用于企业管理从业者,供大家参考,提高大家的办公效率。

相关文档
最新文档