数据标注实用教程(笔记之一)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据标注概述(笔记)
人工智能算法能学习的数据必须通过人工逐一标注。
所以,数据标注就成为目前大部分人工智能算法得以有效运行的关键环节。
标注的数据量越大,算法的性能就越好。
数据标注是对未处理的初级数据,包括语音、图像、文本、视频等进行加工处理并转换为机器可识别信息的过程。
原始数据一般通过数据采集获得,之后的数据标注相当于对数据进行加工,然后输送到人工智能算法中完成调用。
数据标注产业主要是根据用户或企业的需求对图像、语音、文本、视频等进行不同方式的标注,从而为人工智能算法提供大量的训练数据,以供机器学习使用。
数据标注的基本流程包括四个环节:数据采集,数据清洗,数据标注,数据质检。
数据采集:比较常见的是通过互联网获取公开数据集与专业数据集,公开数据是政府、科研机构等对外开放的资源,获取比较简单。
专业数据集比较耗费人力和物力,有时需要通过人工采集或购买获得,有时也需要通过拍摄、录制等自主手段获得。
数据清洗:在完成数据采集后,并不是每一条数据都能够直接使用,有些数据是不完整、不一致、有噪声的脏数据。
这些数据需要通过数据预处理,才能真正用于问题的分析和研究中。
在数据预处理过程中,对脏数据进行数据清洗是重要的环节。
在数据清洗时应对所采集的数据进行筛选,去掉重复的无关的数据。
针对数据集中存在的异常值、缺失值进行查缺补漏。
同时,平滑噪声数据。
最大限度地纠正数据的不一致性和不完整性,将数据统一成适合标注且与主题密切相关的,待标注数据集。
数据标注:完成数据清洗后即进入数据标注环节,数据标注员负责标注数据。
可采用分类标注、拉框标注、区域标注、标点标注,或其他标注方法进行数据标注。
数据质检:无论是数据采集、数据清洗,还是数据标注,人工处理数据的方式,并不能保证完全正确。
为了提高数据输出的准确率,数据质检成为重要的环节。
而最终通过质检环节的数据,才算是真正完成了数据标注工作。
数据标注的分类
根据待标注数据类型一般分为文本标注、音频标注、图像标注、视频标注。
文本标注:文本标注主要是用于自然语言处理(Natural language processing,NLP)。
自然语言是人类智慧的结晶。
NLP也是人工智能领域最困难的问题之一。
因为自然语言表达的意思,与语境有密切的关系。
同样的一句话,语境不同,传递的信息也会大相径庭。
目前,NLP的应用领域非常广泛,如客服行业、金融行业、医疗行业等。
文本标注有分词标注、词性标注、情感标注、意图识别、实体标注等。
音频标注:音频标注主要用于语音识别(Automatic speech recognition,ASR)和语音合成(Test To speech, TTS)。
ASR主要是将语音转化成文字。
TTS主要是将文字转化为语音。
目前较常见的应用场景有智能客服、电话机器人、IPhone的siri等。
音频标注方式有语音转写、
语音情感标注等。
图像标注:图像标注主要用于为计算机视觉的相关算法提供数据集,人脸识别、自动驾驶、车牌识别及医疗影像的识别等都会用图像标注。
图像标注方式有矩形框标注、多边形标注、打点、OCR识别、语义分割、图像审核分类等。
视频标注:视频标注目前的解决方案,大部分是通过对视频取帧后进行图像标注,然后再进行合成训练。
视频标注,目前的应用场景也逐渐增加,如监控视频、自动驾驶、智慧交通等。
视频标注的方式基本和图像标注一致。
数据标注行业竞争加剧。
数据标注行业是一个次新行业,目前已经进入快速增长期。
从微观角度来看,数据标注行业市场规模不断扩大,意味着会有更多参与者加入,同时也意味着潜在市场竞争加剧。
由于数据标注行业的专业门槛较低,又过度依赖人力,导致数据标注行业内部云集了大量中小型数据服务供应商。
所以在未来几年内数据标注行业将会迎来洗牌期。
从宏观角度来看,随着人工智能商业化落地进展的加快,人工智能企业对于数据服务供应商也提出了新的要求,高质量、精细化、定制化的数据集,越来越受到数据需求方的青睐。
这对于数据服务供应商的技术实力、精细化管理能力、流程把控能力等都带来了新的考验。