人工智能基础数据服务行业观察专题四

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

人工智能基础数据服务行业观察

2020 新基建系列专题

核心摘要

新基建政策下,人工智能被列入国家重点建设领域。伴随着人工智能产业的发展,国内逐渐形成了以数据采集及标注为核心的基础数据服务行业。

我国基础数据服务行业发展尚处在初期阶段,中小型数据服务商正享受着短期的“劳动力密集型需求红利”,占据着基础数据服务市场的主要份额。人工智能技术向落地应用阶段发展,将给基础数据服务行业格局带来重大变革,品牌数据服务公司或将通过AI技术及垂直化服务能力重新打造行业竞争壁垒。

本文对基础数据服务行业的概念、行业发展现状、市场格局等多维度展开分析,深入探讨基础数据服务行业发展未来及市场机遇。

目录

Contents

一、人工智能基础数据服务的概念及应用场景分析

1.人工智能基础数据服务概念 (4)

2.人工智能基础数据服务具体应用场景分析 (5)

3.非结构化数据应用价值挖掘派生数据采标需求 (7)

二、人工智能基础数据服务行业发展现状

1.人工智能基础数据服务行业发展阶段 (9)

2.人工智能基础数据服务行业规模及细分市场结构 (10)

3.人工智能基础数据服务行业产业链概况 (11)

4.以中小型数据供应商为主的行业供给格局现状 (12)

5.各地开展基础数据服务项目寻求人工智能行业发展突破口 (13)

三、人工智能基础数据服务行业未来趋势及机遇分析

1.基础数据服务需求将向垂直化方向过渡 (15)

2.对标美国成熟市场,我国市场需求或逐步向自然语言类需求渗透·16

3.品牌数据服务商或将主导行业格局 (17)

4.人机协作或为行业发展趋势 (18)

人工智能是新基建的主要建设领域之一,其产业链包括基础层、技术层、应用层。人工智能基础数据服务属于AI产业链的基础层,以数据采集和标注服务为主,还包括数据清洗、抽取等服务。数据是人工智能算法的“燃料”,亦是人工智能实现其技术应用落地的必要条件。

1.人工智能基础数据服务概念

基础层

技术层

应用层

算力

GPU+CPU TPU/FPGA ······

AI 计算架构

AI芯片

数据

数据采集数据标注·····

·

数据处理

数据存储/数据挖掘

算法

监督式学习深度学习······

机器学习算法

早期算法

计算机视觉图像识别人脸识别······

视觉识别

视频识别

语音识别声音识别声纹识别······

语音合成

语音交互

自然语义处理信息理解文字校对······

机器翻译

自然语言生成

AI+汽车

AI+金融

AI+安防

······

2.人工智能基础数据服务具体应用场景分析

人工智能基础数据服务主要为数据采集和数据标注两大类服务。在具体应用场景下,数据采集及数据标注服务均可根据计算机视觉、语音识别、自然语言处理三大类进行划分。

在数据采集层面,计算机视觉类别包含图像抓取、图像采集、人像采集、视频采集、自动驾驶道路采集等。语言识别包含唤醒词采集、ASR语音采集、TTS语音采集等。自然语言处理主要包含网页抓取、常用对话信息采集等。

在数据标注层面,计算机视觉类别包含了图像语义切割、图片分类、图片框选、人脸骨骼打点、3D点云、2D3D融合标注、连续帧标注、视频分类、视频内容提取等。语音识别类别包含了语音清洗、语音转写、语音切分、因素标注等。自然语言处理类别包含了文本清洗、文本分类、文本富集、OCR转写、情感标注、NLP标注等。

人工智能基础数据服务

数据标注

数据采集

图像抓取图像采集人像采集

····

··

图像语义

分割

人脸骨骼

打点

图片分类

····

··

计算机视觉

唤醒词

采集ASR语音采

集TTS语音采

····

··

语音清洗

语音转写

语音切分

····

··

语音

识别

网页抓取

常用对话信息采集····

··

文本清洗

文本分类

NLP标注

····

··

自然语言处理

图像标注案例

图像语义分割案例

图像分割前

图像分割后

脸部标注效果车辆行人标注效果

一、人工智能基础数据服务的概念及应用场景分析

3.非结构化数据应用价值挖掘派生数据采标需求

信息化时代,数据作为一种新的生产要素发挥着越来越重要的作用。PC 、移动互联网的发展,带动了数据量呈指数式增长。根据IDC统计,全球每年生产的数据量从2016年的16.1ZB猛增至2025年的163ZB,其中80%至90%是非结构化数据。所谓非结构化数据是指不能通过二维表结构进行逻辑表达呈现的数据类型,如图片、语音、影像等这类数据。而非结构化数据不能通过计算机进行分析处理,要挖掘这部分数据的应用价值需要借助人工智能的方式,最原始的非结构化数据只有经过标注转化成AI能够识别的规则,进而才能够通过人工智能深化具体的产业应用,最大化数据的应用价值。

非结构化数据

数据采标处理

模型训练

提升算法精度

场景应用

人脸识别自

相关文档
最新文档