智能音箱市场分析报告

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

智能音箱市场分析报告
行业深度研究报告
2017年9月
目录
1、物联网深度融入生活场景，爆发条件成熟........................ 错误！未定义书签。

1.1、背景：互联网获客成本提高，以物互联时代正式开启错误！未定义书
签。

1.2、爆发条件的演进：从传感器成本的下降到低功耗广覆盖技术的出现.错
误！未定义书签。

1.2.1、条件一：传感器成本的下降使物联网大规模应用成为可能错误！
未定义书签。

1.2.2、条件二：低功耗广覆盖技术的出现使物联网链接更为持久广泛
...................................................................................... 错误！未定义书签。

1.3、持续的渗透：从幕后到台前，融入To C经济....... 错误！未定义书签。

2、可穿戴设备：与用户行为深度融合，低功耗有效解决痛点错误！未定义书签。

2.1、行业持续增长，以设备为端口获取数据................. 错误！未定义书签。

2.2、关于数据的需求贯穿了用户和供应商的商业行为.错误！未定义书签。

2.3、低功耗技术有效解决可穿戴设备痛点..................... 错误！未定义书签。

3、新零售：构建线下数据渠道，服务零售实体发展............ 错误！未定义书签。

3.1、四大因素决定线下零售对于物联网的需求............. 错误！未定义书签。

3.2、互联网公司转战线下，布局新零售......................... 错误！未定义书签。

3.3、Amazon Go,以物联网为基础的实体零售................. 错误！未定义书签。

4、共享经济：有效解决信息不对称，实现数据长尾连接.... 错误！未定义书签。

4.2、共享单车的运作得益于物联网技术的支撑............. 错误！未定义书签。

4.3、打通长尾部分，连接万物共享万物 ........................ 错误！未定义书签。

5、行业标杆企业分析................................................................ 错误！未定义书签。

5.1思科（CSCO.O） ......................................................... 错误！未定义书签。

5.2Fitbit（FIT.N） ................................................................ 错误！未定义书签。

5.3恩智浦（NXPI.O） ...................................................... 错误！未定义书签。

5.4仁天科技控股（0885.HK）......................................... 错误！未定义书签。

5.5思创医惠（300078.SZ）.............................................. 错误！未定义书签。

5.6汇纳科技（300609.SZ）.............................................. 错误！未定义书签。

5.7捷顺科技（002609.SZ）.............................................. 错误！未定义书签。

5.7数字政通（300075.SZ）.............................................. 错误！未定义书签。

近日，国外媒体报道苹果或将于WWDC 推出智能音箱产品，引发语音人工智能领域关注。

一方面，以亚马逊Echo 智能音箱为代表的现象级AI 产品广泛应用于日常家居生活；另一方面，中国2017 年两会政府工作报告首提人工智能，“科技创新2030—重大项目”关注人工智能2.0 主题，AI 全面升级为国家层面发展战略。

由于学习驱动方式、数据处理方式、计算形态、平台生成方式和研究理念五大方面的变化，政策和产业的现状表明AI 2.0 时代已经来临。

我们认为，智能终端设备的普及使得语音在人机交互、信息获取等方面的入口特性完全体现。

我们围绕“语音识别—语义理解—决策反馈”流程提出“语音AI”概念，并认为其日渐成为AI 2.0 产业生态的核心，具备AI 2.0 时代的入口地位。

语音AI 技术主要包括算法、计算能力和数据三个要素。

根据上述语音AI 作业流程展开分析，算法的支撑技术主要包含语音识别、声纹识别、自然语言处理和用于优化算法性能的深度学习等技术；计算能力主要依赖GPU、FPGA 等芯片和麦克风阵列等硬件；数据方面则需和应用场景相结合。

我们认为，近年来各项关键技术均取得重要突破，使得语音AI 技术基础日趋成熟，产品化进程加快，产品与服务创新日益满足用户需求。

工信部预测2017 年全球智能语音产业规模可达112.4 亿美元，未来五年复合年均增长率可超30%。

众多知名科技公司已经开始加大该领域的投入。

我们将语音AI产业链分为上游的基础技术层、中游的基础应用层和下游的方案产品集成层。

基础技术层企业主要关注语音支撑技术的研发与优化，基础应用层企业主要解决技术在应用场景的适用问题，而产品集成层企业主要实现具体产品形态和运营工作等。

我们分析了产业链上的主要参与者的技术与产品布局，包括谷歌、亚马逊、微软、苹果、BAT 等科技厂商，以及科大讯飞、Nuance 等语音垂直领域厂商。

我们认为科技龙头企业采取“自身发力+产业结合”的战略，有助于通过语音入口抢占AI 时代先机，形成竞争壁垒。

一、人工智能跃迁2.0 阶段，智能音箱催熟语音AI 新入口（一）市场面语音类产品热度提升，政策面AI 被密集提及
1、语音类AI 产品突破市场，用户体验良好带动销量大增
近日，来自AppleInsider、KGI 等多处消息显示苹果公司正在筹划推出智能音箱类产品，其中或将植入Siri 语音助手，并有望在WWDC 苹果大会上发布。

全球消费者电子龙头公司的加入，让语音类人工智能（Artificial Intelligence，AI）产品再次吸引了业界和消费者的浓厚兴趣。

一方面，人工智能受多个有影响力影响力的事件推动早已成为关注点。

2016 年谷歌AlphaGo大比分战胜人类围棋高手李世石，2017 年初腾讯围棋机器人绝艺在UEC 杯世界计算机围棋大赛等比赛中战绩突出，近期百度小度机器人在《最强大脑》节目里击败人类顶尖选手。

这些事件表明AI 技术发展越来越成熟，特别是深度学习技术不断实现突破。

另一方面，从产品化角度看，语音类AI 产品最为接近实用，性能表现能够基本满足用户需求。

最有代表性的是Amazon 在2014 年11 月发布的Echo 智能音箱，以及在后期陆续发布入门级智能音箱Echo Dot 和便携式蓝牙智能音箱Echo Tap。

消费者可通过内置语音助手Alexa 进行智能设备控制、多媒体操作、信息获取、日程提醒等服务，Echo 还可提供第三方接口以实现功能扩展。

根据CIRP 和RBC Capital Market 等公司的估计，截止到2017 年2 月，Echo 系列产品累计销售量接近1000 万台，销售额达到8~10 亿美元。

客户体验方面，Echo 系列产品一改早期AI 产品“尝鲜胜过实用”的表现，收获了良好的用户口碑。

其官网已积累了5 万余条用户评论，评分达4.4 星。

销量激增和口碑优秀的背后折射出Echo 这一类语音交互类产品正迅速从早期用户的小众圈子进入大众市场。

受此影响，Google、京东等也陆续推出Google Home、叮咚音箱等类似产品。

若苹果推出智能音箱，则将成为另一个重要玩家。

美国调查公司V oiceLabs在2017 年初发布的《2017 年语音报告》预测2017 年将有2450 万台以语音为主要交互方式的智能硬件产品发货，市场总量将达到3300 万台，市场规模超过200 亿美元。

图1-1：Google Home 音箱
图1-2：Amazon 借助Echo 音箱构建智能生态
2、两会首提人工智能，科技规划紧随其后
2017 年3 月5 日国务院总理李克强在政府工作报告中首次提到要加快人工智能等技
术研发和转化，做大做强产业集群。

实际上，最近一年来政府对人工智能的关注明显提升，相关政策的推进也有所加快：2016 年7 月，国务院在《“十三五”国家科技创新规划》中提出重点发展新一代信息技术，对人工智能和智能交互做出重点规划；2017 年2 月15日，科技部表示在“科技创新2030—重大项目”中新增“人工智能2.0”项目，并已进入
实施方案的最终论证阶段；2017 年3 月11 日，科技部部长万钢还在表示，科技部正和相关方面共同起草促进中国人工智能创新发展规划，此规划旨在推动人工智能在经济建设、社会民生、环保事业、国家安全等方面应用。

我们认为，政府工作报告首次提及AI，表明其已升级为国家战略，相关规划的具体
设计和配套政策的落地也将助力AI 产业深化发展。

国家陆续出台的多项政策在政策面对
人工智能产业的发展起到积极的助推和引导作用。

表1-1：近期国内对人工智能产业的部分政策
我们认为，人工智能领域受益于深度学习等技术的推动近年来发展迅速，尤其是率先在语音、图像等领域获得了长足发展。

因此，语音交互类产品已具备较高的成熟度和较好的用户体验，在整个AI 领域受到政策鼓励的良好环境下，语音类人工智能的商用化逐渐获得市场认可，规模有望进一步扩大。

（二）AI 2.0 概念成型，语音入口地位显现
1、AI 2.0 时代来临
目前多个研究认为，人工智能已基本发展到2.0 阶段，应用领域深入到机器人、安防、金融、医疗、家居等多个垂直行业。

总的来说，AI 2.0 的基本含义是指人工智能在内部新算法模型和高性能硬件发展的支持下，应对外部信息环境及社会需求的快速变动，从单个技术解决单一场景的“1.0”阶段跨越到不同产业融合式发展的新阶段。

表1-2：部分研究对AI 2.0 的定义
AI 1.0 向2.0 转型升级具有五大表现特征：
（1）学习驱动方式升级：从传统知识表达方式、单纯大数据驱动方式，转向大数据
驱动和知识指导相结合的方式，可自动进行机器学习，其应用范围更加广泛；
（2）数据处理方式升级：从分类型处理多媒体数据（如视觉、听觉、文字等），迈
向跨媒体认知、学习和推理的新水平；
（3）计算形态升级：从直接追求“智能机器”和高水平的人机协同融合，走向渐进
型混合增强智能的新计算形态；
（4）平台生成方式升级：从聚焦研究“个体智能”，走向基于互联网络的群体智能，
形成在网上激发组织群体智能的技术与平台；
（5）研究理念升级：从机器人主导，转向更加广阔的智能自主系统，从而促进改造
各种机械、装备和产品，走上泛智能化之路。

2、语音成为AI 2.0 产业新入口
我们定义“语音AI”如下：智能系统通过机器感知技术实现声音采集、语音识别、语义理解等信息处理，利用自然语言理解等技术来进行分析，从而实现人机对话、智能判析和决策的一整套计算过程。

语音AI 需要将声学、语音识别、语义、搜索、内容等多种领域技术相融合，以实现自然的人机交互。

比照互联网、移动互联网的技术层次可以对AI 2.0 系统进行分析：（1）底层技术：互联网时期承载信息的技术是网页，网页之间依靠超链接和图形交互等方式进行内容的组织；移动互联网时代的内容则在各个应用（App）内，数据由应用运营商提供和组织。

而在AI 2.0 系统中，底层是借助机器学习、深度学习等技术，对来源
于众多智能设备的大数据进行训练、处理，以模型的形式进行组织。

（2）上层应用：互联网时代的应用以网站形式呈现，移动互联网时代则主要是App （具体分为原生App 和Web App 两大类）。

而在AI 2.0 系统中，应用则具化为机器人、智能穿戴设备、智能家居等智能设备和基于这些设备之上的服务。

（3）连接两者的入口：互联网时代网站众多，人们获取信息典型的入口是搜索引擎；移动互联网时代要么通过应用市场获取App，要么通过重点App 获取内容，要么通过二
维码等新形态的入口进行信息访问。

而在AI 2.0 系统中，受到智能终端的物理形态限制，传统的用户界面和围绕鼠标、键盘、触摸屏等的交互方式不再适用，而更直观自然、易于学习的语音交互则成为新系统的重要入口。

因此，语音AI 将会是AI 2.0 生态的入口级技术，占据其核心地位。

图1-3：AI 2.0 相较于移动互联网的层次类比
语音作为入口方式已经在诸多AI 产品形态中存在。

（1）在智能家电家居方面：2017 年中国家电及消费电子博览会（AWE）“语音的交互与控制”主题中，思必驰、海知智能、云知声等语音方案商以及海尔、美的等家电企业发布以语音交互为核心的智能家居解决方案；（2）在可穿戴设备方面：出门问问推出的中文智能手表操作系统Ticwear和中
文全交互智能手表Ticwatch、谷歌推出的Google Glass X 智能眼镜等均具备基于语音的操作与交互能力；（3）在机器人方面：语音作为人机交互最为自然的沟通方式，在机器人应用上也非常广泛，例如NAO 等实体机器人具备面部探测与识别、语音合成、自动语音识别等高级功能。

图1-4：2017 年AWE 叮咚音箱等产品展示
图1-5：Ticwatch语音交互界面
我们认为，语音能够发展成为AI 2.0 的入口主要基于以下原因：（1）智能手机的语
音助手产品为用户提供了体验语音交互的基础，Siri、小冰、Google Now 等终端产品普遍提供的语音助手将语音交互引入日常生活，帮助用户接触到这样一种新技术。

（2）机器
学习的优化使得语音输入准确度不断提高，机器学习可以大规模地利用数据来生成可以理解语音和自然语言的模型，并在继续提升。

例如在2016 年11 月23 日发布会上，科大讯
飞表示其语音输入识别成功率达到了97%。

（3）语音对硬件支撑要求较低，语音是绝大
多数交互方式中能耗低、效率高、表达方式直接的一种途径，易于在不同智能平台上搭建。

（4）科技企业均希望在AI 2.0 时代占据入口，积极布局语音AI 产业，苹果、Google、微软、百度、Amazon、Facebook、科大讯飞等公司在语音领域都存在丰富的产品和大量的研发投入。

综合以上，我们认为由于语音AI 成为AI 2.0 领域新入口，深入了解和分析语音AI
的技术发展现状和未来趋势、行业竞争格局和主要解决方案等将对该领域的投资布局起
到重要作用。

二、支撑技术日趋成熟，产品服务创新有迹可循
语音AI 技术包括三个要素：算法、计算能力和数据。

（1）算法方面，按照“机器
感知—人机理解—智能判断”这一典型语音AI 作业流程划分，涉及的基础支撑技术主要
包含语音识别、声纹识别、自然语言处理、深度学习等；（2）计算能力方面，主要涉及
用于计算加速的GPU 芯片和提升语音预处理效果的麦克风阵列等硬件；（3）数据方面，则和业务相关，主要分为通用型（如人机对话等）和专用型（如工作任务、特定信息查询、操作指令等）等。

我们将对算法层面的支撑技术展开详细讨论，并对硬件支持进行简单介绍，数据处理问题将在后续报告中深入讨论。

图2-1：语音AI 算法层面支撑技术分类
（一）语音识别技术高度成熟，传统科技公司优势明显语音识别（Automatic Speech Recognition，ASR）是将人类的声音信号转化为文字或
者指令的过程，是大多数语音交互的第一道门槛，只有首先听对用户说的话才能进行后续的理解和决策。

一个完整的语音识别系统包括特征提取、声学模型、语言模型、搜索算法等模块。

而在具体实现上，一般的需要先准备特征模型库，在识别时对采集到的语音信号提取待检测特征，然后将得到的语音特征参数与模型库进行比对。

由声音模式匹配模块对该段语音进行识别，从而识别出语音内容。

图2-2：语音识别系统流程
早在1952 年AT&T 实验室研制出第一个特定人语音增强系统Audry，可识别十个英文数字系统。

ASR 技术历经60 多年的发展历史，不断的技术积累为语音交互奠定了良好基础。

表2-1：语音识别技术发展历史
2016 年以来，语音识别领域取得多个实质性突破（如下表），识别精度得到大幅提升，产品普适性也明显改善。

其中，对非特定人语音的识别精度进展可观。

以科大讯飞为例，其ASR 产品识别率提升至97%，已经能够满足通常应用的要求。

此外，随着大规模集成电路技术的发展，语音识别专用芯片已达到批量化生产的水平，在速度、功耗等方面有利于相关产品的普及。