中国智能语音交互产品分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
晚上和同事聊了会天,感觉精神挺好的,写下这篇文章记录自己的一些思想
目前语音交互被市场炒的火热,大小公司做此类产品的层出不穷,首先我觉得要感谢siri给大家做了这么好的平台建设,其实纵观计算机领域,语音交互这一块是起起伏伏,总是隔几年就会被炒火一次,可是火不了一段时间又消沉了。siri的到来,貌似给大家的感觉是语音时代已经到来了,而且很快会才成为人们的用户行为习惯了。
可是不知道大家有没有真正想过siri?它的优势、技术核心是什么?
以下是我自己的一些理解:
从前台和后台来分析siri,前台分为UI界面以及语音设别。Siri采用Nuance的语音设别和语义合成技术,类似中国的科大讯飞。这个东西需要一批牛人积累多年才能生产出来,什么信号处理、模式识别、概率统计、信息论、数据挖掘、人体听觉机理、人工智能等等计算机、数学、统计学、生物领域nb的技术都得用上,这个没有什么好说的了。后台即为语义识别技术,这一块其实是技术的核心点,我不知道这些技术全是SRI自己研究出来的,还是借鉴了其他搜索类公司的技术。但是不论如何,这一块都是一个核心地方。其实,这一块的技术就是几大搜索类公司的核心技术。一是以google和百度为代表的网页搜索技术,二是以wolfarm alpha为代表的知识计算技术,三是wikipedia为代表的人工知识库技术。网页搜索通过网络机器人获取每个科访问网站的内容,这些数据被分解成一个索引,这样便可以根据内容来查找页面,用户输入一个查询,查找索引找到相关内容的页面,返回的为相关内容的列表;知识计算技术,是将所有可以获得信息建立成一个有组织的数据库,然后再利用算法进行处理,最终构造成类似与google这样的搜索工具。其实说白了就和百度前几年一直鼓吹的框计算一样,只要把东西放到框内,什么东西都可以给你解决。例如你在百度输入天气,它会显示你所在城市的天气情况,而不是以往常的网页形式展现。知识计算技术给出的答案更加精确,更加的唯一性;人工知识库技术,以维基百科为例,它采用词条和主题为单位,利用人工的力量收集知识。因此这样的知识结构化程度高,更加准确并且人性化,可同时它的知识体系会受到限制。Siri结合三项搜索类技术,根据不同的需要,利用相应的技术给出答案。其实网上经常大家说的人工智能、上下文识别、自动学习技术,这些都包含在这三项搜索技术里面了,仔细想想这些搜索是否会记忆人的行为模式、是否会上下文识别语义、是否会人机智能交互。忘了,Siri还有一个技术就是知识推荐技术,类似于大众点评、携程这样的网站,查询好吃的、机票之类的,会给出一个推荐结果。由于国外的很多类似软件api 是开放的,所以siri在知识推荐这一块等于利用这些开放的api云服务了。
Siri的优势我个人觉得有两方面,一是语音交互,实现语音控制功能,这是人体本能机理的发展趋势,人类的控制欲很强,肢体控制——>声音控制——>脑电波控制…。二是搜索方式,想想如果用google,你搜索的步骤,在google输入问题——>给出一推结果——>一个个筛选自己需要的结果——>得出答案。而siri只有两步,输入问题——>得到结果。
说了这么一大段技术分析的话,只是为了更好的去思考国内这些智能语音交互产品的未来。据我所知,目前做这一块的有讯飞语点、智能360、快说、口袋语音、我问问、虫洞助手、小i机器人、009、开心熊宝、小唐龙、云助理,还有小米手机自带的语音助手,以及一系列模仿siri的山寨类软件。其中这些产品分为五类,1、讯飞语点、智能360、快说、口袋语音、我问问、虫洞助手2、小i机器人3、009、开心熊宝、小唐龙4、云助理5、手机集成的语音助手以及山寨siri。
我针对每一类谈一谈自己的看法。
第一类首先它的未来是死的,除非有本质性的改革。从技术上来看,目前这些产品采用的语音识别和语义合成技术为讯飞、谷歌、盛大等提供,如果哪天讯飞要按照装机量收费了,而产品却没有盈利,这些产品必然会成为讯飞语点的手下败将,可矛盾的是讯飞根本没有精力去不断优化讯飞语点(从讯飞语点的产品更新过程就可以看出来),毕竟讯飞的主要目的不是在这一块,讯飞语点只是让别人知道讯飞有这么个东西而已。语音技术暂且不谈,就上面说到的siri利用的三种搜索技术,着实会让这些产品望尘莫及。没有一批计算机领域的顶尖专家,在这一块是很难有突破的。因此,这些产品的语义识别根本没法能够得到质的突变,只会随着语料的不断增加而越来越乱。从产品上来看,用户的粘度不够,用户过了新鲜期很有可能会卸载掉。作为一款移动应用,如果没有利用移动、云、社交三个要素,死的可能性极大。
第二类是小i机器人,我很看好这个产品,当然我指的不是手机客户端的那个小i机器人了。小i机器人在语义识别这一块在国内是领先,我不知道小i是不是有很多专家,但是人家多年的经验积累绝对是有很强大的技术背景。小i在产品展现方式上很简单,没有特别的设计和思路,但是小i的市场思路确是特别的清晰。小i机器人应用在微博、移动、政府、银行、运营商等等领域,作为智能机器人的形象来推广。可想而知,小i在语义识别技术上面的技术积累有多雄厚。虽然比不上siri,但是它选择的契机特别好,专注于各行业领域,找准需要智能机器人的机会,从而巧妙的相结合。不仅仅能满足用户需求,还有盈利。可是也有个问题,如果后期等到国内行业应用类的api开放了,再加上百度、谷歌等公司的介入,那么小i还有盈利的空间吗?
第三类,是娱乐类的智能语音产品。009、开心熊宝、小唐龙,三者类似,以娱乐化的形式展现产品,同时加入语音交互。给用户的印象是,智能宠物。这样的产品如果走线上的话,结果很可能也会死,因为用户的粘度不高。游戏和应用结合起来,导致娱乐性不强,应用性不明显,搞成游戏不游戏、应用不应用的两不像。(但是我想提一下开心熊宝,由于它的用户专注于小朋友,目标用户明确,更加专业化,所以有别于其他两款软件是很有可能会朝好的方向发展的)。可是如果它们走线下的话,有可能会有生存的机会。发展智能宠物,走实体路线。但是这一块的技术门槛也比较高,还得看公司的实力和规划了。
第四类,云助理也是一款有意思的产品。我理解的是它想做成,服务在云端,推送给个人的私人助理软件(不知道他们内部是怎样考虑的)。将语义识别放到云端,给用户展现的只是一个简单的助理形象本体,通过助理的帮忙完成一系列功能。其实它的私人助理思路和009的狗、开心熊宝的小熊,小唐龙的中国龙是差不多的,这一点并不新颖。我比较看重的是它提到的云服务概念。目前,他们肯定做不到构建语义识别云,但是有这个理念是好的。如果真正能构成语义识别云,再将各行业api集成在一起,那么无论什么终端载体都可以接受这些信息,那样必然是未来的一个趋势。只是,我担心的是这样的工程好像不是一家小公司或者说几家公司可以做出来的。
第五类,不说了,大家都懂的。
其实每家公司都不好做,但是每家公司都觉得很有机会,这就是魅力所在。