0079.智能音箱背后的自然语言理解和知识图谱技术

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

智能音箱背后的自然语言理解和知识图谱技术

本文根据海知智能创始人、CEO谢殿侠的分享整理。谢殿侠有着多年文字处理、知识管理技术及管理经验，创办海知智能并带领团队开发出首款中文个性化聊天机器人开放技术平台。

以下是谢殿侠的分享：

大家好，很高兴今天晚上给大家做一个分享。前面几位从不同角度阐述了AI和产业相关的知识，我将从一个具体的“智能音箱”产品入手，谈谈在人工智能技术支持下，我们能赋予音箱这款传统的产品多少新的可能性，以及最终能给用户带来什么样得全新体验。

决定智能音箱质量的是什么？

我记得去年讨论智能音箱的时候，大家仁者见仁智者见智，观点不尽相同。甚至，广州、深圳一些传统蓝牙或无线音箱厂商的负责人认为，能通过蓝牙、wifi连接智能手机，就是智能音箱了。我认为，真正的智能音箱，应该是以语音说话为主要交互手段，以音箱为媒介，打通了海量内容，能听，会说，懂你，并对接了服务资源，这才是真正的有智能的智能音箱。但从去年到今年上半年，怀疑是主流：这事儿靠谱吗？这样的音箱大家会纷纷买单吗？

直到最近，Amazon Echo这款智能音箱在北美开始普及，销售量超过500万台。谷歌也紧跟亚马逊的步伐，推出了一款类似的叫Allo的智能音箱。智能音箱作为生活场景的一个重要入口不再仅仅是个概念，已经是正在发生的未来。我在硅谷看到，不少朋友家里面Echo 已经成为一个常用家用电器，成为家庭新成员持续性服务。而不是像其他智能产品如眼镜、手表等，更多是极客的玩具，普通用户用一阵就扔到抽屉里了，或者只是作为传统的产品使用为主。智能产品和传统产品没有本质区别了。有人说，Echo类似于当年iPhone 在智能手机时代的地位。智能音箱时代来了！

反观国内的几款智能音箱，从目前结果看来，没有哪个产品像Echo成为了家庭新成员，获得存在性，产生持续性价值。为什么呢？我们可以从三个方面来看：

音箱品质。我去年拿到Echo后，和深圳音箱专业人员交流，他们惊讶于其声音品质和硬件质量。一百多美金一台的Echo，即便去掉智能性成分，也是一款不错的喇叭，和同价位的蓝牙音箱相比具备一定的可比性。我们这些没有成功的中文智能音箱，则和同价位的蓝牙音箱比，还是略有差距，没有足够的竞争性。所以，智能音箱，首先得把音箱本身的品质做好。

音箱智能。音箱有智能，至少能用人的自然语言与人交流，能够听懂人的意思，能给人想要的内容。近两年语音识别技术突飞猛进，大家有目共睹；但语义理解方面，的确挑战不小。对比之下，Echo在和用户交流过程中，针对提供服务的领域里识别和理解做到了一定的可用性；我们这些中文智能音箱的先行者，可能中文语音识别环节不错，但语义解析环节薄弱了一点，最终用户整体体验产生了瓶颈。

内容资源。声音品质和交互体验上有保障了，还不够。当用户开口说话，智能音箱听懂了，让用户爽最好的方式是直接给用户想要的结果，比如点歌就直接放歌，想听相声直接播放相声。语音交互为媒介的智能产品与网页、app 类有界面的产品不同，它没有没有界面限

制用户提问的内容范围，人们开口与音箱交互的时候，几乎是没有显性边界的。这种情况下，就要求内容一要有质量，二要有体量，理解并覆盖到用户想要的东西。同样，Echo结合了

亚马逊自身的资源的音乐库，同时接入Pandora、Spotify等第三方资源，具备相当规模的体量。体验过echo就会发现，在它提供服务的领域范围，体验是得到保障的；尚未覆盖的领域，智能音箱里面的机器人Alexa 会告诉你“对不起，我没有这个服务”。我们中文智能音箱产品先行者，也许内容涉及的领域种类颇多，但内容的质量和体量有待于提高。

当然，影响智能音箱质量的因素不止这三个方面，但以上三个方面在很大程度上决定了一个智能音箱的整体用户体验。作为一款音箱如何提高声音品质不是今天讨论的重点，后两块部分尤其是语义理解以及资源整合上，我们已经对此相对来说有了一些理解、尝试和经验积累，即便同时也面临着挑战。

理想中的智能音箱什么样？

那么在什么样的场景，解决用户什么样的问题，智能音箱类的产品才能在家庭中占有一席之地，变成一款大家用上一阵后便离不开的产品，并有可能实现将来智慧家庭生活入口呢？我们来通过一些具体的例子，看看理想的智能音箱会是一种什么样的体验。

场景1：通过智能音箱问天气

最常见的询问天气表达“今天天气怎么样”，这个没有难度。智能化之后会是什么样呢？如图：

这跟传统理解的天气预报不一样。用户使用自然语言交互，他没有说我要问天气，或者天气预报，当我们真正在生活中产生对天气情况查询的需求，对话都很场景化，场景比如”今天下雨不，去上海要带伞吗”，实际需要理解的是时间、地点、是否下雨。

这几个例子，同样是询问天气，但用户只想了解温度，机器进行语义理解后，只回复了气温数据和建议；由此产生多轮询问，切换时间、切换城市，都能针对性回答问题。所以，作为天气这么一个最基本的服务，智能化在于怎样使用户通过更自然的方式表达诉求，机器通过更人性化的方式满足诉求。

场景2：闹钟叫醒服务

比较早的时候是机械闹钟，上发条，到点就会响铃，然后手动摁掉闹钟停止。现在大家用智能手机设的闹钟可以实现到点后手动停止，或推迟多长时间再唤醒。智能化的闹钟可以怎么玩？篇幅有限，我们只看一个环节：闹钟设置完毕，也在规定时间响起，如何有效唤醒主人起床或关闭闹钟？

基于语义理解，我们可以做到如下图：

如果用户成功回答问题，艾如意宝宝反馈关闭成功，闹钟就不再响了。如果用户回答错误，我们还能设置音箱给用户多次回答的机会，直到答对后音箱成功关闭，这时候人也该清醒了。有些情况下，用户真的无法回答或需要赖床，基于语义理解，我们也可以做到比如：

这时候艾如意宝宝知道用户要往后延迟起床，仍然知趣地闹钟关闭成功，说：哎呀，还是拗不过主人。

所以人“人”交互，人和机器人的交互设计，就有很大的不同。人不是机器，会有模糊，会有不同表达方法，我们希望智能音箱中的机器人也能人格化，被当成一个伙伴而不是冰冷的机器。

停止闹钟功能，除了上面举例的诗词之外，也可以设为成语接龙，比如音箱里的艾如意宝宝说春风化雨，用户说雨过天晴，艾如意宝宝说闹钟关闭成功了。当然玩成语接龙也有可能想不起来，艾如意宝宝也会更换不同的题型，提供足够的容错空间，比如再玩点儿别的：口算55+66等于几？中国有几个省等等，当艾如意宝宝明白你的意图、同时具备了一些知识技能后，就可以与你深层次互动，来达到设计好的目的。