语音识别技术应用于现有三维绘图软件的探索

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2019年12期
应用科技
科技创新与应用
Technology Innovation and Application
语音识别技术应用于现有三维绘图软件的探索
邝展鹏
（华南理工大学设计学院，广东广州510006）
1概述
随着语音识别技术和自然语言处理技术的发展，科大讯飞、云知声和百度智能等开放平台日趋成熟，这为当前开发应用级别的语音辅助系统提供了良好的技术支持[1]。

无论是在移动智能手机上的语音助手，还是风靡各个家庭的智能音箱，都代表着语言交互这一种我们日常生活中使用最广泛也是最重要的交互方式融入到人机交互中是不可避免的趋势[2]。

Solidworks 是一款专门用于工程制图的三维绘图
软件，在国内广泛应用于机械设计与评估。

其内置应用程序编程接口（API ），便于开发者进行二次开发。

百度智能语音
平台为开发者提供的软件开发工具包（SDK ）具有强大且完善的功能，包括语音识别、词法分析、
语音合成等[3]。

这两者的结合让语音识别技术应用于现有的三维绘图软件，从而提高设计师的工作效率成为可能。

2语音识别和语义理解
语音识别技术是以人的语音信号为研究对象，能通过模式识别或深度学习的方法将语音信号转换成文字信息。

目前国外的开源语音识别引擎（ASR ）有CMU Sphinx 、HTK 、Kaldi 等，国内有讯飞语音、百度智能等开放平台提供语音识别服务。

其中，国内的大型开放平台在中文语音识别的准确率已经达到了95%以上[4]。

然而语音识别技术只能将语音信息转换成文字，进行语音识别后获得的文本信息还需要让计算机理解后才能转化成具体的指令，从而执行相应的任务以满足我们的需要。

语义理解是在自然语言处理（NLP ）技术的基础上，针
对文本信息中人的意图进行识别并让计算机理解的过程。

首先需要使用NLP 中的词法分析对文本信息进行处理。

词
法分析是一种能够对文本信息进行分词、
词性识别和专名识别的技术，其处理过程如图1所示。

图1词法分析示意图
进行词法分析后，计算机就可以对结果所得的词汇进行检索，并使用匹配模型匹配对应的用户意图。

匹配模型
包括一个唤醒关键字和数目不等的参数，例如
“绘制圆柱”这个意图对应的匹配模型包括了唤醒关键字“绘制”、参数
“圆柱”、还有圆柱对应的高度和直径尺寸。

计算机只有获取到满足匹配模型的所有参数才能准确按照用户的意图进行操作。

语义理解的结构如图2所示。

图2语义理解过程示意图
摘要：随着人工智能技术不断取得突破，人机交互的模式逐渐从传统的鼠标键盘交互和触屏交互向自然交互发展。

在这种大环
境下，为了提高现有三维绘图软件的工作效率，提出了一种利用开放平台的语音识别技术辅助绘图的方法。

在保留三维绘图软件原有
的鼠标键盘操作模式下，增加了语音指令辅助设计的方式。

关键词：语音识别；语音绘图；智能语音中图分类号:TP311
文献标志码:A
文章编号:2095-2945(2019)12-0168-02
Abstract ：With the continuous breakthrough of artificial intelligence technology ,the mode of human-computer interaction has gradually developed from the traditional mouse-keyboard interaction and touch-screen interaction to natural interaction.In this envi 鄄
ronment ,in order to improve the efficiency of the existing 3D drawing software ,a method of using open platform speech recognition technology to assist drawing is proposed.Under the condition of retaining the original mouse and keyboard operation mode of 3D drawing software ,the way of voice instruction aided design is added.
Keywords ：speech recognition;speech drawing;Intelligent speech
作者简介：邝展鹏（1994-），男，硕士研究生，研究方向：语音交互设计、语义理解。

168--
2019年12期
应用科技
科技创新与应用
Technology Innovation and Application
3SolidWorks 动作宏
要实现语音控制绘图软件进行工作，就需要绘图软件能够通过除了鼠标键盘输入指令之外的方式进行绘图。

SolidWorks 自带宏工具，用户可以通过录制/编辑/执行宏提高工作效率[5]。

录制并保存的宏文件可以保存为C#、
等格式。

因此，使用动作宏进行绘图是该绘图软件的第三种
输入方式。

由于宏文件使用了C#、等高级语言进行编辑和运行，因此可以通过读取XML 等外部文件进行信息传递，从而根据外部指令控制绘图软件进行不同的操作，如图3所示。

图3Solidworks 动作宏执行结构
Solidworks 的动作宏具有强大的功能，例如捕捉绘图
空间中的焦点、调用任意绘图工具、移动窗口镜头等，完全
能够满足开发者需求。

因此宏文件的编写关键是对各个绘图工具的使用进行结构化设计，通过读取外部文件的信息得知满足用户的意图需要调用哪个绘图工具，以及具体的绘制参数是什么。

4系统设计
通过前文对于当前语音识别、
语义理解技术的探索以及Solidworks 软件本身研究，可知在理论上能够将语音识别技术运用于三维绘图软件的辅助绘制上。

整个系统的结果框图如图4所示。

图4系统总体结构框图
用户可以通过原有的鼠标键盘使用绘图软件进行图形绘制，也可以通过麦克风使用语言进行指令输入。

使用语音输入时，语音识别程序先将语音信号转化成计算机指令并保存在信息文件中，用户执行动作宏读取信息文件中的指令并执行，达到语音辅助制图的效果。

5用户与系统的语音交互方式
用户通过语音向系统发出指令以及系统回应用户的交互过程关乎到用户的使用体验。

也就是说，系统需要知道用户什么时候开始说话，用户需要知道系统有没有听到自己说话。

这样才能让用户更好的说出自己的操作意图，让系统便于分析理解并执行[6]。

用户与系统的语音交互方式如图5所示。

图5语音交互关键节点
在握手阶段内用户通过语音唤醒激活识别系统，系统通过铃声等方式进行回应并开始聆听用户说话。

语音唤醒是指系统通过麦克风持续监听周围的声音，当用户说出设定好的词语后就激活系统，而对唤醒词语以外的声音不作任何反应。

当前的智能音箱和手机上的语音助手广泛采用这种激活系统的模式。

6结束语
本文通过分析当前基于云端开放平台的智能语音技术以及绘图软件本身所提供的动作宏模块得出了能通过语音识别技术控制绘图软件进行工作的结论。

并设计了一种系统结构，可以在保留原有的鼠标键盘输入命令的绘图方式的基础上，增加语音辅助绘图的功能。

不仅能减少绘图繁琐的操作步骤，更为用户提供了新的操作体验，具有广泛的应用前景。

参考文献院
[1]甘玉珏，苏军根，林健，等.智能语音产品现状及展望[J].广东通信技术，2017，37（12）：66-68.
[2]徐鑫宇.从智能语音助手角度浅析计算机智能科学与技术对电
子设备交互的作用[J].数字技术与应用，2018，36（12）：225-226+
228.
[3]胡锐，孙先松.嵌入式Linux 平台下百度AI 语音识别的应用[J].
电脑知识与技术，2018，14（27）：202-204.
[4]周珏嘉，相非，崔宝秋，等.AI 下的智能语音开放创新平台[J].信息技术与标准化，2019（Z1）：21-23+42.[5]李志雄，王宗彦，侯骅玲，等.SolidWorks 二次开发应用方法探究[J].机械制造与自动化，2018，47（04）：142-145.
[6]张敏，杜丹阳，李洪海.智能语音控制系统设计[J].工业控制计算机，2019，32（01）：
144-145+150.
169--。