研究性课题检索方案及实操报告样例
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音识别系统的应用情况研究
一、课题研究的目的和意义
语音合成的目的是合成高可懂度、高自然度的语音。经过十几年的研究,现阶段合成语音的可懂度已经达到相当高的水平,但自然度还不够高,缺陷之一就是韵律层次预测的不准确。本课题就是要通过信息检索,检索大量文献并进行研究分析,找到更合适的方法进行停顿预测,提高停顿识别的准确率。
自动识别方法方便快捷、省时省力,且能够克服人工标注大规模语料的困难。研究汉语句子中短语间停顿的自动识别问题,对于语音合成中语料库的韵律标注以及语音识别中韵律单元的自动划分都有重要意义。
二、国内外研究现状
国内外众多学者针对短语间停顿的自动预测已经提出过一些方法:如使用语法信息来预测韵律短语的边界;通过直接统计韵律短语切分点的边界模式的概率进行边界预测等等;这些方法的提出都提高停顿识别的正确率,取得了比较满意的效果,但是也存在一些不足,如上文第一种方法具有规则驱动系统难以移植和难以扩展的通病等等。总之,现阶段合成语音研究仍然存在一些问题,尤其是由于语音合成系统中韵律短语边界预测的水平不高,严重阻碍了合成语音自然度的进一步提高,所以在提高韵律短语边界预测水平是今后一个发展方向。
三、研究目标
形成一个基于最大熵模型的汉语韵律停顿识别系统。
四、研究内容
汉语韵律短语间停顿的识别。
五、研究方法
通过合理检索,获取有效信息,快速、正确地找到解决问题的渠道。详细见表(3)。
1、界定问题
(1)分析研究问题
(2)建立背景知识
表2 语音识别系统包含的主题概念
(3)拟定主题概念
详细见表(3)。
2、选择信息源
针对本研究课题相关领域,我选择电子期刊,如表(4)中列出了领域常用的权威期刊和核心期刊,因为电子期刊的时效性相对性较强,研究对象和视角新颖、详细且探讨方式具有理论架构,能帮助我们更好地把握研究前沿,很符合自己所学专业的特色;
另外,也常用一些权威文献数据库,如CNKI中国知网、维普、万方,为了研究地更透彻、更新颖,也常使用EI、SCI等外文数据库。上述三个中文数据库资源都比较齐全,而且检索结果也比较专业,而外文数据库则可以很好的补充中文数据库的不足,比如有的文献可能中文数据库没有收录,或者想查找某篇文章的原作者,众所周知,在计算机领域外国比我国起步早,所以好多文献的原创都是外国学者,因此检索外文数据库是很必要的。
表3 主题概念分析——语音识别系统的应用情况研究
但是具体到本课题,应该对以上信息源进行优先选择,比如“中文信息学报”更适合于本课题,这样搜索出的结果会比较专业。CNKI中国期刊全文数据库,收录的信息很全面,也可以作为检索的信息源。
另外,由于计算机行业发展更新比较快,与国内研究状况相比,国外的研究更先进,更新颖,所以选择国外期刊进行检索也是很好的选择,如EI、SCI等,中外结合可能会收到更好的效果。
3、制定策略并实施检索
(1)检索用词的选定(扩检/缩减)
虽然主题概念是“语音识别”,但是百度搜索引擎中搜到的结果都与中文信息处理无关,也就是说如果将“语音识别”作为检索词,搜到的结果太宽泛,如图(1)所示,涉及到的领域太多,不是很专业,因此需要缩检;而当我们把它的下位词“韵律停顿”作为检索词时,因为“韵律”已经算是设置了一个搜索限制条件,将内容限定在“中文信息处理方面”,这样搜索结果就比较符合要求,如图(2)所示,更贴近研究内容,也不需要扩检,因此可以将“韵律停顿”作为检索词。
图(1)百度检索界面及检索结果图(2)百度检索界面及检索结果(2)根据选好的信息源的优先顺序进行检索;
中文信息学报:比较专业,结果是“全文搜索”的结果,检索界面如图(3)所示。
(3)合理使用逻辑运算符
为了检索到更多的文献,用运算符OR将相关词“计算机应用”加到检索词中。
speech recognition和computer application作为检索词,用OR连接,时间范围限定在2007到2011年之间,如图(4)所示;搜索结果如图(5)所示。
图(3)中文信息学报检索界面
图(4)EI检索界面图(5)EI检索结果(4)精确搜索和模糊搜索相结合;
图(6)CNKI中国知网检索界面
搜索结果如图(7)所示:在左栏中选择“计算机的应用”,显示出所选学科领域内的所有检索结果。
图(7)CNKI中国知网检索结果
(5)引文珠式的应用
下图(8)是CNKI期刊全文库的搜索结果中的“同被引文献”部分,可见引文珠式的搜索,也可以检索到符合要求的文献。
图(8)CNKI中国知网引文珠式的检索结果
(6)关于文献类型
为了得到更全面的检索结果,通常检索时不限制文献类型,而在最后的信息整理、分析和利用时会适当的、有选择的阅读,综合分析各种类型的文献进行信息的收集,经验表明,此法还是很行得通的,而且能收到满意的效果。
5、评价信息
通过以上检索,获得的信息比较符合要求,都体现出了科学性和新颖性,达到了最终的检索目标。中外文献结合起来研究,加深了对研究课题的了解,开拓了思路。
6、整理、分析和利用信息
对于获得的信息,根据个人习惯我是存放在了“E://学习//研究生课程//专业课//课题//资料”子目录下,在Windows资源管理器的树形结构中也比较容易查找。
对于文献的阅读方法,我先按时间顺序,由于计算机专业发展快,所以最新发表的应该优先阅读,因
为它的内容一般都比较前沿、新颖;其次按作者知名度顺序,知名度高的作者所发表的文章融入的思想比较先进,有助于开拓阅读者的思路。
然后整合信息,进行归纳总结,梳理出一条脉络,找出有参考价值的内容。
六、小结
本课题的研究解决了文献检索部分,针对研究课题有目的性的进行了信息检索,检索结果也具有一定的科学性和可靠性,有一定的研究价值,但是由于时间的局限性,可能会有更好的信息随着技术的发展和研究的深入出现在众多信息源中。关于本课题一直是计算机领域研究的热点,相信随着科学技术的发展,针对这方面的研究会越来越深入、新颖、有创造性。