【CN110096986A】一种基于图像识别与文本融合的博物馆展品智能导览方法【专利】

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 201910333050.4

(22)申请日 2019.04.24

(71)申请人 东北大学

地址 110819 辽宁省沈阳市和平区文化路3

号巷11号

(72)发明人 王斌 杨晓春 张斯婷 

(74)专利代理机构 沈阳东大知识产权代理有限

公司 21109

代理人 李运萍

(51)Int.Cl.

G06K 9/00(2006.01)

G06F 16/953(2019.01)

G06F 16/33(2019.01)

G06Q 50/10(2012.01)

G06N 3/04(2006.01)

(54)发明名称

一种基于图像识别与文本融合的博物馆展

品智能导览方法

(57)摘要

本发明提供一种基于图像识别与文本融合

的博物馆展品智能导览方法,涉及图像识别与文

本融合技术领域。本发明步骤如下:步骤1:收集

展品图像,得到展品图片集合;步骤2:建立基于

卷积神经网络结构的识别模型;使用图片X训练

基于卷积神经网络结构的初始识别模型,得到损

失函数L(X),根据损失函数训练识别初始模型中

的参数,得到基于卷积神经网络结构的识别模

型,得到图片X的识别结果;步骤3:根据识别结果

作为关键词进行相关资讯的爬取收集,获得资讯

数据集;步骤4:获取的资讯数据集中提取摘要T;

步骤5:将步骤4中得到的摘要T进行资讯融合;本

方法能够提高参观者参观体验,降低博物馆日常

运营费用,

减少人力成本。权利要求书3页 说明书6页 附图4页CN 110096986 A 2019.08.06

C N 110096986

A

1.一种基于图像识别与文本融合的博物馆展品智能导览方法,其特征在于:包括如下步骤:

步骤1:收集展品图像,将所有图像调整成统一大小,并对图片进行数据增强处理,得到展品图片集合,所述展品图片集合中的图片为带有正确分类标签的图片;

步骤2:建立基于卷积神经网络结构的识别模型;将VGG网络结构模型中的特征提取层以及分类层参数作为基于卷积神经网络结构的初始识别模型中的参数;使用步骤1的展品图片集合中的图片X训练基于卷积神经网络结构的初始识别模型,得到损失函数L(X),根据损失函数训练识别初始模型中的参数,得到基于卷积神经网络结构的识别模型,得到图片X 的识别结果;

步骤3:根据步骤2中得到的识别结果作为关键词进行相关资讯的爬取收集;将识别结果根据爬虫技术做关键词分割,根据分割后的关键词在百度上收集资讯,获得资讯数据集;

步骤4:获取的资讯数据集中提取摘要T;运用抽取式的方式进行摘要的生成,去除资讯数据集中冗余的信息,将其主要内容提取出来;将步骤3中资讯数据集中的句子排成句子序列A 1、A 2、…、A n 组成文档D,n为句子总数,通过根据概率选取D中的m个句子组成摘要T;

概率选取方法为:Extractive式摘要生成模型包括句子编码器、文档编码器以及句子提取器;其中,句子编码器中使用word2vec得到每个单词的200维向量并使用卷积与池化操作得到句子的编码向量;在文档编码器中使用LSTM网络,句子提取器部分将关键词作为额外信息,参与为句子评分的过程,最终目标是使含有关键词的句子获得更高的得分,

即:

其中,,u 0、W e 、w ′e 为单隐层的神经网络的参数,

r代表A n 被选入摘要的概率,代表μ时刻的句子A n ,h μ为μ时刻LSTM网络的中间状态,h μ′代表关键词的加权和,b为关键词的个数,K 为每句话被选择到摘要T的概率,概率越大,句子A n 出现在T中的可能性越大;c i 为关键字,当句子中含有的关键词越多,h μ′越大,最后该句子选入摘要中的概率也就更大;

步骤5:将步骤4中得到的摘要T进行资讯融合;

将摘要S中的句子融合成有逻辑的语段,采用段落模板结合描述逻辑的方法,通过定义描述逻辑,并匹配预先定义好的段落描述模板将摘要T中的句子融合为一个完整并且有意义的段落;所述段落模板为以时间为逻辑或地点、人物为逻辑。

2.根据权利要求1所述的一种基于图像识别与文本融合的博物馆展品智能导览方法,其特征在于:所述步骤2的具体步骤如下:

步骤2.1:使用VGG网络结构模型初始化分类子网络中的特征提取层以及分类层参数,输入训练集中的图片,寻找全连接层中对输入的图像的响应值,值最高的区域则选择为建议注意力区域正方形;

分类子网络f由一个全连接层以及一个softmax层组成:

P(X)=f(w c *X)

权 利 要 求 书1/3页2CN 110096986 A

相关文档
最新文档