基于多特征的视频关联文本关键词提取方法

合集下载

视频内容特征的提取

视频内容特征的提取

视频内容特征的提取0 引言关键帧是视频的镜头表示帧。

基于关键帧的特征检索是基于内容视频检索的重要一部分。

虽然人们更倾向于使用语义特征进行视频查询,但由于语义特征很难做到自动提取,所以通常视频检索所采用的是较低层的关键帧的视觉特征,包括颜色特征、纹理特征、形状特征等静态特征,也包括反映镜头一定语义内容的运动特征等。

1 视频特征描述的要求基于内容的视频检索实际上就是基于特征的检索。

因此是视频检索的基础,也是难点所在。

良好的特征应具有以下特点:1)可区别性:对于不同的图像来说,其特征值应具有明显的差异,便于比较;2)可靠性:对相似图像的特征值应比较相近,查询的结果是按特征值相似程度排列的图像集合;3)独立性:所用的各个特征之间应彼此不相关;4)特征维度低:检索复杂度随着特征数量和特征维数会迅速增长,不利于检索。

2 静态特征提取2.1 提取颜色特征色彩是物体表面的一种视觉特性,是人类视觉的重要组成部分。

每种物体都有其特有的色彩特征,同一类物体往往有着相似的色彩特征。

因此可以根据色彩特征来区分物体。

而且颜色特征非常稳定,对于旋转、平移、尺度变化,甚至各种形变都不敏感,表现出相当强的鲁棒性。

颜色内容一般包含两个方面,一个对应于全局颜色分布,一个对应于局部颜色信息。

按照全局颜色分布来索引图像可以通过计算每种颜色的象素的个数并构造颜色灰度直方图来实现,这对检索具有相似的总体颜色内容的图像是一个很好的途径。

局部颜色信息是指局部相似的颜色区域,它考虑了颜色的分类与一些初级的几何特征。

比如,颜色集是通过抽取空间局部颜色信息来提供颜色区域的有效索引。

而颜色矩特征的数学依据是任何颜色的分布均可由它的矩来刻画,且大部分信息集中在低阶矩上。

2.2 提取纹理特征纹理就是图像局部不规则而宏观有规律的特性。

它是与物体表面材质有关的图像特征。

目前也是基于内容检索系统中所采用的一个重要手段。

纹理特征表达是Tamura 等人在对人类对纹理的视觉感知的心理学研究的基础上提出的,在视觉上和心理上都是有意义的。

视频图像中的文字提取技术论文

视频图像中的文字提取技术论文
上海交通大学硕士学位论文
摘要
视频图像中的文字提取技术研究
摘 要
视频中的文本为描述视频内容提供了十分有用的信息, 对于构建 基于内容的多媒体检索系统具有重要作用。因此,有效地提取和识别 这些文字对于图像理解、视频内容分析、基于内容的图像和视频检索 等领域具有重要意义。 目前商业的OCR技术对于二值图像中文字的提取识别已经趋于成 熟,但视频中的文字具有分辨率低、背景复杂、文字形态差异大等特 点,这给视频中文字的有效提取带来了极大的挑战,限制了OCR技术 的成功应用。针对这些问题,本文主要围绕如何充分利用文字的各种 特性,更鲁棒地从复杂背景图像中提取出文字进行了研究,具体研究 了文字区域检测、文字恢复、文字分割这三部分的算法。 在视频文字检测方面, 本文提出了一种基于线条分类的视频文字 检测算法。首先利用 Canny 算子对图像进行边缘检测,然后根据文字 边缘线条的特征,过滤非字符的边缘线条,并利用文字线条区域的相 似性,设置综合阈值,得到最终的文字区域。该算法在边缘检测的基 础上, 有效地利用了文字本身的结构特征和文字笔画的线条特征对文 字区域进行判别,在获得较高查全率的同时大大降低了虚警,而且对 不规则排列及发生形变的文字也能够准确定位,并对光照、阴影等条
1

义。例如,在新闻视频中检测到的字幕文字,不仅可以为新闻故事单元切分提供 时间标志,还能够为新闻事件内容的理解提供直接的语义特征;在体育视频中, 比赛中出现的比分、运动员号码等文字信息对于自动体育视频内容分析,精彩事 件检测也具有重要的作用。因此,若能准确地将这些文字信息检测出来,并进行 处理,使之能够被传统的 OCR 软件识别并被转化成为机器内码,这样就可以用类 似文本检索的“关键字”查询方法,对视频片断进行快速有效的查询,并对其内 容 进 行 理 解 和 分 析 。 图 像 文 字 提 取 与 识 别 (image text extraction and recognition)就是将这些文字提取出来,经过识别转化为纯文本的过程[3]。 图像文字的识别可以借助于现有的 OCR 技术。OCR 技术以自动识别二维点阵 字符并将其转换为纯文本为目标,经过数十年的发展己经相当成熟,被广泛用于 文档扫描。然而,与文档不同的是,嵌入在图像和视频中的文字通常都带有复杂 的背景,而且文字出现的位置未知,在没有去除背景和二值化之前,现有的 OCR 系统难以识别出字符, 因而在提交给 OCR 系统之前都必不可少地需要一个文字提 取(text extraction)的过程[4]。这样,如何从复杂背景中提取出图像文字就成 为以文字为线索来理解和检索图像和视频内容的一个关键任务。

关键词提取方法

关键词提取方法

关键词提取方法在信息爆炸的时代,我们经常需要从大量文本中提取出关键词来帮助我们理解和归纳文本的主题和要点。

关键词提取是一项重要的自然语言处理技术,它可以自动地从文本中抽取出最具代表性和重要性的词语。

本文将介绍一些常用的关键词提取方法。

1. 基于词频的关键词提取方法基于词频的关键词提取方法是最简单和直观的一种方法。

它根据词语在文本中的出现频率来衡量其重要性。

常见的算法包括TF(Term Frequency,词频)和TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)。

TF算法将一个词在文本中出现的次数作为该词的重要性。

但是,如果一个词在文本中多次出现,它的重要性也会被放大。

为了解决这个问题,TF-IDF算法引入了逆文档频率的概念。

逆文档频率表示一个词在整个语料库中的信息量,它的计算方式是语料库中总文档数除以包含该词的文档数的对数。

TF-IDF算法将词频和逆文档频率相乘,使得频繁出现但在整个语料库中信息量小的词的重要性降低,而那些在少数文档中出现但信息量大的词的重要性增加。

2. 基于词性的关键词提取方法除了词频,词性也可以作为关键词提取的依据。

在自然语言中,不同的词性承担着不同的语义角色。

例如,名词往往是一个句子的主语或宾语,动词表示动作或状态,形容词描述事物的属性等。

基于词性的关键词提取方法通过词性标注技术,将文本中的词与其对应的词性进行匹配,然后选择特定的词性作为关键词。

常用的基于词性的关键词提取方法有两种:基于规则的方法和基于统计的方法。

基于规则的方法依赖于人工编写的规则集,通过匹配词性模式来提取关键词。

基于统计的方法则是根据大规模语料库的统计特征来计算每个词性的重要性,然后选择具有高重要性的词性作为关键词。

3. 基于语义的关键词提取方法基于词频和词性的关键词提取方法可以帮助我们抽取出一些关键词,但是它们无法处理一些歧义词和多义词的情况。

基于大数据分析的文本自动摘要与关键词提取技术研究

基于大数据分析的文本自动摘要与关键词提取技术研究

基于大数据分析的文本自动摘要与关键词提取技术研究文本自动摘要与关键词提取技术在信息检索和文本处理领域有着重要的应用价值。

随着互联网信息爆炸式增长和用户对高效获取信息的需求不断增加,基于大数据分析的文本自动摘要与关键词提取技术的研究和应用变得尤为重要。

本文将从技术原理、应用场景和发展趋势三个方面对基于大数据分析的文本自动摘要与关键词提取技术进行研究。

首先,我们将介绍文本自动摘要技术的基本原理。

文本自动摘要技术的目标是从一篇文本中自动提取出具有代表性和概括性的摘要。

基于大数据分析的文本自动摘要技术通常包括以下几个步骤:文本预处理、特征提取、关键句提取和摘要生成。

文本预处理阶段主要包括分词、词性标注和句法分析等步骤,以便对文本进行结构化表示。

特征提取阶段涉及到从文本中提取出一些重要的特征,如关键词、句子的位置和权重等。

关键句提取阶段根据关键句的特征对文本中的句子进行筛选。

最后,根据关键句生成具有概括性的摘要。

接下来,我们将探讨基于大数据分析的关键词提取技术。

关键词提取技术旨在从文本中自动提取出一些最具代表性和区分性的关键词。

关键词提取技术难点在于如何准确抽取出文本中最重要的信息,并过滤掉一些不具有代表性的词语。

基于大数据分析的关键词提取技术一般包括以下几个步骤:文本预处理、词频统计、关键词权重计算和关键词筛选。

文本预处理阶段同样用于对文本进行结构化表示。

词频统计阶段将统计词语在文本中出现的频率,以便确定关键词候选集。

关键词权重计算阶段通过计算词语的重要性得分,以确定最终的关键词集合。

关键词筛选阶段则对候选集中的词语进行排除,确保提取的关键词具有高质量。

基于大数据分析的文本自动摘要与关键词提取技术具有广泛的应用场景。

例如,对于新闻报道,自动摘要技术可以帮助用户快速获取新闻的核心内容,节省阅读时间。

对于科研论文,关键词提取技术可以帮助研究人员准确定位感兴趣的研究领域,并提高文献检索的效果。

还有,在智能问答、社交媒体分析和智能广告推荐等领域,都可以使用文本自动摘要与关键词提取技术来提高用户体验和效率。

融合多特征的TextRank关键词抽取方法

融合多特征的TextRank关键词抽取方法

融合多特征的TextRank关键词抽取方法李航;唐超兰;杨贤;沈婉婷【摘要】[目的/意义]关键词提取在自然语言处理领域有着广泛的应用,如何快速准确地实现关键词的提取已经成为文本处理的关键问题.目前关键词提取方法非常多,但准确率仍有待提升.为此,提出一种结合单一文档内部结构信息;词语对于单文档和文档集整体的重要性的关键词抽取方法.[方法/过程]首先,根据词语的平均信息熵特征计算词语对文档集整体的重要性,利用词语的词性;位置特征计算词语对单文档中的重要性.然后,通过神经网络训练的方式优化三个特征的权重分配实现特征的融合.最后,利用三个特征计算得到词语的综合权值来改进TextRank模型词汇节点的初始权重以及概率转移矩阵,再通过迭代法实现关键词的抽取.[结果/结论]该研究方法结合了文档集整体信息和单文档自身信息,其关键词提取的准确率较传统TextRank 方法;TFIDF-TextRank方法有了明显的提高.【期刊名称】《情报杂志》【年(卷),期】2017(036)008【总页数】5页(P183-187)【关键词】TextRank算法;关键词抽取;神经网络;平均信息熵【作者】李航;唐超兰;杨贤;沈婉婷【作者单位】广东工业大学计算机学院广州 510006;广东工业大学艺术与设计学院广州 510075;广东工业大学艺术与设计学院广州 510075;广东工业大学计算机学院广州 510006【正文语种】中文【中图分类】TP391DOI 10.3969/j.issn.1002-1965.2017.08.031关键词抽取是指从指定文档中快速获取能代表文档主题和核心内容词语的过程,其在信息检索、文本分类、自动摘要等领域发挥着重要作用。

从是否需要标记训练语料集的角度看,文本关键词抽取方法可分为有监督和无监督两类。

有监督关键词抽取算法的代表思想是把关键词抽取看作分类问题[1-2],首先通过标注训练语料,进行训练得到分类器,然后将分类器应用于测试文档,判断文档中词语是否为关键词。

如何快速提取短视频中的文字

如何快速提取短视频中的文字

如何快速提取短视频中的文字随着短视频的兴起,短视频中的文字已经成为了一种重要的信息传递方式。

很多时候,我们需要从短视频中提取文字作为关键词,以便于更好的理解视频内容或进行相关研究。

但是,手动提取文字是非常费时费力的,因此,如何快速提取短视频中的文字就成为了一个热门话题。

下面我们将介绍一些快速提取短视频中的文字的方法。

1. 使用OCR技术OCR(Optical Character Recognition)技术是一种将图像中的文字转换为可编辑的文本的技术。

使用OCR技术可以快速识别短视频中的文字,并将其转换为可编辑的文本。

目前市面上有很多OCR工具,如ABBYY FineReader、Adobe Acrobat、Readiris等。

这些工具可以将短视频中的文字转换为电子文档,以便于我们更好地管理和处理。

2. 使用AI技术随着人工智能技术的发展,越来越多的智能化工具可以帮助我们快速提取短视频中的文字。

比如,微软的VideoOCR技术可以自动提取短视频中的文字,识别率可以达到90%以上。

此外,谷歌的Cloud Video Intelligence API也可以提供类似的功能,可以自动提取视频中的文本信息,并将其转换为可编辑的文本。

3. 使用专业软件除了OCR和AI技术之外,还有一些专业的软件可以帮助我们快速提取短视频中的文字。

比如,ABBYY Recognition Server可以帮助我们自动提取视频中的文本信息,并将其转换为可编辑的文本。

此外,还有一些其他的专业软件,如Adobe Premiere Pro、Final Cut Pro等,这些软件可以帮助我们快速编辑和处理视频中的文本信息。

4. 手动提取虽然手动提取短视频中的文字是一种费时费力的方式,但是在一些特定的场景下,手动提取仍然是最有效的方法。

比如,在一些低质量的视频中,自动识别和提取文字的效果可能会受到很大的影响,此时手动提取就成为了一种更加可靠的方式。

基于SVM的融合多特征TextRank关键词提取算法

基于SVM的融合多特征TextRank关键词提取算法

基于SVM的融合多特征TextRank关键词提取算法1. 引言1.1 研究背景关键词提取是文本挖掘领域中一个重要的研究问题,在文本摘要、信息检索、文档分类等任务中都有着重要的应用价值。

传统的方法主要基于统计特征、词频等信息进行关键词提取,但这些方法往往忽视了词汇之间的语义关系和上下文信息,导致提取的关键词质量不高。

随着自然语言处理技术的发展,基于机器学习算法的关键词提取方法逐渐受到研究者的关注。

本文旨在基于SVM算法,结合多特征TextRank算法,提出一种融合多种特征的关键词提取算法,实现对文本中关键信息的精准提取。

通过综合利用文本的词频、位置信息、上下文关系等多种特征,提高关键词提取的质量和效果,为文本挖掘和信息检索任务提供更好的解决方案。

1.2 问题提出在关键词提取领域,传统的基于统计方法的算法存在着一些问题,比如无法充分考虑文本中的语义信息、难以处理长文本和多文本等情况。

本文提出了一种基于SVM的融合多特征TextRank关键词提取算法,旨在解决这些问题。

在传统的TextRank算法基础上,我们引入了多种特征,包括词频、词性、词义等,通过SVM进行特征融合,提高了关键词提取的准确性和鲁棒性。

1.3 研究意义关键词提取是自然语言处理领域中的一个重要任务,可以帮助人们快速理解文本内容,提高信息检索和文本摘要的效率。

当前,基于机器学习的关键词提取算法在不断发展并取得了一定的成果,但仍然存在一些问题和挑战,如单一特征的不足以充分表达文本特点、难以处理文本中的复杂关系等。

本文提出的基于SVM的融合多特征TextRank关键词提取算法具有重要的研究意义。

通过引入支持向量机(SVM)技术,可以更好地处理文本中的复杂关系,提高关键词提取的准确性和稳定性。

融合多种特征,如词频、词性、位置信息等,可以充分挖掘文本信息,使得算法更加全面地理解文本内容。

本算法可以有效解决传统TextRank算法中单一特征不足的问题,提升关键词提取的效果,对于提高文本处理和信息检索的效率具有重要意义。

一种基于多特征融合的视频目标跟踪方法

一种基于多特征融合的视频目标跟踪方法

takn rme r sp o o e .Th r c e be ti rp e e td b h u ino lfau e n e ier rc igfa wo ki r p s d eta k d o jc e rs n e yt efso fal e t rsu d rl a s n
fau e u in e t rsf so .Beie ,a d n mi p aig sr tg s u e o a j s h p ae s e d o a h fau e sd s y a c u d t tae y i sd t du t te u d t p e fe c e t r n tmp aea a t ey, h salvaigt eafcino be td fr to e lt d p i l t u l it h fe t fo Sc eo main.Ac o dn ot ec nie c fec v e n o c r igt h o fd n eo ah
验 证 明该 方 法 对 复 杂 的跟 踪 场 景 具 有 更 强 的鲁 棒 性 , 适 用 于 目标 被 遮 挡 时 的跟 踪 . 并
关 键 词 : 目标 跟 踪 ; 特 征 融 合 ; 子 滤 波 ; 型 更 新 多 粒 模
中图分类号 : 31 TP 9 文 献标 识 码 : A 文 章 编 号 : 0 12 0 ( 0 2 0 — 0 10 1 0 — 4 0 2 1 ) 40 0 ~ 6

种 基 于 多特 征 融 合 的视 频 目标 跟 踪 方法
李 远 征 , 卢 朝 阳 , 李 静
( 西安 电子 科 技 大 学 综 合 业 务 网理 论 及 关键 技 术 国 家重 点 实 验 室 , 西 西安 7 0 7 ) 陕 10 1

使用关键词提取进行文本特征抽取的步骤

使用关键词提取进行文本特征抽取的步骤

使用关键词提取进行文本特征抽取的步骤在信息爆炸的时代,海量的文本数据需要被处理和分析。

文本特征抽取是文本挖掘和自然语言处理中的重要步骤之一。

关键词提取是文本特征抽取的一种常见方法,通过提取文本中的关键词,可以帮助我们理解文本的主题、内容和情感。

本文将介绍使用关键词提取进行文本特征抽取的步骤。

步骤一:预处理文本数据在进行关键词提取之前,我们需要对文本数据进行预处理。

预处理包括去除文本中的噪声,如标点符号、停用词等。

同时,还需要进行分词,将文本切分成一个个的词语。

分词可以使用中文分词工具,如jieba分词等。

预处理之后,我们可以得到干净的文本数据,方便后续的处理。

步骤二:构建词频矩阵构建词频矩阵是关键词提取的关键步骤之一。

词频矩阵是一个矩阵,其中的每个元素表示对应词语在文本中的出现次数。

可以使用Python中的CountVectorizer 类来构建词频矩阵。

该类可以自动将文本数据转换成词频矩阵的形式。

步骤三:计算关键词权重在得到词频矩阵之后,我们需要计算每个词语的权重。

常见的权重计算方法有TF-IDF和TextRank等。

TF-IDF是一种常用的权重计算方法,它考虑了词语在文本中的频率和在整个语料库中的重要性。

TextRank是一种基于图的排序算法,通过计算词语之间的关系来确定词语的权重。

可以使用Python中的TfidfTransformer 类和TextRank算法库来计算关键词的权重。

步骤四:提取关键词在计算了关键词的权重之后,我们可以根据权重来提取关键词。

可以设置一个阈值,只保留权重高于阈值的关键词。

同时,还可以根据关键词的权重对关键词进行排序,选择权重最高的关键词作为代表。

可以使用Python中的sort函数来对关键词进行排序。

步骤五:可视化关键词提取结果为了更直观地理解关键词提取的结果,我们可以将提取出的关键词进行可视化。

可以使用Python中的词云库,如WordCloud库,将关键词绘制成词云图。

基于多特征的中文关键词抽取方法

基于多特征的中文关键词抽取方法

2 .D e p a r t me n t o f E c o n o mi c Ma n a g e m e n t , Z h a n g z h o u I n s t i t u t e o f T e c h n o l o g y , Z h a n g z h o u 3 6 3 0 0 0 , C h i n a )
Ab s t r a c t :C h i n e s e k e y wo r d e x t r a c i t o n i s a wo r t h y p r o b l e m f o r s t u d y i n n a t u r a l l a n g u a g e u n d e r s t a n d i n g .B y u s i n g t h e TF R I DF,
词 提取 增加 了很 大 的难 度 。Y a n g We n f e n g 设 计 了

种基 于 P A T树 结构 的新 词 获 取 方 法 , 同时 采用 互
信 息等 统计 学 方法 来 提 取 关 键 词 , 要建立 P A T树 需 要 大量 的存 储空 间 和运 算 时 间 , 实 现 起 来 比较 复杂 。 李 素建 等人 利 用 最 大 熵 模 型 进 行 关 键 词 自动 提 取, 由于特征 的选 择 和估 计 特 征参 数 时不 够精 确 , 最
i t i s p r o v e d t h a t t h e me t h o d i s e f e c t i v e .
Ke y wo r d s :k e y w o r d e x t r a c t i o n;T F R I DF;mu l t i — f e a t u r e s ;B P n e u r a l n e t w o r k

网络视频字幕中关键词的提取与检索技术研究

网络视频字幕中关键词的提取与检索技术研究

网络视频字幕中关键词的提取与检索技术研究随着互联网的广泛应用,网络视频的使用越来越普遍。

然而,网络视频中的字幕内容往往是用户获取信息的重要途径之一。

为了提高用户对字幕内容的查找效率,研究人员开始关注网络视频字幕中关键词的提取与检索技术。

首先,关键词的提取是网络视频字幕中的重要步骤。

由于字幕内容的多样性和复杂性,传统的基于文本的关键词提取方法往往不能很好地适应网络视频字幕的特点。

因此,研究人员提出了一种基于语义的关键词提取方法。

该方法利用自然语言处理技术对字幕内容进行分析,识别出其中的实体、主题和动作等关键信息,并将其作为关键词进行提取。

这种方法不仅能够提高关键词的准确性,还能够提高关键词的多样性,使用户能够更全面地了解字幕内容。

其次,关键词的检索是用户查找字幕内容的重要手段。

传统的基于文本的检索方法往往只能通过关键词的匹配来进行检索,忽略了字幕内容的语义信息。

为了解决这个问题,研究人员提出了一种基于语义的关键词检索方法。

该方法利用自然语言处理技术对用户查询进行分析,并将其与字幕内容进行语义匹配,从而提高检索的准确性和效率。

此外,研究人员还提出了一种基于用户反馈的关键词检索方法。

该方法通过分析用户的点击行为和评分行为,自动学习用户的偏好,并根据用户的偏好对字幕内容进行个性化的推荐,提高用户的满意度。

综上所述,网络视频字幕中关键词的提取与检索技术是提高用户对字幕内容获取效率的重要手段。

通过研究和应用基于语义的关键词提取与检索方法,可以提高关键词的准确性和多样性,使用户能够更全面地了解字幕内容。

此外,通过研究和应用基于用户反馈的关键词检索方法,可以提高检索的准确性和效率,提高用户的满意度。

相信随着相关技术的不断发展和应用,网络视频字幕中关键词的提取与检索技术将会得到进一步的完善和推广,为用户提供更好的字幕内容获取体验。

多文本共同特征提取

多文本共同特征提取

多文本共同特征提取
首先,我们可以从词汇角度来考虑共同特征提取。

通过词袋模型或TF-IDF(词频-逆文档频率)等方法,可以找出多个文本中共同出现的关键词或短语。

这些共同特征可以帮助我们理解文本的主题或内容。

其次,可以从语法和结构角度来提取共同特征。

例如,可以分析多个文本的句子结构、语法规则的共同点,或者提取它们共同的命名实体,如人名、地名等。

这些信息可以帮助我们了解文本之间的相似性和差异性。

此外,还可以从主题建模的角度来提取共同特征。

通过主题建模技术,可以发现多个文本中共同的主题或话题,从而揭示它们之间的关联性和共性。

另外,还可以利用机器学习和深度学习技术来进行多文本共同特征提取。

例如,可以使用文本嵌入(Word Embedding)技术将文本转换为向量表示,然后利用聚类或分类算法找出多个文本之间的共同特征。

总的来说,多文本共同特征提取是一个多层次、多角度的任务,需要综合运用词汇分析、语法分析、主题建模和机器学习等方法,
以全面、准确地揭示多个文本之间的共同特征和信息。

这有助于我
们更好地理解文本内容、发现文本之间的关联性,以及进行文本分类、信息检索等任务。

基于多特征融合的视频检索算法

基于多特征融合的视频检索算法

基于多特征融合的视频检索算法侯严明;李菲菲;陈虬【摘要】随着视频等多媒体数据呈指数式迅猛增长,高效快速的视频检索算法引起越来越多的重视.传统的图像特征如颜色直方图以及尺度不变特征变换等对视频拷贝检测中检索速度以及检测精度等问题无法达到很好的效果,因此文中提出一种多特征融合的视频检索方法.该方法利用前后两帧的时空特征进行基于滑动窗口的时间对齐算法,以达到减少检索的范围和提高检索速度的目的.该算法对关键帧进行灰度序列特征、颜色相关图特征以及SIFT局部特征提取,然后融合全局特征和局部特征两者的优势,从而提高检测精度.实验结果表明,该方法可达到较好的视频检索精度.【期刊名称】《电子科技》【年(卷),期】2019(032)005【总页数】6页(P44-48,54)【关键词】视频检索;滑动窗口;多特征融合;颜色自相相图;时空特征;关键帧【作者】侯严明;李菲菲;陈虬【作者单位】上海理工大学光电信息与计算机工程学院,上海200093;上海理工大学光电信息与计算机工程学院,上海200093;上海理工大学光电信息与计算机工程学院,上海200093【正文语种】中文【中图分类】TP391.41当今社会,人们生活中的方方面面都和电子产品有很深的联系。

同时,越来越多的信息通过图像和视频来进行传递。

虽然信息全球化的不断扩展给我们带了很多方便,但是也因为信息大爆炸使得处理这些大数据的时间不足。

而由于移动互联网时代快速发展,在很多视频分享平台中出现了大量的重复或者近似的视频,不仅影响了用户体验,而且侵犯了原创视频的知识产权。

因此,如何在保证高检测精度的前提下实现快速视频检索成为了一项重要的研究课题。

在实际生活中,视频相似性变换具有多样性与不确定性。

但这些视频主要由原始视频经过光学变换或时间变换等方式转换产生。

视频变换方式包括编码格式、比特率、颜色亮度、插入LOGO、添加字幕以及添加不相关帧等等变化。

许多方法对各种变换都有一定的效果,但不同变化之间存在着一定差异。

基于多特征自适应阈值检测的关键帧提取

基于多特征自适应阈值检测的关键帧提取

0 引言
在 基 于 内容 的 视频 检 索 系 统 中 , 键 帧 用 于描 关 述一个 镜 头的关 键 图像 帧 , 它通 常会 反 映 一 个 镜 头
键帧 提取 算法 .
杨强 等 …在 基 于 帧 间似 然 比的关 键 帧提 取 算
法 中 , 用 Y, rC 颜 色 分 量 的均 值 和 方差 作 利 c , b3个
的 主要 内容 , 过关 键 帧 集 可 完 成对 整 个 视 频 内容 通
的快 速浏 览. 因此 , 键 帧 提 取 的好 坏 在 基 于 内 容 关 的视 频检 索 中有 决 定 性 的作 用 , 年来 一 直 受 到 国 近 内外学者 的广 泛关 注 , 此 相 对 应 地 产生 了一 些 关 与

t r s s l cin, if u y i h o ig t r s o d v l e a d S n. n w e -r me e ta to to sp o u e ee to d f a t n c o sn h e h l a u n Oo A e k y fa x r cin meh d wa r — i
为 图像 帧 的特 征 参 数 , 效 地 描 述 了帧 问 相 似 性 , 有
对镜 头 突变 和渐变 有 较 强 的鲁 棒 性 , 由于 摄 像 机 但 镜 头 的不 断 运 动 , 起 不 稳 定 , 无 法 有 效 地 表 达 引 故 镜 头 的主要 内容 . 基 于 运 动 分 析 的 方 法 中 , 新 在 张
Vo . 4 No 6 12 . De c.2 9 oo
文 章 编 号 :04—17 (0 9 0 0 8 0 10 4 8 20 )6— 0 2— 4
基 于 多特 征 自适 应 阈值 检 测 的 关 键 帧提 取

文本特征抽取中的关键词提取方法研究

文本特征抽取中的关键词提取方法研究

文本特征抽取中的关键词提取方法研究在信息爆炸的时代,大量的文本数据产生并传播,如何从海量的文本中提取出关键信息成为了一个重要的问题。

关键词提取是文本特征抽取的一个重要任务,它可以帮助我们快速地理解和概括一篇文章的主题和内容。

本文将介绍几种常见的关键词提取方法,并对它们的优缺点进行分析。

一、基于统计的关键词提取方法基于统计的关键词提取方法是最常见的一种方法。

它通过统计词语在文本中出现的频率和位置来判断其重要性。

其中,TF-IDF是一种常用的统计方法,它通过计算词语在文本中的频率和在整个语料库中的逆文档频率来确定词语的重要性。

TF-IDF方法简单易懂,但是它没有考虑词语之间的关联性,容易受到文本长度和语料库大小的影响。

二、基于机器学习的关键词提取方法基于机器学习的关键词提取方法是近年来的研究热点。

它通过训练一个分类器来判断一个词语是否为关键词。

常用的机器学习算法包括支持向量机(SVM)、朴素贝叶斯(Naive Bayes)和随机森林(Random Forest)等。

这些算法可以根据文本的特征和标签进行训练,并通过预测来确定关键词。

机器学习方法考虑了词语之间的关联性,但是需要大量的标注数据和特征工程,训练过程比较复杂。

三、基于深度学习的关键词提取方法近年来,随着深度学习的兴起,基于深度学习的关键词提取方法也得到了广泛的研究。

深度学习方法通过构建神经网络模型来学习文本的表示,然后通过最大化关键词的概率来确定关键词。

常用的深度学习模型包括循环神经网络(RNN)、长短时记忆网络(LSTM)和卷积神经网络(CNN)等。

深度学习方法可以自动学习文本的特征表示,但是需要大量的训练数据和计算资源。

综上所述,关键词提取是文本特征抽取的一个重要任务。

目前,基于统计、机器学习和深度学习的方法是主流的关键词提取方法。

每种方法都有其优缺点,选择适合的方法需要根据具体的应用场景和需求来决定。

未来,随着技术的不断发展,关键词提取方法还有很大的改进和创新空间,可以进一步提高关键词提取的准确性和效率。

基于多特征的视频关联文本关键词提取方法

基于多特征的视频关联文本关键词提取方法

基于多特征的视频关联文本关键词提取方法王万良;潘蒙【摘要】针对互联网多媒体视频数量的爆炸式增长导致快速获取视频的内容变得非常困难问题,提出了一种基于多特征的关键词提取算法TFL-WS算法.通过分析视频包含丰富的相关文本信息的特点,建立了基于改进TF和多特征的候选词权重计算公式,该公式将候选词的统计特征与位置权重动态结合起来,并考虑候选词的词性、词跨度等属性,借助扩展的同义词词林来提取关键词,通过提取到的关键词来表述视频的内容信息.实验结果表明:改进后的算法所提取的关键词效果更好,在准确率和召回率方面都有一定的提升,并且能够很好的表示视频的内容.【期刊名称】《浙江工业大学学报》【年(卷),期】2017(045)001【总页数】5页(P14-18)【关键词】关键词提取;视频内容;TF;特征词权重【作者】王万良;潘蒙【作者单位】浙江工业大学计算机科学与技术学院,浙江杭州310023;浙江工业大学计算机科学与技术学院,浙江杭州310023【正文语种】中文【中图分类】TP181随着互联网的快速发展以及国务院对三网融合的大力推进,网络中的多媒体业务得到了高速增长.面对互联网视频的爆炸式增长,由于目前多采用人工标注的方法对视频内容进行标注,这种方式存在人为主观因素,同时视频内容的自动获取和监管也面临严峻的挑战.因此,通过大量分析互联网视频内容的特点,发现视频本身包含了丰富的文本信息,通过获取这些文本信息并提取关键词,从而能够快速获得视频内容概要,进而可以得到视频内容.目前,关键词提取算法主要分为4类:1) 基于统计的方法,主要通过词语的统计信息来提取文档的关键词,这种方法相对简单,并且无需训练集,其中典型的算法有TF,TF-IDF[1-2]和PAT-tree等,李静月等[3]考虑将文本结构和词性等属性结合词频来提取关键字,从而提高算法的提取精度;2) 基于机器学习的方法,如KEA[4],SVM[5]和神经网络[6]等,这类方法将关键词提取问题转化为分类问题,从而提取文档关键词,白晓雷等[6]在研究和抽取词语特征的基础上,提出网络隐层节点数式子和词语特征表达式来构建网络,实现关键词抽取;3) 基于语义的方法[7],这种方法将语义特征融合到提取过程中以提高算法性能,王立霞等[8]构建词语语义相似度网络,将词语的语义特征应用于关键词提取中;4) 基于复杂网络的方法[9-10],这类方法是根据文本特征词之间的关系构建文本的复杂网络模型,提取网络中重要的结点作为关键词,谢凤宏等[10]提出基于加权复杂网络的提取算法,其根据候选项间的关系构建复杂网络,通过加权系数来计算候选项权重值.本研究提出的关键词提取算法针对的是视频关联文本信息,且是从单个视频关联文本信息中直接提取关键词.视频包含了丰富的关联文本信息,包括标题、内嵌文字和评论等,这些文本信息是与视频内容直接相关的,因此提取这些文本信息的关键词可以表示视频的内容.但爬取的文本信息不能直接分析,因为其中评论包含了一些没用的垃圾评论,这些评论如果没有被过滤掉,将直接影响关键词提取的准确性,因此需要对初始文本进行预处理后才能用于关键词提取.针对获取到的视频文本内容格式与传统的中文分词所分析的文档有所不同,故将视频的标题、内嵌文字、有效评论三部分作为一个文档进行处理.同时利用垃圾评论过滤方法来过滤掉无效评论,以提高视频文本信息对于视频内容描述的准确性.首先采用基于规则的过滤方法对垃圾评论进行过滤.其基本思想是设置一些过滤规则,对于符合其中的一条或多条的评论,判定为垃圾评论,将其过滤掉.规则如下:1) 过滤短评论.通过大量分析评论发现,长度较短的评论对于视频内容的分析没有参考价值,并且多数是与视频内容无关的,因此当一条评论的长度小于6~8个字节,判定为垃圾评论.2) 定义一个垃圾关键词词库.典型的垃圾评论中一般包含广告链接、QQ号、电话号码以及网络常用语等垃圾词语,因此通过分析建立一个垃圾关键词词库,如果评论中出现一条或多条垃圾评论关键词,则判定其为垃圾评论.3) 去除重复评论.评论集一般会出现多条重复的评论,因此过滤掉重复的评论,只保留其中的一条作为有效评论.4) 非规则字符.设置一个阈值,如果一个评论中的非规则字符的占比超过这个阈值,即将其判定为垃圾评论.在预处理过程中,利用数据结构表示词语的相关统计数据.使用四元组<wi,tfi1,tfi2,tfi3>表示词语在文档中出现的情况,其中wi为词语,tfi1为词wi在标题中出现的频率,tfi2为词wi在内嵌文字部分中出现的频率,tfi3为词wi在有效评论中出现的频率;使用三元组<wi,tfi,si>表示预处理后的结果集,其中wi为词语,tfi为词wi出现的总频率统计,si为词wi在文档中出现的部分数.在垃圾评论过滤的基础之上,根据视频关联文本信息的结构和特点,结合定义的数据结构,对视频关联文本的具体预处理步骤如下:步骤1 输入视频关联文本信息.步骤2 利用基于规则的过滤方法对垃圾评论进行过滤,从而得到有效的评论信息. 步骤3 对经过垃圾评论过滤后的视频关联文本信息进行中文分词.步骤4 去除停用词.根据给定的停用词表对停用词进行过滤.步骤5 词性过滤.对语气助词、连接词、副词、介词等不能很好反映视频文本信息并且对关键词提取结果的准确性有影响的词性过滤掉.步骤6 统计词在各部分出现的词频以及出现的部分数,得到四元组<wi,tfi1,tfi2,tfi3>和三元组<wi,tfi,si>.步骤7 输出预处理后的文本统计信息.传统的基于统计的关键词提取算法如TF和TF-IDF算法只是简单的从统计学的角度进行分析,并没有考虑到候选词的特征属性以及候选词在文档中分布的情况,所以关键词提取的准确性不是很好.因此,考虑视频关联文本的特点,以及在词频统计的基础之上,结合候选词的位置、词性以及词跨度等属性进行定量分析.2.1 候选词词性选择文档经过分词系统分词操作后,会出现很多如“而”、“其”、“且”、“与”、“之”等词,如果不考虑词性而只从统计角度分析的话,那么这些词很有可能被提取为关键词,然而这些词对文档并没有任何意义,因此,必须将这些词过滤掉. 系统经过分词后的结果包括候选词及其词性,格式为“候选词/词性”.Hulth[11]认为将名词短语作为候选词进行关键词提取,将名词短语作为关键词提取比直接从分词结果直接提取效果更好.同时结合ICTCLAS 2015分词系统的特点和分词后的结果,将选择名词、名词词组以及动名词作为候选词,考虑到这些词性更能准确的表述视频的内容.同时,对于一个对象,不同的人、不同的时间可能会有不同的描述,这就出现了同义词的情况,如果不合并同义词,那么将会影响关键词提取的结果,比如“鲁迅”和“周树人”是两个词,而这两个词指的是同一个人,因此有必要将人名、机构名等短语,只考虑这些词的词性而不考虑词性的变化,以提高关键词提取的准确性.2.2 候选词权重计算候选词权重计算是整个关键词提取算法中最重要的一步,其作用是计算选取的词相关的特征权重,得到候选词的权重结果,以便获取关键词.1)候选词的频率和位置特征.词频(TF)是一种统计方法,表示候选词在一篇文档中的次数,其公式为式中:分子为候选词在文本中出现的次数;分母为文本中所有词出现的次数总和.然而候选词频率的计算公式中并没有考虑候选词所在的位置对候选关键词提取的影响,对于一篇文章而言,在首段和尾段出现的候选词更能表示文章的内容,因此也更应该赋予更高的权重.同理,对于视频相关文本而言,可以分为三部分:标题、内嵌字幕以及有效评论,标题中的候选词是最能反映视频的内容,内嵌字幕次之,评论信息相对表示能力更弱,因此必须对各个部分赋予不同的权重,这样提取的关键词才能更加准确.根据上面传统词频统计方式的缺点,将词频(TF)和位置两个词特征动态结合起来,在计算各部分的候选词词频的同时就考虑位置权重对候选词的影响,然后对三部分的统计结果进行累加.因此改进了之前的词频公式,改进后的公式为其中:tfi为候选项w在第i部分中出现的频率,候选项在每部分的出现频率用式(1)计算;pi为候选词在第i部分中的位置权重值,pi对应的取值为其中:pi的取值参照文献[12].p1为候选词在标题部分出现的位置权值;p2为候选词在内嵌字幕部分出现的位置权值;p3为候选词在有效评论部分出现的位置权值.2)词跨度权值.对于一个文档而言,一个候选词可能只出现在某一部分,也可能在多个部分都有出现.因为候选关键词所跨部分越多,其更能反映该文档的内容,也更能概括视频的内容,因此其越适合提取作为关键词.因此,在计算候选词的权值上也考虑了词跨度属性,相应的词跨度权值计算式为其中:sw为候选词w在视频文本文档中出现的部分数;s为视频文本文档的部分总数,取值为3.2.3 改进后的算法综合上面词性选择和词相关特征的权重计算,最终得到的改进的关键词提取权值计算公式为TFL-WS=TFL(w)·WS(w)= (tfi·pi)·sw/s式(5)计算出的结果为候选词的综合权值.对于任意一篇视频文本文档,经过预处理操作后,计算文档中各候选词的权重值,并对候选词权重值的计算结果进行排序,选择前K个候选词作为该文档的内容,以描述该文档对应的视频的内容.对于改进后的算法,首先对于候选词的词性,直接选择能表述视频文本内容的词性作为候选项,减少不必要的统计计算;然后将候选项的词频和位置属性动态结合起来,每个候选项在每部分统计词频后都将其和位置权重值进行计算,所有部分都统计结束才是候选项这两个属性的加权权重值,这种动态结合的方式更能体现位置权重值的特性;最后在统计词频的同时记录候选项的跨度值,将在多个部分出现的候选项赋予更高的权重值.2.4 算法流程关键词提取的流程图如图1所示.关键词提取流程主要分为两个部分:1)视频相关文本预处理.采用第一部分的预处理方法来处理数据集.2)关键词权重计算和排序.根据预处理得到的文本,运用改进后的算法,对候选词的权重值进行计算,得到带有权重值的候选词后再进行排序,最后获得关键词. 根据上面的描述,视频文本文档关键词提取算法可描述为:输入:视频关联文本D.输出:D的前K个关键词.步骤1 对视频关联文本D进行预处理操作,得到候选项的特征值及其统计结果.步骤2 根据式(2,3)计算候选词的TFL值.步骤3 根据式(4)计算候选值的跨度权值WS值.步骤4 根据式(5)得到候选词的综合权重值,对带有权重值的候选词进行排序,取前K个候选词作为该视频关联文本的内容.改进后的算法是针对单个视频关联文本,即无需训练集就可以从单个视频关联文本中提取出关键词,而不需扫描整个待处理视频关联文本集,因此算法的时间复杂度为O(N),所以在时间效率上更优.3.1 实验数据为了验证关键词提取算法TFL-WS的有效性,在优酷、爱奇艺等国内知名视频网站随机抽取500个视频,并获取其页面的相关文本信息,将其作为获取关键词的实验数据集.同时,实验中使用的实现语言为Java,由于分词是算法的基础,分词的好坏将直接影响到关键词的获取准确性,因此,实验中采用中科院的ICTCLAS 2015分词系统对数据集进行分词.3.2 评价方法一般提取算法的评价标准都是将结果和人工标注好的进行对比.因此,实验也采用准确率、召回率和F1测试值来评价实验结果.1)准确率(Precision)指人工抽取和自动抽取都判定为关键词的数目与自动抽取为关键词数目的比值,其反映了关键词提取的准确率.其计算公式为2)召回率(Recall)指人工抽取和自动抽取都判定为关键词的数目与人工抽取为关键词数目的比值,其反映了关键词提取系统发现关键词的能力.其计算公式为3) F1测试值(F1-Measure)是Precision和Recall的调和平均值.其计算公式为其中:A为人工提取和自动提取都被判为关键词的个数;B为人工提取为非关键词而自动提取为关键词的个数;C为人工提取为关键词而自动提取为非关键词的个数.3.3 实验结果分析对于数据集进行人工标注关键词,每篇的关键词个数设置在5~10个之间,算法提取时默认抽取10个关键词.郭建波等[13]提出的TF-WF算法同样应用于单个文本文档,因此该实验选取传统的TF-IDF算法、TF-WF算法与改进后的算法TFL-WS作对比,实验数据表明算法TFL-WS在提取效果上更好.图2~4为传统的TF-IDF算法、算法TF-WF和算法TFL-WS的实验结果对比图,根据实验结果可以得出本研究提出的改进算法在这三个方面都有明显的提升.由于传统的TF-IDF算法仅考虑了候选词的统计信息,因此其性能相对是最差的,而TF-WF算法在词频的基础上考虑了候选词首次出现的位置,然而如果一个词在开头出现过但后面却再也没出现过,那么这个候选项有可能不是关键词,而如果通过词跨度属性,即如果候选词在几部分都出现过,这样的词会更有可能是关键词,因此改进后的算法在准确率、召回率以及F1评价指标上效果都更好.同时,为了做对比实验,将关键词提取的个数分别设置为5个,8个和10个,然后将TFL-WS算法与传统的TF-IDF算法以及TF-WF算法作对比.从表1中可以看出:当设置关键词提取的个数不同时,算法TFL-WS在准确率和召回率上都要优于传统的TF-IDF算法和TF-WF算法,说明改进后算法的稳定性.由于在统计词频的同时,动态结合候选词所在的位置赋予不同的权重值,同时将词性和词跨度考虑在内,因此改进后的算法更加有效.针对视频内容快速获取及监管的问题,结合关键词提取技术对视频内容进行分析,考虑视频文本信息的特点以及候选词的词性特征,在此基础上将候选词位置权值和词频相结合以改进传统的TF公式,并结合词性、词跨度等特征,定义了一个基于多特征的关键词提取公式.实验结果表明,TFL-WS算法在性能上比传统的TF-IDF算法等更好,也能很好地描述视频的内容.当然,该方法也有一些不足和需要改进的地方.对于未登录词的识别问题,因为互联网的快速发展,使得每天都会有大量新的词语产生,而现有的分词词典无法实时更新这些词语,使得新出现的词无法在分词过程中被正确切分,从而导致关键词提取算法无法提取这些表达视频文本文档的新词,这些也是今后进一步研究的地方.【相关文献】[1] TURNEY P D. Learning algorithms for keyphrase extraction[J].Information retrieval,2000,2(4):303-336.[2] EL-BELTAGY S R, RAFEA A. KP-Miner:a keyphrase extraction system for English and Arabic documents[J]. Information systems,2009,34(1):132-144.[3] 李静月,李培峰,朱巧明.一种改进的TFIDF网页关键词提取方法[J].计算机应用与软件,2011,28(5):25-27.[4] JONES S, PAYNTER G W. Human evaluation of kea, an automatic keyphrasing system[J]. Jcdl,2001(1):148-156.[5] LOPEZ P, ROMARY L. HUMB: automatic key term extraction from scientific articles in GROBID[C] //Proceedings of the 5th International Workshop on Semantic Evaluation. Uppsala, Sweden: ACM,2010:248-251.[6] 白晓雷,黄广君,段建辉.一种基于BP神经网络的关键词抽取方法[J].合肥工业大学学报(自然科学版),2014(7):808-811.[7] 刘端阳,王良芳.基于语义词典和词汇链的关键词提取算法[J].浙江工业大学学报,2013,41(5):545-551.[8] 王立霞,淮晓永.基于语义的中文文本关键词提取算法[J].计算机工程,2012,38(1):1-4.[9] 刘通.基于复杂网络的文本关键词提取算法研究[J].计算机应用研究,2016(2):365-369.[10] 谢凤宏,张大为,黄丹,等.基于加权复杂网络的文本关键词提取[J].系统科学与数学,2010,30(11):1592-1596.[11] HULTH A. Improved automatic keyword extraction given more linguistic knowledge[C]//Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing Association for Computational Linguistics. Stroudsburg: Association for Computational linguistics,2003:216-223.[12] 罗繁明,杨海深.大数据时代基于统计特征的情报关键词提取方法[J].情报资料工作,2013,34(3):19-20.[13] 郭建波,谢飞.基于多特征的关键词抽取算法[J].合肥工业大学学报(自然科学版),2015(9):1215-1219.。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
王万良, 潘 蒙
( 浙江工业大学 计算机科学与技术学院 , 浙江 杭州 3 1 0 0 2 3 )
摘要 : 针 对互联 网 多媒体 视 频数 量 的爆 炸 式增 长导 致快 速获取 视 频 的 内容 变得 非 常 困难 问题 , 提出
了一 种基 于多特征 的 关键词提 取 算 法 TF L — WS算 法. 通过 分析视 频 包含 丰 富的 相 关文 本信 息 的特

a n d l o c a t i o n we i g h t a r e c o mb i n e d d y n a mi c a l l y i n t h i s f o r mu l a Co n s i d e r i n g t he p a r t o f s p e e c h,
第4 5卷 第 1期 2 0 1 7年 2 月
浙 江 工 业 大 学 学 报
J OURNAL OF Z HE J I ANG UNI VERS I TY OF TECHNOL OGY
Vo 1 . 45 N o. 1
Fe b. 2 017
基 于多 特 征 的视 频 关 联 文 本 关 键 词 提 取 方 法

wo r d s p a n of c a n di d a t e wo r ds ,e xp a nd e d s yn o ny m di c t i on a r y i s u s e d t o e xt r a c t ke y WOr ds So t he
c o nt a i ns a bun da nt r e l a t e d t e xt i n f o r ma t i o n,a wo r d we i ght c a l c ul a t i o n f o r mu1 a whi c h i s b a s e d on i mpr o ve d TF a n d mul t i p l e f e a t u r e s i s e s t a b l i s h e d The s t a t i s t i c a l c ha r a c t e r i s t i c o f c a nd i da t e wo r ds

c ont e n t o f t he v i de o i nf o r ma t i on c a n b e e x pr e s s e d b y t he ke y wor d s

The e xp e r i me nt a 1 r e s u I t

s ho ws t ha t t h e i mpr o ve d a l g o r i t hm of e xt r a c t i n g t he ke y wo r ds ha s a b e t t e r r e s u1 t I t ha s s o me I mp r o v e me nt i n t he pr e c i s i on a nd r e c a l l r at e s ,a nd i t c a n r e p r e s e nt t h e v i d e o c o nt e nt mu c h b e t t e r
Ab s t r a c t :Th e e xp l os i v e gr o wt h o f mul t i me di a v i d e o on t he I n t e r ne t l e a d s t o a c c e s s t he c on t e n t of t he v i de o mor e a nd mo r e d i f f i c u l t y,a ke y wor d e xt r a c t i on a l go r i t hm TFL— W S ba s e d on m ul t i p l e
点, 建 立 了基 于 改进 TF和 多特 征 的候 选词权 重计 算公 式 , 该公 式将 候选 词的 统 计特 征 与位 置权 重 动 态结 合起 来 , 并考虑候 选词 的词性 、 词跨 度 等属性 , 借 助扩展 的 同义 词词 林来提 取 关键 词 , 通 过提
取到 的 关键词 来表 述视 频 的 内容 信 息. 实验 结果表 明 : 改进 后 的 算 法 所提 取 的 关键 词 效 果 更好 , 在 准确 率和 召回率 方 面都 有 一定 的提 升 , 并且 能够很 好 的表 示视 频 的 内容 .
f e a t ur e s i s p r o p os e d i n t hi s p a pe r

Thr o ug h a na l y z i ng t he c h a r af t he v i d e o whi c h
t e xt b a s e d o n mu l t i p l e f e a t u r e s
W ANG Wa nl i a n g,PAN Me ng
( C o l l e g e o f C o mp u t e r S c i e n c e a n d Te c h n o l o g y, Z h e j i a n g Un i v e r s i t y o f Te c h n o l o g y ,Ha n g z h 0 u 3 1 0 0 2 3 ,C h i n a )
关键 词 : 关键 词提 取 ; 视 频 内容 ; TF; 特 征 词 权 重 中 图分类 号 : TP 1 8 1 文 献标志 码 : A 文章 编号 : 1 0 0 6 — 4 3 0 3 ( 2 0 1 7 ) 0 1 — 0 0 1 4 — 0 5
An ke y wo r d e x t r a c t i o n a ppr o a c h f r o m v i d e o a s s o c i a t e d
相关文档
最新文档