一种基于TFIDF方法的中文关键词抽取算法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3 基于向量空间模型的文本表示及特征项权重计算
的相似度 sim (D1, D2 ) 来度 量。当文 档被 表示为 VSM, 我们可 以借助于向量之间的某种距离来表示文档间的 相似
度。常 用向量之间的内积来计算:
N
s im (D1,
D2 )
=
E
k=
w
1
1k
#
w2k
或用夹角余弦值来表示:
sim ( D1, D2 ) = cosH=
) 298 )
# 第 31卷 2008年第 2期 #
ITA
! 信息系统 #
2 基于海量智能分词的中文自动分词新算法
21 1 海量智能 分词技术 由海量智能计算 技术研究中心开发的海量智能分词技
术在国内 处于 领先 水平, 其分 词准 确 率达 到 9916% , 分 词效率为 2 000万字 /m in。海量智 能分词 技术很 好地解决 了分词领域 中的 两大 技术 难 题, 即 歧义 切分 和 新词 的识 别。海量智能分词能对绝大多数的组合 歧义进行正确地切 分, 在新词的识别 上, 针 对 不同 类 型 采用 了 不同 识 别算 法, 其中包括对人名、音译词、机构团体名 称、数量词等 新词的识别, 准确率同样达 到了同 行业的领 先水平。 图 1 是海量智能 分词软 件在 对 5向 知识 标引 进军 6 一文 进行 分词的结果。
如今信息资源已经成为人 们竞争的重点, 如何快速获 得有价值的信息已经成为一种 新的财富, 而借助于某些工 具, 自动抽取出能准确代表文 本中的关键词, 是一种解决
信息危机的有效方案。
1 国内外的研究现状
国外对于关键词自动抽取的研究较早, 已经建立 了一 些实验系 统。 Turney 设计 的 GenEx[ 4] 系 统 将 遗传 算 法 和 C415决策树机器 学习方法用于关键短语的抽取; W itten[ 5] 采用朴素贝叶斯技术对短语离散的特征值进行训练, 获取 模型的 权值, 然后 从文 档中 抽取 关键 短语 。H u lth[ 6] 提 出 了一种在学术论文的摘要中自动提取关键词的方法, 她采 用了一种叫做 Ru le Induction 的学 习算 法, 利 用词 频和 词 性等 特 征 对 样 本 进 行 学 习, 结 果 使 得 正 确 率 达 到 了 2917% 。
2) 项 ( Term )。文档的内容特征常常 用它所含有的基 本语言单 位 (字、 词、词组 或 短语 等 ) 来 表 示, 这 些基 本的语 言单 位统 称为 项, 即文 档可 以 用项 集 ( TermList) 表示为 D ( t1, t2, , , tN ), 其中 tk是项, 1[ k[ N。
表示模型之一。由于 VSM 的这些特 点, 在文本过 滤领域, VSM 也是广泛采用 的文 本表 示模 型。 VSM 的基 本概 念如 下:
1) 文档 ( Docum ent)。泛指一般的文本或 文本中的片 断 (段落、句群或句子 ) , 一 般指一 篇文 章。尽管 文档可
以是多媒体对象, 但在本文的讨论中我 们只认为是文本对 象, 并且对文本与文档不加以 区别。
关键词: 关键词抽取; 向量空间模型; 算法
Ab stra ct: On the basis of M assive Inte lligen t Segm entation, th is paper proposes a Chinese keyword extracting a lgorithm based on Vector Space M odel and TF IDF m ethod. After automa tic segmentation of text, th is algor ithm ca lculates the we ight of every word in docum ent space with TF IDF m ethod and extracts the keywords of scientific and techn ica l docum ents accord ing to the ca lculation resu lt. The exper im enta l test w ith self2comp iled software indicates the a lgor ithm improves the effic iency of autom atic keyword extraction of Ch inese scien tific and techn ical docum ents obv iou s ly.
4) 向量空间模型 ( VSM )。给定一自然语言文档 D = D ( t1, t2, , , tN ), 由于 tk在文 档 中既 可以 重 复出 现又 应该有先后次序的关 系, 分析 起来仍有一定的难度。为了 简化分析, 可 以暂不考虑 tk在文档中的先后 顺序并要求 tk 互异 (即没有重复 ) 。这时可以把 t1, t2, , , tN 看成一个 N 维的坐 标系, 而 w1, w2, , , wN 为相 应的 坐 标值, 因 而 D (w1, w2, , , wN ) 被看成是 N 维空间中的一个向量 ( 如图 4中的 D1, D 2 )。我 们称 D (w1, w2, , , wN ) 为 文档 D 的向量表示或向量空间模型。
# 情报理论与实践 #
图 2 改进后的中文科技文献分词算法流程图 笔者用 Java语言编写了一个测试软件, 图 3为用本算 法得到的分词结果。
图 3 改进后的新算法所得的分词结果
) 299 )
! 信息系统 #
ITA
从利用新算法所 得的分词结果可以 看出, / 知识元 0、 / 知识元标引 0、 / 知识元挖掘 0 和 / 知识元链接 0 等词能 被识别出来, 并分别用 / new0 加以标 记。但也 出现了一 些如 / 是知识 0, / 世界 230 等词, 这 主要是因 为这种连 续两个词组合的出现次数比较 大, 新算 法也将它们作为一 个词提取了出来。在以后的工 作中, 我 们将对新词进行过 滤, 以达到更好的分词效果, 下一节将 就所得的结果进行 特征项权重分析。
关键词一要反映 论文 的主题 内容, 二要具 有专 指性。 在学术期刊中, 关键词主要是 名词和术语。目前学术刊物 中的论文一般都有作者自行确 定的关键词, 其他的各类文 章还很少提供关键 词, 通常 需要在 编辑 整理时 手工 抽取。 手工抽取关键词不仅 费时费力, 而且主观性强, 抽取不当 往往会对下一步的应用造成消 极影响。因此关键词的自动 抽取具有一定的研究 价值。
K eyw or ds: keyword extraction; VSM; a lgor ithm
/ 新摩尔定律 0 指出: 因特 网 上的 信息 正 以每 6个 月翻一番的速度爆炸般地产生 , 它使任 何上网寻求信息的 人都难以选择。面对这如海潮 般涌来的五光十色、瞬息万 变的信息, 如果没有一个强有 力的工具来帮助寻找、发掘 有用的信息, 人们 就 会被 湮 没在 信 息 的海 洋 中, 迷 失方 向 [ 1] 。
中文文本没有显式的词边界, 使得关键词的自动 抽取 增加了一定难度, YangW enfeng[7] 提出了基 于 PAT树 结构 获取新 词, 并采 用互信息等统计方法进行关键词抽 取, 但 建立获取候选词的 PAT 树需 要大 量的 存储 空间, 实现 起 来比较复杂。李素建等 [ 8]提 出了利用最大熵模型进行关键 词自动标引的方法, 由于特征的选择以及估计特征参 数时 不够准确, 最大熵模型在关 键词 标引中 的应 用并 不理想。 王军 [ 9]提出了一个 用于自动标引的文献主题关键词抽取方 法, 它 限于从已标引的结构化语料库中元数据的标题 中抽 取关键词。笔者提 出了 一 种建 立在 海 量智 能分 词 基础 之 上, 结 合向量 空间 模型 ( VSM ) 和 TF IDF 特征 项 权重 计 算方法的中文关键词自动抽取新方法。
标点符号用空格代替。经过处理后的文本只包含了全 部实 词和空格, 这里用 ArrayList存储这个经过过滤的文本。
2) 统计词数。通过编写 的全文 检索函 数对 文章中 的 每个词进行词数统计, 并 用一个 H ashTab le分别 存储该 词 的词名 、词性以 及在文中出现的次数。这里只是针对 海量 智能分词结果进行统计, 下一步将对该结果进行改进。
! 信息系统 #
ITA
p 徐文海, 温有奎 (西安电子科技大学 经济管理学院, 陕西 西安 710071)
一种基于 TF IDF方法的中文关键词抽取算法
摘 要: 本文在海量智能分词 基础之上, 提出了 一种基于 向量空 间模型 和 TF IDF 方 法的中 文关 键词 抽取算法。该算法在对文本进行自动分词后, 用 TF IDF 方法对文献空间中的每个词进行权重计算, 然后根 据计算结果抽取出科技文献的关键词。通过自编软件进行的实 验测试表明该算法对中文科技文献的关键词 自动抽取成效显著。
3) 项的 权重 ( TermW e ight)。 对于 含 有 N 个项 的文 档 D ( t1, t2, , , tN ), 项 tk常常 被赋予 一定 的权 重 Wk, 表示它们 在 文 档 D 中 的 重 要 程 度, 即: D = D ( t1, w1; t2, w2; , ; tN, wN ), 简 记为 D = D ( w1, w2, , , wN )。 这时我们说项 tk的权重为 wk, 1[ k[ N。
关键词是为了文 献标引工作, 从报告、论文中选取出 来用以表示全文主题内容信息 的单词或术语。关键词自动 抽取是依靠计算机从文档中选 择出反映主题内容的词, 也 称 作 关 键 词 自 动 标 引 , 在 文 献 检 索、 自 动 文 摘、 文本聚类 /分类等方面有着 重要 的应用 [ 2] 。关 键词 可以为 文档提供一个简短的概括, 使读者能够 在短时间内了解文 档的大概内容。关键词还是信息检索系 统中对文档进行索 引、聚类等操作的基础 [ 3]。
N
E
k=
1w1k
Biblioteka Baidu
#
w 2k
(
EN
k=
w
1
1k
2
)
(
EN
k=
w
1
2k
2
)
31 1 基于向量 空间模型的文本表示
向量空间模型是 由 Sa lton等人于 20世 纪 60 年代末提 出并成功地 应用于著名的 SMART ( System for the M an ipu la2 tion and R etr ieva l ofText) 系统之后, 该模型及其相关的技 术, 包括项的选择、加权策略, 以及采用相关 反馈进行查 词优化等技术, 在文本分类、自动索引、信息 检索等许多 领域得到了 广 泛的 应用。 VSM 已 成为 最简 便高 效的 文本
3) 通过全文遍历, 修正词频统计结果。文本过滤后, 从文章开始处, 如果开始不是空格并且连续两个词不 为空 格, 则统计这两 个词出现的次数, 如果该次数大于给 定的 阈值, 就将这两个词连接起来并修 改词性 为 new, 并代 替 A rrayL ist中原 来的两个词; 再将这个词看 成一个新 词, 如 果它的下一个词为非空, 并且这个新词与下一个词的 出现 词数大于给定 阈值, 则 将 这个 新词 和 下一 个词 又 组成 新 词, 并 把词性改成 new; 如果连续两个 词的词 数不大于 给 定阈值, 或遇到空格或空值, 则跳过, 寻找下一个非 空实 词。经 过遍历, A rrayL ist中的分 词结果有了 反映科技文 章 主旨的能力。同样, 用全文检索函数对新的 ArrayList中的 词进行了次数统计。该算法流程如图 2所示。
图 1 海量智能分词软件分词结果 从图 1中可以看出, 海量智能分词尽管能 把大部分词 语分开, 但对于包含创新点的 科技文章来说, 其中的创新 点词和未登录词尚不能准确地 识别, 分 词结果还不尽如人 意。如文中 的 / 知识 标引 0 和 / 知识 元 0 没 有被看 成一 个词, 而这些词比较好地反映 了该文的主旨, 所以该方法 还有待改进。 21 2 基于海量 智能分词的中文自动分词新算法 海量智能分词对大部分词 都作出了切分, 但不能得到 能反映中文科技文献的关键词 和创新点。为了能得到如实 反映文章语义的更精确的分词 结果, 笔 者提出了一种基于 海量智能分词初步结 果的新算法。 1) 文本过滤。由于 表征 文 章主 旨 的词 主 要 是实 词, 我们首先建立了一个虚词表, 如果海量 智能分词结果中词 的词性为虚词表中的任一种或 标点符号, 则将这个虚词或
的相似度 sim (D1, D2 ) 来度 量。当文 档被 表示为 VSM, 我们可 以借助于向量之间的某种距离来表示文档间的 相似
度。常 用向量之间的内积来计算:
N
s im (D1,
D2 )
=
E
k=
w
1
1k
#
w2k
或用夹角余弦值来表示:
sim ( D1, D2 ) = cosH=
) 298 )
# 第 31卷 2008年第 2期 #
ITA
! 信息系统 #
2 基于海量智能分词的中文自动分词新算法
21 1 海量智能 分词技术 由海量智能计算 技术研究中心开发的海量智能分词技
术在国内 处于 领先 水平, 其分 词准 确 率达 到 9916% , 分 词效率为 2 000万字 /m in。海量智 能分词 技术很 好地解决 了分词领域 中的 两大 技术 难 题, 即 歧义 切分 和 新词 的识 别。海量智能分词能对绝大多数的组合 歧义进行正确地切 分, 在新词的识别 上, 针 对 不同 类 型 采用 了 不同 识 别算 法, 其中包括对人名、音译词、机构团体名 称、数量词等 新词的识别, 准确率同样达 到了同 行业的领 先水平。 图 1 是海量智能 分词软 件在 对 5向 知识 标引 进军 6 一文 进行 分词的结果。
如今信息资源已经成为人 们竞争的重点, 如何快速获 得有价值的信息已经成为一种 新的财富, 而借助于某些工 具, 自动抽取出能准确代表文 本中的关键词, 是一种解决
信息危机的有效方案。
1 国内外的研究现状
国外对于关键词自动抽取的研究较早, 已经建立 了一 些实验系 统。 Turney 设计 的 GenEx[ 4] 系 统 将 遗传 算 法 和 C415决策树机器 学习方法用于关键短语的抽取; W itten[ 5] 采用朴素贝叶斯技术对短语离散的特征值进行训练, 获取 模型的 权值, 然后 从文 档中 抽取 关键 短语 。H u lth[ 6] 提 出 了一种在学术论文的摘要中自动提取关键词的方法, 她采 用了一种叫做 Ru le Induction 的学 习算 法, 利 用词 频和 词 性等 特 征 对 样 本 进 行 学 习, 结 果 使 得 正 确 率 达 到 了 2917% 。
2) 项 ( Term )。文档的内容特征常常 用它所含有的基 本语言单 位 (字、 词、词组 或 短语 等 ) 来 表 示, 这 些基 本的语 言单 位统 称为 项, 即文 档可 以 用项 集 ( TermList) 表示为 D ( t1, t2, , , tN ), 其中 tk是项, 1[ k[ N。
表示模型之一。由于 VSM 的这些特 点, 在文本过 滤领域, VSM 也是广泛采用 的文 本表 示模 型。 VSM 的基 本概 念如 下:
1) 文档 ( Docum ent)。泛指一般的文本或 文本中的片 断 (段落、句群或句子 ) , 一 般指一 篇文 章。尽管 文档可
以是多媒体对象, 但在本文的讨论中我 们只认为是文本对 象, 并且对文本与文档不加以 区别。
关键词: 关键词抽取; 向量空间模型; 算法
Ab stra ct: On the basis of M assive Inte lligen t Segm entation, th is paper proposes a Chinese keyword extracting a lgorithm based on Vector Space M odel and TF IDF m ethod. After automa tic segmentation of text, th is algor ithm ca lculates the we ight of every word in docum ent space with TF IDF m ethod and extracts the keywords of scientific and techn ica l docum ents accord ing to the ca lculation resu lt. The exper im enta l test w ith self2comp iled software indicates the a lgor ithm improves the effic iency of autom atic keyword extraction of Ch inese scien tific and techn ical docum ents obv iou s ly.
4) 向量空间模型 ( VSM )。给定一自然语言文档 D = D ( t1, t2, , , tN ), 由于 tk在文 档 中既 可以 重 复出 现又 应该有先后次序的关 系, 分析 起来仍有一定的难度。为了 简化分析, 可 以暂不考虑 tk在文档中的先后 顺序并要求 tk 互异 (即没有重复 ) 。这时可以把 t1, t2, , , tN 看成一个 N 维的坐 标系, 而 w1, w2, , , wN 为相 应的 坐 标值, 因 而 D (w1, w2, , , wN ) 被看成是 N 维空间中的一个向量 ( 如图 4中的 D1, D 2 )。我 们称 D (w1, w2, , , wN ) 为 文档 D 的向量表示或向量空间模型。
# 情报理论与实践 #
图 2 改进后的中文科技文献分词算法流程图 笔者用 Java语言编写了一个测试软件, 图 3为用本算 法得到的分词结果。
图 3 改进后的新算法所得的分词结果
) 299 )
! 信息系统 #
ITA
从利用新算法所 得的分词结果可以 看出, / 知识元 0、 / 知识元标引 0、 / 知识元挖掘 0 和 / 知识元链接 0 等词能 被识别出来, 并分别用 / new0 加以标 记。但也 出现了一 些如 / 是知识 0, / 世界 230 等词, 这 主要是因 为这种连 续两个词组合的出现次数比较 大, 新算 法也将它们作为一 个词提取了出来。在以后的工 作中, 我 们将对新词进行过 滤, 以达到更好的分词效果, 下一节将 就所得的结果进行 特征项权重分析。
关键词一要反映 论文 的主题 内容, 二要具 有专 指性。 在学术期刊中, 关键词主要是 名词和术语。目前学术刊物 中的论文一般都有作者自行确 定的关键词, 其他的各类文 章还很少提供关键 词, 通常 需要在 编辑 整理时 手工 抽取。 手工抽取关键词不仅 费时费力, 而且主观性强, 抽取不当 往往会对下一步的应用造成消 极影响。因此关键词的自动 抽取具有一定的研究 价值。
K eyw or ds: keyword extraction; VSM; a lgor ithm
/ 新摩尔定律 0 指出: 因特 网 上的 信息 正 以每 6个 月翻一番的速度爆炸般地产生 , 它使任 何上网寻求信息的 人都难以选择。面对这如海潮 般涌来的五光十色、瞬息万 变的信息, 如果没有一个强有 力的工具来帮助寻找、发掘 有用的信息, 人们 就 会被 湮 没在 信 息 的海 洋 中, 迷 失方 向 [ 1] 。
中文文本没有显式的词边界, 使得关键词的自动 抽取 增加了一定难度, YangW enfeng[7] 提出了基 于 PAT树 结构 获取新 词, 并采 用互信息等统计方法进行关键词抽 取, 但 建立获取候选词的 PAT 树需 要大 量的 存储 空间, 实现 起 来比较复杂。李素建等 [ 8]提 出了利用最大熵模型进行关键 词自动标引的方法, 由于特征的选择以及估计特征参 数时 不够准确, 最大熵模型在关 键词 标引中 的应 用并 不理想。 王军 [ 9]提出了一个 用于自动标引的文献主题关键词抽取方 法, 它 限于从已标引的结构化语料库中元数据的标题 中抽 取关键词。笔者提 出了 一 种建 立在 海 量智 能分 词 基础 之 上, 结 合向量 空间 模型 ( VSM ) 和 TF IDF 特征 项 权重 计 算方法的中文关键词自动抽取新方法。
标点符号用空格代替。经过处理后的文本只包含了全 部实 词和空格, 这里用 ArrayList存储这个经过过滤的文本。
2) 统计词数。通过编写 的全文 检索函 数对 文章中 的 每个词进行词数统计, 并 用一个 H ashTab le分别 存储该 词 的词名 、词性以 及在文中出现的次数。这里只是针对 海量 智能分词结果进行统计, 下一步将对该结果进行改进。
! 信息系统 #
ITA
p 徐文海, 温有奎 (西安电子科技大学 经济管理学院, 陕西 西安 710071)
一种基于 TF IDF方法的中文关键词抽取算法
摘 要: 本文在海量智能分词 基础之上, 提出了 一种基于 向量空 间模型 和 TF IDF 方 法的中 文关 键词 抽取算法。该算法在对文本进行自动分词后, 用 TF IDF 方法对文献空间中的每个词进行权重计算, 然后根 据计算结果抽取出科技文献的关键词。通过自编软件进行的实 验测试表明该算法对中文科技文献的关键词 自动抽取成效显著。
3) 项的 权重 ( TermW e ight)。 对于 含 有 N 个项 的文 档 D ( t1, t2, , , tN ), 项 tk常常 被赋予 一定 的权 重 Wk, 表示它们 在 文 档 D 中 的 重 要 程 度, 即: D = D ( t1, w1; t2, w2; , ; tN, wN ), 简 记为 D = D ( w1, w2, , , wN )。 这时我们说项 tk的权重为 wk, 1[ k[ N。
关键词是为了文 献标引工作, 从报告、论文中选取出 来用以表示全文主题内容信息 的单词或术语。关键词自动 抽取是依靠计算机从文档中选 择出反映主题内容的词, 也 称 作 关 键 词 自 动 标 引 , 在 文 献 检 索、 自 动 文 摘、 文本聚类 /分类等方面有着 重要 的应用 [ 2] 。关 键词 可以为 文档提供一个简短的概括, 使读者能够 在短时间内了解文 档的大概内容。关键词还是信息检索系 统中对文档进行索 引、聚类等操作的基础 [ 3]。
N
E
k=
1w1k
Biblioteka Baidu
#
w 2k
(
EN
k=
w
1
1k
2
)
(
EN
k=
w
1
2k
2
)
31 1 基于向量 空间模型的文本表示
向量空间模型是 由 Sa lton等人于 20世 纪 60 年代末提 出并成功地 应用于著名的 SMART ( System for the M an ipu la2 tion and R etr ieva l ofText) 系统之后, 该模型及其相关的技 术, 包括项的选择、加权策略, 以及采用相关 反馈进行查 词优化等技术, 在文本分类、自动索引、信息 检索等许多 领域得到了 广 泛的 应用。 VSM 已 成为 最简 便高 效的 文本
3) 通过全文遍历, 修正词频统计结果。文本过滤后, 从文章开始处, 如果开始不是空格并且连续两个词不 为空 格, 则统计这两 个词出现的次数, 如果该次数大于给 定的 阈值, 就将这两个词连接起来并修 改词性 为 new, 并代 替 A rrayL ist中原 来的两个词; 再将这个词看 成一个新 词, 如 果它的下一个词为非空, 并且这个新词与下一个词的 出现 词数大于给定 阈值, 则 将 这个 新词 和 下一 个词 又 组成 新 词, 并 把词性改成 new; 如果连续两个 词的词 数不大于 给 定阈值, 或遇到空格或空值, 则跳过, 寻找下一个非 空实 词。经 过遍历, A rrayL ist中的分 词结果有了 反映科技文 章 主旨的能力。同样, 用全文检索函数对新的 ArrayList中的 词进行了次数统计。该算法流程如图 2所示。
图 1 海量智能分词软件分词结果 从图 1中可以看出, 海量智能分词尽管能 把大部分词 语分开, 但对于包含创新点的 科技文章来说, 其中的创新 点词和未登录词尚不能准确地 识别, 分 词结果还不尽如人 意。如文中 的 / 知识 标引 0 和 / 知识 元 0 没 有被看 成一 个词, 而这些词比较好地反映 了该文的主旨, 所以该方法 还有待改进。 21 2 基于海量 智能分词的中文自动分词新算法 海量智能分词对大部分词 都作出了切分, 但不能得到 能反映中文科技文献的关键词 和创新点。为了能得到如实 反映文章语义的更精确的分词 结果, 笔 者提出了一种基于 海量智能分词初步结 果的新算法。 1) 文本过滤。由于 表征 文 章主 旨 的词 主 要 是实 词, 我们首先建立了一个虚词表, 如果海量 智能分词结果中词 的词性为虚词表中的任一种或 标点符号, 则将这个虚词或