自动文摘技术综述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

所谓自动文摘,就是利用计算机自动地从原始文档
中提取全面准确地反映该文档中心内容的简单连贯
的短文。
新闻自动摘要 文本情感分析 垃圾邮件处理
话题识别与跟踪
文本倾向性分析 信息检索 信息过滤 文本自动生成等
划分标准 文摘的功能 输入文本的数量 原文语言种类
类型 指示型文摘、报道型文摘、 评论型文摘 单文档摘要、多文档摘要 单语言摘要、跨语言摘要
发的文摘系统
猎兔搜索 /demo/Summary.jsp 澜科语言科技中心 /class_demo.aspx
美国哥伦比亚大学的多文档自动文摘系统Newsblaster

文摘和原文的关系
文摘的应用
摘录型文摘、理解型文摘
普通型文摘(作者观点) 面向用户查询文摘(用户兴趣)
原文输入 文本分析 信息的转换 文摘生成
文摘输出
文本的源表示
文摘表示
图* 自动文摘的处理过程
一. 文档冗余信息的识别和处理 二. 重要信息的辨认 三. 生成文摘的连贯性

自动摘录法

基于结构的自动文摘选取 基于LSI语句聚类的选取方法
(基于单文档文摘技术的方法、基于信息抽取的方法、 基于多文档集合特征的方法)
评价方法 SEE
评价策略 自动文摘单元对标准文摘粒度单元的覆盖程度
ROUGE
Pyramid
统计重叠的基本单元的数目(基于N-gram共现统计,基 于最长公共子串,基于顺序词对,考虑串的连续匹配)
在当今信息爆炸的时代,当人们面对着大量没有经过
整理、提取和分类的原始数据时,将会茫然不知所措,甚
至会淹没在广阔的数据海洋之中。 作为原始文献的二次出版物,人工编制的文摘成本高、 效率低,速度远远比不上发展的要求,而且具有很大的主 观性,因此文摘自动化的研究应运而生。自动文摘的使用 将会大幅度减低编制文摘的成本,缩短文献加工和编辑的 时间,为人们廉价、迅速和准确地获取所需信息提供方便。
自动文摘技术的发展趋势
1、通过句法分析技术,文本生成技术等自然语言 处理技术对句子进行压缩和融合; 2、多文档自动文摘; 3、面向多语言、跨领域。
人工划分为若干个文摘内容单元SCU,SCU按照重要程度 排序,同等重要的排列在同一行,由上向下重要程度逐行 递减,构成所谓的“pyramid”。计算自动文摘中包含的 SCU数量和重要程度来判断文摘的质量。 由机器自动生成标准文摘的较小N元语法单元,合并,实 现自底向上的构造语义单元。Basic Element 构造语法分 析器,然后生成分析树,定义一系列剪枝规则 从分析树中 抽取有效的BE。
BE
NeATS系统(基于抽取 MMR) MEAD系统(基于质心聚类+抽取) MultiGen系统(句子融合)
Newsblaster(美国哥伦比亚大学,对每天发生的同主题新闻进
行摘要)
WebInEssence(美国密歇根大学,个性化的基于Web的多文
档自动文摘和内容推荐系统)
中科院、哈工大、北大、复旦、上海交大等高校研
相关文档
最新文档