工学博士学位论文 汉语句法歧义消解的统计方法研究 Research on
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息提取
针对不同类型文章的文摘组成方式有可能不同的特征, 针对不同类型文章的文摘组成方式有可能不同的特征,从文档的摘要基本单元候选中进一步确定文摘句 的组成,从而提高文摘句间的内在逻辑连贯性。 的组成,从而提高文摘句间的内在逻辑连贯性。
摘要生成技术
在信息提取算法获得的文摘句基础上, 在信息提取算法获得的文摘句基础上,结合人名识别与指代消解技术以及一些人工总结的规则来生成文 档摘要,以确保摘要良好的流畅性与连贯性。 档摘要,以确保摘要良好的流畅性与连贯性。
2012-2-25
5
主要研究内容
知识库建设
开发适合于文本信息压缩系统的语义词典,通过人工总结,从大规模语料库中建立起信息压缩用知识库, 开发适合于文本信息压缩系统的语义词典,通过人工总结,从大规模语料库中建立起信息压缩用知识库, 手工建立文摘语料库。 手工建立文摘语料库。
统计语言模型的建立
建立一个语义量化模型,用以快速确定文本段落或语句的信息量以及各语言单元之间的语义关联度, 建立一个语义量化模型,用以快速确定文本段落或语句的信息量以及各语言单元之间的语义关联度,为 信息压缩提供重要线索。 信息压缩提供重要线索。
2012-2-25
3
系统概述
主要的自动文摘技术
基于浅层分析的自动文摘技术
只涉及到对文档中所蕴含的一些浅层的特征进行统计与分析, 只涉及到对文档中所蕴含的一些浅层的特征进行统计与分析,然后将其中的 某些特征按特定的量化模型结合起来作为文档信息的量化度量, 某些特征按特定的量化模型结合起来作为文档信息的量化度量,并据此选择 出文档的核心内容,对于文档的浅层分析往往不需要复杂的文档内部表示, 出文档的核心内容,对于文档的浅层分析往往不需要复杂的文档内部表示, 而只需要能够划分出文摘提取时的基本单元就可以了。 而只需要能够划分出文摘提取时的基本单元就可以了。
建立层次结构词典:需要从大规模真是网络文档中人工总结出能够反映层次结构 的知识 初始化文档结构:根据排歧规则来确定每个语句中所包含的层次结构知识 建立分析树:根据相关规则分析文本基本单元间的层次关系并建立层次结构依存 树
2012-2-25
11
隐式章节切分
目的:
通过将以自然段落为基础的文本的物理结构转换成以意义段为基础的文本的逻辑 结构来提高系统生成的文摘的中心主题覆盖率及文摘抽取的准确率。
基于实体分析的自动文摘技术
实现实体层的分析需要首先将文档转化成内部表示的形式, 实现实体层的分析需要首先将文档转化成内部表示的形式,分化出文档的各 个实体并建立起文档实体间的相互关系,通过对文档实体及其相互关系建模, 个实体并建立起文档实体间的相互关系,通过对文档实体及其相互关系建模, 将有助于确定个个实体对于表述文档内容的作用。 将有助于确定个个实体对于表述文档内容的作用。
国家信息安全保障持续发展计划
汉语自动文摘系统 InsunAbs
陈清才
2012-2-25
1
主要内容
系统概述
研究背景 主要的自动文摘技术 系统目标
主要研究内容
系统处理过程 知识库建设 统计语言模型的建立 基于内容的压缩算法研究 信息提取 摘要生成技术 系统优化
系统性能 未来的工作
2012-2-25 2
基于内容的网络信息压缩及摘要自动生成系统(以下简称“系统” 基于内容的网络信息压缩及摘要自动生成系统(以下简称“系统”) 的目标是结合计算语言学与人工智能的技术, 的目标是结合计算语言学与人工智能的技术,开发一个基于内容的 信息压缩系统,使之能高效、准确、 信息压缩系统,使之能高效、准确、精练地抽取出网络中的各种文 本信息的主要内容,生成摘要, 本信息的主要内容,生成摘要,从而极大地加快计算机或人工获取 与处理信息的速度。系统通过将语义、结构、 与处理信息的速度。系统通过将语义、结构、统计方法等多知识源 与当前的汉语自然语言处理的研究成果进行融合, 与当前的汉语自然语言处理的研究成果进行融合,并采用这一方法 来开发一个汉语文本信息压缩与摘要自动生成系统, 来开发一个汉语文本信息压缩与摘要自动生成系统,以基本达到实 用化的商业系统对摘要的质量要求。 用化的商业系统对摘要的质量要求。
系统概述
研究背景
互联网的迅速普及在提供了信息获取途径的同时却给人们留下了另 一个难题,那就是如何在每天都不断涌现的海量信息面前更快速、 一个难题 ,那就是如何在每天都不断涌现的海量信息面前更快速、 准确的获得有用的信息,显然, 准确的获得有用的信息, 显然 , 通过阅读文摘而不是全文能够极大 的加快人们的信息过滤速度,帮助人们更容易地解决这个问题, 的加快人们的信息过滤速度 , 帮助人们更容易地解决这个问题 ,从 而使得对自动文摘技术的需求由过去的科技人员转向了普通用户, 而使得对自动文摘技术的需求由过去的科技人员转向了普通用户, 这也极大的鼓励了人们对自动文摘技术的研究热情。然而, 这也极大的鼓励了人们对自动文摘技术的研究热情 。 然而, 自动文 摘技术当前所取得的研究成果还不如其他自然语言处理技术那样成 熟和得到广泛应用,这主要是因为为一篇文章撰写真正的文摘, 熟和得到广泛应用 , 这主要是因为为一篇文章撰写真正的文摘 ,首 先必须真正的“理解”原文的内容, 先必须真正的 “ 理解 ”原文的内容, 这一任务对人来说比较容易完 但对计算机而言却是显得异常困难, 成,但对计算机而言却是显得异常困难, 而这就导致了自动文摘的 质量,尤其是摘要的逻辑连贯性还很难与人工摘要相比。 质量,尤其是摘要的逻辑连贯性还很难与人工摘要相比。
i
wi2 1=1
N
2012-2-25
9
文档压缩算法
结构分析
文本内容层次结构分析 隐式章节切分 语句连接结构分析 文档自动分类
多知识源融合 摘要抽取
2012-2-25
10
文本层次结构分析
文本层次结构分析包括宏观结构分析和微观结构分析。文本宏观结构是指全 文结构,研究组成全文的各自然段之间的依存关系。文本微观结构是指复句 结构。研究的是各自然段内部各复句之间的依存关系。通过对文本结构依存 树进行文本层次结构分析,我们建立一棵用于抽取文摘的层次结构依存树。 由于网上的文章来源众多,且无法统一格式,所以造成了网络文章格式各异 的情况。要进行网络文章结构依存树模型,先要分析网络文章格式,从中找 到统一的特性。 层次结构分析分成三步:
2012-2-25
12
连接结构分析
目的:
通过快速分析单句或者复句间的语义依存关系,来确定每个语句在表达文本内容 时的角色,为文摘抽取提供判别依据。
任务:
关联词排歧:需要区分一个连接词所引导的是分句还是复句。 根据语法语义规则来进行分句或复句间的语义依存关系分析。本课题共 采用了6条规则,他们描述如下:
P(c1 | y ) = n1 n1 + n2 P (c 2 | y ) = n2 n1 + n2
5) 如果前一概率大于后一项的概率,则y属于C1类,否则属于C2类。 2012-2-25 14
多知识源融合
目的:
多知识源融合的目的是将多个结构分析模块的分析结果按一个统一的量化度量融 合到一起来定量的确定每个语句在文章中的作用。
切分方法:
语义量化模型,通过建立基于词矢量的汉语语义量化模型来对汉语语义进行量化, 以便能够以可计算的形式利用语义信息。 语义相似度计算,在语义量化模型的基础上对词语之间的语义相似度进行计算。 改进Dotplot文本切分算法: 通过用语义相似度来取代Reynar模型的字符串匹配, 将Dotplot中的二值运算转换成模糊计算,同时避免了简单的字符串匹配所带来的 无法描述同义词、词语缩写等问题。
构造分析树
2012-2-25
13
文本自动分类
文本分类的主要步骤:
1.
2.
文本的表示 向量空间模型(VSM) 基本思想是以向量来表示文本:(W1,W2,W3……Wn),其中 Wi 为第 i 个特征项的 权重 。 TF*IDF 本系统采用的加权方法:TF—特征词在文本中的频率; IDF —包含该词的文档数目的倒数 。 本系统采用的分类方法 k近邻方法 :通过找出训练集中与待分类文档最相似的k篇文档,然后根据这k个文档 的类别确定该文档的类别。我们采用的相似度度量标准是余弦夹角。 算法描述: 算法描述: 1) 输入待分类文档y和训练集X; 2) 计算y和X中所有文档的相似度; 3) 找出X中和y最相似的K篇文档; 4) 设n1、n2分别是K篇文档中属于C1和C2类的文档数目,计算以下两个条件概率:
完整性规则: 完整性规则: <L><S(1)><R><S(2)> 举例:虽然赢了,但是问题很多 举例:虽然赢了, <R><S(1)><L><S(2)> 举例:之所以输了,是因为我们准备不好 举例:之所以输了, 简化规则: 简化规则: <S(1)><R><S(2)> 举例:我们赢了,但是问题很多 举例:我们赢了, <L><S(1)> <S(2)>举例:如果赢了,我们要庆祝 举例: 举例 如果赢了, <S(1)><L><S(2)> 举例:我们要庆祝,如果我们赢了 举例:我们要庆祝, <R><S(1)><S(2)> 举例:所以我们出线了,我们努力了 举例:所以我们出线了,
基于话语结构的自动文摘技术
主要是对全文的宏观结构进行建模,这些结构包括: 主要是对全文的宏观结构进行建模,这些结构包括:文档格式 、用于区分文 文体结构如议论文或者说明文的结构特征 议论文或者说明文的结构特征。 本主题的线索 、文体结构如议论文或者说明文的结构特征。
2012-2-25
4
系统概述
系统目标
2012-2-25
8
统计语言模型
构造过程
首先借助于语义词典来选择特征词。 建立一个基于词矢量的语义量化模型,通过对700M文本语料的统计来建立特征矩 阵。 通过引入粗集技术来进行坐标词的选择以及特征矩阵的约简。 语义相似度计算:
N
r r corr ( v , w) =
∑ vw ∑ v∑
i =1 i 2 i =1 i N
系统优化
Βιβλιοθήκη Baidu优化系统的主要参数
2012-2-25
6
系统处理过程
文档
脱机处理
联机处理
开始
语料库 标注
建立信息压缩 用知识库
结构分析
多知识源 融合
摘要 文摘抽取 摘要生成
语料库
信息压缩 用知识库
文档特征库
文摘句集合
2012-2-25
7
知识库建设
建立了一个包含有11万词的通用词典,词典中包含了词 性、词义和统计信息,其中除了我们原有的词条外,又增 加了手工从网上抽取的约6万词 建立了一个层次结构分析用词典,该词典由通过对大规模 网络文档的研究而总结出的可以反映网络文本的内容层次 结构的特征词组成,该词典包含42项,每一项代表一种 层次表示方法而不是一个词条。 建立了一个连接结构分析用词典,该词典同样通过手工构 造,共包含190词条。 此外,还建立了人名识别词典用于人名识别模块
基于内容的压缩算法研究
获取文章中心语义,确定语言单元之间的逻辑关系, 获取文章中心语义,确定语言单元之间的逻辑关系, 确立统计语言模型为基本文本单元进行加权的方法, 确立统计语言模型为基本文本单元进行加权的方法, 综合分析所得的多个知识源来决定组成不同类型文档的摘要候选单元。 综合分析所得的多个知识源来决定组成不同类型文档的摘要候选单元。 采用文档分类模块来识别文档所属类别。 采用文档分类模块来识别文档所属类别。
融合方法:
由于文本的隐式章节划分涉及到语义相似度计算,算法复杂度较大,因而只有当 文本内容结构分析无法给出文本章节划分的信息时才进行隐式章节划分。一般而 言,当文本的长度超过2000字以后,作者往往会以各种形式对文本进行章节划分, 而这种划分是由文本内容结构分析来处理的,所以只有文本较短的时候会用到隐 式章节分析,从而避免了算法的处理瓶颈。 对于结构分析模块,我们的分析结果都是以树的形式来表示的,树中各个节点之 间通过不同类型的关系来进行连接,为了融合多棵不同类型的分析树,我们构造 了一个加权有向图,图中的每个节点都唯一对应于文档中的一个文摘基本单元。 需要将有向图中的每种连接关系转化成一个统一的量化度量:权值,不同类型的 分析结果采用线性插值的方式统一到一起,每种知识源对应一个插值系数。 对于其他的非树型知识源,即其分析结果不是以分析树的形式给出,则需要根据 其分析结果直接给文摘基本单元加权,并将该权值与上述分析结果进行融合。