自然语言处理与领域知识工程研究探索

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• search linguistic pattern which expressing a special kind of conceptual relationship.
• X is a Y • X is a kind of Y • X such as LIST
2020/7/7
acquisition of lexico-syntactic
2020/7/7
• 领域度的计算可以从术语内外部两个角度 来考虑
• 术语内部构成特征
–术语内部不同位置用词特征 • 首末位置用词、词长、词性等
–基于领域部件计算领域度方法
• 术语外部环境特征
–术语在不同领域中的出现特征 • 频率、共现、排序等
–无监督的rank相减方法 –有监督的SVM方法
2020/7/7
2020/7/7
内容
• 知识工程与领域知识工程 • 领域知识工程中的NLP技术研究 • 基于NLP的领域知识工程实践 • 研究框架的初步形成
2020/7/7
内容
• 知识工程与领域知识工程 • 领域知识工程中的NLP技术研究 • 基于NLP的领域知识工程实践 • 研究框架的初步形成
2020/7/7
2020/7/7
• 汉语动词子类框架的自动获取
2020/7/7
A frame work for subcategorization acquisition(1)
• A tagger • A lemmatizer
2020/7/7
A frame work for subcategorization acquisition(2)
• 取得:NP+PP+取得+NP
2020/7/7
领域知识工程中的NLP技术研 究
• 句法语义角色标注:在大规模文本中分 析和标注动词与其搭配的句法成分之间 的语法语义关系。
• 取得:NP+PP+取得+NP

施事:中国妇女
• 取得: 范围:在“平等、发展、和平”的方 向上 ?

结果:历史性 的 伟大进步 ?
Manually confirm
Lex-syn patterns
Associate term pairs
Manually confirm
领域知识工程中的NLP技术研究
• 子类框架的设定及自动提取:建立动词 与它所搭配的句法成分之间的搭配模式
• 中国 妇女 在“平等、发展、和平”的 方向 上 取得了 历史性 的 伟大进步
– Assigning pattern to SCFs or rejecting as unclassifiable
• A SCF filter
– Evaluating sets of SCFs gathered for a predicate
、促进和检验相关NLP的理论、方法与技术; • 以NLP技术为工具,进行领域知识工程的实践。
2020/7/7
内容
• 知识工程与领域知识工程 • 领域知识工程中的NLP技术研究 • 基于NLP的领域知识工程实践 • 研究框架的初步形成
2020/7/7
领域知识工程中的NLP技术研 究
• 术语自动提取 • 术语间概念关系的自动提取 • 子类框架的设定及自动提取 • 句法语义角色标注
• 研究目标:
– 建立汉语动词子类框架模式集合 – 研究汉语动词子类框架的自动获取技术 – 获取汉语高频动词的子类框架的概率信息
2020/7/7
• 汉语动词子类框架集合设置
–参考“语法信息词典”动词的相关属性来 设定
–从句法规则抽象到SCF –利用N元统计在浅层句法分析的基础上提取
SCF – SCF获取技术也可用于SCF 模式的获取 –以上策略的有机融合
• 三类特征:
– 第一类特征是待处理词串在A类领域语料出现的特点 (rank值、首尾词特征等);第二类特征是待处理 词串在B类领域语料出现的特征(频率、词长等); 第三类特征是待处理词串在C类领域语料中出现的 特征。
• 使用SVM light工具包进行分类
2020/7/7
领域知识工程中的NLP技术研究
基于领域部件计算领域度
• 领域部件指的是领域术语组成中具有领 域性的成分。
– “大规模并行程序设计”/ “人民群众”
• 并行、程序
• 领域部件的获得
– 从分词、词性标注的14万IT领域中英文对照 术语表中提取出领域部件、使用的位置、概 率信息,来作为基于部件评价候选术语领域 性的依据。
2020/7/7
2020/7/7
汉语动词子类框架的设定及自动提取
• 对于汉语动词SCF研究,尤其是建立用于NLP的 汉语动词SCF及语义资源知识库,首先要做的 就是确立汉语中动词的SCF种类,即设定汉语 动词SCF的集合,在这个基础上,可以通过机 器自动获取的方式获取具体动词的SCF信息。
2020/7/7
领域知识工程中的NLP技术研 究
Rip g ( w 1 .y h w n .) tE p ( w 1 .w n n . b ) lt o 2 p ( w r 1 .g w n o . b ) b B – A 代表 在输入符号串左边出现的所有不同的字的集合 – B 代表 在输入符号串右边出现的所有不同的字的集合 – LeftEntropy 代表 符号串左边界的信息熵的大小 – RightEntropy 代表 符号串右边界的信息熵的大小
平凡词 • A∩C- A∩B∩C:是否A领域的旧词新用?
2020/7/7
SVM方法
• 术语提取≈分类问题 • 特定子领域的候选术语领域性计算问题
,可以看作是对待处理语料中的候选术 语进行分类的问题。
2020/7/7
• 将A类语料看作一类样本,B类和C类看作另外 一类样本。对候选术语的提取可以看作是将候 选术语分类到A类和B,C类中的过程。
2020/7/7
知识工程
• 知识工程的研究内容:
– 基础理论研究 – 实用技术开发 – 知识型系统工具研究
2020/7/7
知识工程
• 基础理论研究:知识的本质、知识的表示、获 取、推理和学习方法;
• 实用技术研究:解决建立知识系统过程中遇到 的问题,实用知识表示方法、实用知识获取技 术、实用知识推理方法、知识库结构系统、实 用知识描述体系的建立、知识库管理技术、知 识型系统的调试和评估技术等
知识工程
• 什么是知识工程? • 1977年,美国斯坦福大学计算机科学家费根鲍姆教授在
第五届国际人工智能会议上提出“知识工程”的概念; • 知识工程是用人工智能的原理和方法,为那些需要专家
知识才能解决的应用难题提供求解的手段; • 以知识为处理对象,借用工程化的思想,对如何用人工
智能的原理、方法和技术为设计、构造和维护知识型系 统服务进行研究的一门学科,是人工智能的一个应用分 支; • 知识工程的目的是在研究知识的基础上开发智能系统; • 知识的表示、知识的获取和知识的运用构成知识工程的 三大要素。
• A probabilistic LR parser
2020/7/7
A frame work for subcategorization acquisition(3)
• A pattern extractor
– Extracts subcategorization pattern
• A pattern classifier
• 使用领域部件计算领域度
term (D ) h D .p o Peo rf (d iD .x pMie ) d D A .pv Se urfa f
其中D为候选术语,D.pPrefix为在D首位置出现的 领域部件的概率, D.pMidAverage为在D中中间位 置出现的部件的概率的平均值,D.pSuffix为D中末 位置出现的部件的概率。
patterns
corpus
Shallow parsing
extraction of pairs of conceptual related terms
2020/7/7
Associate term pair set
Pattern learner
Term pair learner
Lex-syn Pattern set
2020/7/7
领域知识工程中的NLP技术研 究
• 术语自动提取:从大规模的领域语料中自 动发现术语(从自由文本中挖掘知识点)
2020/7/7
术语自动提取的任务
• 输入为切分好的文本语料 • 输出为候选术语列表
2020/7/7
研究框架
• 什么是术语? • 在特定专业领域中的一般概念的指称 (GB/T
M (X I,Y )lo2 g P (P X () X ,P Y ( )Y )
– P(X,Y) X和Y共现的概率 – P(X),P(Y)为X,Y单独出现的概率 – 可以把字符串序列看成随机事件,这样就可以计算
字符之间的互信息。互信息值越高,X和Y 组成词的 可能性越大;互信息值越低,X和Y 之间存在短语 边界的可能性越大。
• 知识型系统工具的建立:为知识系统的开发提 供良好的环境工具,以提高系统研制的质量和 缩短系统研制周期。
2020/7/7
从NLP的角度看知识工程
• 大规模知识工程需要自动化的手段以保证知识 库的规模、质量、一致性和时效性;
• 知识获取技术研究:利用NLP技术进行文本挖 掘——分析自然语言文本,发现知识点以及知 识点之间的概立:在知识系统的开发环 境中,集成基于NLP的知识获取技术,利用自 然语言处理技术将领域专家的劳动降到最低, 解决知识获取的瓶颈问题;
2020/7/7
领域知识工程
• 针对性 • 实用性 • 可行性
2020/7/7
自然语言处理与领域知识工程 研究探索
• 基础与应用 • 以领域知识工程为应用背景和实验平台,驱动
2020/7/7
基于分类语料库计算领域度
• 现有分类语料库资源
语料库
IT领域
人民日报
计算机
自动化
电子学
软件学报
计算机工程
计算机学报
2020/7/7
• A:计算机领域候选术语
• B:与计算机同层次的电子、自动化等领域语
料 B
• C:人民日报语料
A
C
• A∩B∩C:是领域无关的平凡词 • A∩B- A∩B∩C:排名靠前的有一些是IT领域的
• 术语间概念关系的自动提取:术语间概念关系 提取的任务是:对于给定的两个术语,术语间 概念关系提取首先要判断这两个术语之间是否 存在某种关系,如果有,那么最终确定它们之 间的关系类型。 (从自由文本中挖掘知识点之 间的关系)
2020/7/7
supervised method
• Conceptual relationships are provided by some parts of the text, by means of certain linguistic pattern.
2020/7/7
边界自由度
• 字符串边界自由度(Border variability of the string)
– 字符串的边界上出现多种符号的可能性度量 – 边界上出现的符号种类越多,自由度越大
• 左右熵
Ley ( f w 1 . t w n . E ) p n ( a 1 . t w w n .r ) lo 2 o p ( a g 1 p .w w n .) a A
15237.1-2000 术语工作 词汇 ) • 术语的特点
– 一个词语,完整的语言单位(单元度)
• 出现频繁、结合紧密、使用自由
– 特定领域中的词语(领域度)
• 特定领域的一般概念
• 术语 = 单元度+领域度 • 单元度 = 内部结合紧密度+边界自由度 • 领域度 = 基于领域部件+分类语料库
2020/7/7
待处理语料 领域度计算 领域部件库
分类语料库
单元度计算 完整语言单位 基于领域部件计算领域 度
基于分类语料库计算领域度
术语候选列表
2020/7/7
术 语 自 动 提 取 系 统 框 架
内部结合紧密度
• 字符串内部结合紧密度: 反应了一个字符串内 部单元的结合稳定程度
• 使用MI(Mutual Information)来计算语料单 元的内部结合紧密度
• 知识型系统工具的建立:为知识系统的开发提 供良好的环境工具,以提高系统研制的质量和 缩短系统研制周期。
2020/7/7
从NLP的角度看知识工程
• 基础理论研究:知识的本质、知识的表示、获 取、推理和学习方法;
• 实用技术研究:解决建立知识系统过程中遇到 的问题,实用知识表示方法、实用知识获取技 术、实用知识推理方法、知识库结构系统、实 用知识描述体系的建立、知识库管理技术、知 识型系统的调试和评估技术等
相关文档
最新文档