中文命名实体识别及关系提取

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[.*.*] [讯.*.*] [] [.*.*] [报道.*.*] [] [.*.*] [电.*.*] []
例子
关系
方法和关系抽取中上下文匹配的方式相同。
实际情况中,关系一定是要有关键词提示的。 比如: 创办了微软公司 【中文中有关键词】
是微软之父【后文中有关键词】
关系
大多数关系的关键词不是动词而是变化多端的职位 :中共中央总书记胡锦涛 微软鲍尔默
原因:中文偏正关系 *为什么将词缀放到机器学习的标记中而不是用于结 果修正? 后缀容易识别,但是向前匹配的位置难于确定 ,比如“上海研究院”。
训练模板
字的特征识别: []:前一个字 [] [] [][]:前面一个字和当前字的组合 [][] , [][]
词缀特征识别: []:前一个字的词缀 [][][][][]
其它问题
为什么没有引入词性信息? )一般的词性标注的准确率在左右,而且人民日报语
料的标注词性比较多,有种,准确率要比低一些。 )命名实体的准确率在以上,已经比词性标注要高了
。 )对于命名实体的提升的话,词性标注没有明显的帮
助办法,换句话说词性对于判错还有些用,但是对于只 会降低。
???
关系识别
关系: 穷举任意两个在一篇文章中出现的命名实体,然后判
Thanks
匹配的上下文形式化: 作用方向:是在前,在后,还是反之。 作用域::一个句子,不可有其他实体打断 :之后全文 (新华社北京讯) :之前全文 (记者北京报道) 上文,中间,下文:正则表达式,上下文只用一个窗
口,中间的文字去掉无用词,只保留名词和动词。
[] [.*地处.*] [] [] [.*位于.*] [] [] [.*坐落.*] [] [] [.*在] [] [] [.*地址是] [] [] [] [.*报道.*] [] [] [.*讯.*] [] [] [.*电.*]
受的时间内,增大训练语料比多增加分词信息有效得多 。
)分词和命名实体标注可以映射为一列,没必要增加 一个维度。比如"主 "。实验数据显示,性能没有任何变 化。
如何获得词缀信息
)从训练语料中抽取所有的命名实体,然后计算频率, 然后抽取所有词的后缀,然后计算频率,取频率高的。
)手动检查是否添加了无用的后缀,比如“上海市”在 训练语料出现很多次,提取后缀会出现“海市”为一个 高频率后缀,这些需要特殊处理。
测试结果
测试方法: 将训练集拆分,用于训练
,用于测试(篇左右)
测试结果:
校正
考虑到没有充分利用分词结果 :"{张牙舞}爪" 》利用分词结 果可以校正 校正方法:如果命名实体不是 由完整的几个词组成的,判错 校正结果:
一些问题
为什么没有在标记集中加入分词信息的一列 :江 泽 民 主 席 ) 训练时间过长,内存消耗过大。 如果训练在可接
“上海市”》“上海” 如果一个地点实体由多个词组成,那么提取它的词性, 然后取最后一个,然后判断后缀是否可忽略,如果可忽 略返回最后的,否则返回最后的后缀
“上海浦东机场”》“浦东机场” “香港特别行政区”》“香港”
如何匹配上下文
在没有标注语料的情况下,采用了自定义规则,因为从 训练语料来看,新闻题材中需要上下文匹配的情况较少 ,而且特点比较一致。
识别方法:)提取和之间的关键名词,作用域是一个 句子中不可打断,除了并列举例的人名。
有职位
)采用一个字典匹配,检查之间是否
存在的问题
命名实体识别:命名实体有很多都识别了,但是无法准 确定位一个完整的命名实体,比如“三峡坝区”
命名实体识别:外国人名
关系提取:上下文匹配的办法还比较幼稚,个人认为如 果有一个标注的训练语料的话,如果可以统计词频,确 定关键词。
中文命名实体识别及关系提取
*** *** ***
中文命名实体识别 语料:人民日报年版 主要方法:根据训练预料,由字构词 将{ }三种实体类型,和分词中的词位信息{}
做组合,其它字标记为 :
中文命名实体识别
词缀标记 :人名的姓,比如“王” :人名的后缀,比如“先生” : 地名的后缀,比如“省”,“特区”,“地区” : 组织名的后缀,比如“委员会”,“公司”
断他们是否是关系。
判断标准: )如果一个地点实体()是一个组织()的模糊前缀
。比如“上海市” “上海大白兔有限公司” )一个地点后紧接着一个组织,“上海市” 的"大白
兔有限公司" ) 在上下文中有关键词匹配成功 )中内含,“上海市闵行区派出所”
关于提取地点的核心词
如果一个地点只有一个词,那么去掉它的可以忽略的后 缀,所有可以忽略的后缀以字典形式存在一个文件中。
相关文档
最新文档