中文命名实体识别及关系提取

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

[.*.*] [讯.*.*] [] [.*.*] [报道.*.*] [] [.*.*] [电.*.*] []
例子
关系
方法和关系抽取中上下文匹配的方式相同。
实际情况中，关系一定是要有关键词提示的。比如：创办了微软公司【中文中有关键词】
是微软之父【后文中有关键词】
关系
大多数关系的关键词不是动词而是变化多端的职位 :中共中央总书记胡锦涛微软鲍尔默
原因：中文偏正关系 *为什么将词缀放到机器学习的标记中而不是用于结果修正？后缀容易识别，但是向前匹配的位置难于确定，比如“上海研究院”。
训练模板
字的特征识别： []:前一个字 [] [] [][]:前面一个字和当前字的组合 [][] , [][]
词缀特征识别： []:前一个字的词缀 [][][][][]
其它问题
为什么没有引入词性信息？）一般的词性标注的准确率在左右，而且人民日报语
料的标注词性比较多，有种，准确率要比低一些。）命名实体的准确率在以上，已经比词性标注要高了
。）对于命名实体的提升的话，词性标注没有明显的帮
助办法，换句话说词性对于判错还有些用，但是对于只会降低。
？？？
关系识别
关系：穷举任意两个在一篇文章中出现的命名实体，然后判
Thanks
匹配的上下文形式化：作用方向：是在前，在后，还是反之。作用域：：一个句子，不可有其他实体打断：之后全文（新华社北京讯）：之前全文（记者北京报道）上文，中间，下文：正则表达式，上下文只用一个窗
口，中间的文字去掉无用词，只保留名词和动词。
[] [.*地处.*] [] [] [.*位于.*] [] [] [.*坐落.*] [] [] [.*在] [] [] [.*地址是] [] [] [] [.*报道.*] [] [] [.*讯.*] [] [] [.*电.*]
受的时间内，增大训练语料比多增加分词信息有效得多。
）分词和命名实体标注可以映射为一列，没必要增加一个维度。比如"主 "。实验数据显示，性能没有任何变化。
如何获得词缀信息
）从训练语料中抽取所有的命名实体，然后计算频率，然后抽取所有词的后缀，然后计算频率，取频率高的。
）手动检查是否添加了无用的后缀，比如“上海市”在训练语料出现很多次，提取后缀会出现“海市”为一个高频率后缀，这些需要特殊处理。
测试结果
测试方法：将训练集拆分，用于训练
，用于测试(篇左右)
测试结果：
校正
考虑到没有充分利用分词结果 :"{张牙舞}爪" 》利用分词结果可以校正校正方法：如果命名实体不是由完整的几个词组成的，判错校正结果：
一些问题
为什么没有在标记集中加入分词信息的一列 :江泽民主席）训练时间过长，内存消耗过大。如果训练在可接
“上海市”》“上海” 如果一个地点实体由多个词组成，那么提取它的词性，然后取最后一个，然后判断后缀是否可忽略，如果可忽略返回最后的，否则返回最后的后缀
“上海浦东机场”》“浦东机场” “香港特别行政区”》“香港”
如何匹配上下文
在没有标注语料的情况下，采用了自定义规则，因为从训练语料来看，新闻题材中需要上下文匹配的情况较少，而且特点比较一致。
识别方法：）提取和之间的关键名词，作用域是一个句子中不可打断，除了并列举例的人名。
有职位
）采用一个字典匹配，检查之间是否
存在的问题
命名实体识别：命名实体有很多都识别了，但是无法准确定位一个完整的命名实体，比如“三峡坝区”
命名实体识别：外国人名
关系提取：上下文匹配的办法还比较幼稚，个人认为如果有一个标注的训练语料的话，如果可以统计词频，确定关键词。
中文命名实体识别及关系提取
*** *** ***
中文命名实体识别语料：人民日报年版主要方法：根据训练预料，由字构词将{ }三种实体类型，和分词中的词位信息{}
做组合，其它字标记为 :
中文命名实体识别
词缀标记：人名的姓，比如“王” ：人名的后缀，比如“先生” ：地名的后缀，比如“省”，“特区”，“地区” ：组织名的后缀，比如“委员会”，“公司”
断他们是否是关系。
判断标准：）如果一个地点实体（）是一个组织（）的模糊前缀
。比如“上海市” “上海大白兔有限公司” ）一个地点后紧接着一个组织，“上海市” 的"大白
兔有限公司" ) 在上下文中有关键词匹配成功）中内含，“上海市闵行区派出所”
关于提取地点的核心词
如果一个地点只有一个词，那么去掉它的可以忽略的后缀，所有可以忽略的后缀以字典形式存在一个文件中。