信息抽取-刘全升
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Shanghai Jiao Tong University
outline
背景与技术 相关研究 市场介绍 发展趋势 展望
Shanghai Jiao Tong University
相关研究
中文信息抽取
• 从最近几年的自然语言处理顶级国际会议上可以看到,中 文自然语言处理在ACL, COLING, SIGIR等会议的研究论 文迅速增多。 • 随着信息技术的发展以及交互式媒体的出现,信息检索与 信息抽取发展迅速,对于中文信息抽取的研究也成为近几 年的新兴热点。 • 对于中文信息抽取的研究工作主要集中于国内科研机构。
Shanghai Jiao Tong University
相关研究
主要成果
• 在中文信息抽取的各个关键技术进行了研究,发表了一 系列论文。 • 主要研究集中于信息抽取的应用。如网页信息抽取。 • 开发除了若干原型系统,针对应用提出了一些解决方案。 • 研究人数较少,没有专职于信息抽取的研究,一般与信 息检索等结合在一起。 • 许多技术有待完善,值得深入研究。
研究对象百度文库
• 网页 • 邮件 • 广告 • 学术论文 • ...
Shanghai Jiao Tong University
研究实例
亚马逊中的书籍描述:
Shanghai Jiao Tong University
研究实例
利用书的模板抽取信息: Title: The Age of Spiritual Machines : When Computers Exceed Human Intelligence Author: Ray Kurzweil List-Price: $14.95 Price: $11.96 : :
Shanghai Jiao Tong University
市场介绍
商业信息抽取系统
• 网站信息抽取和分装器生成技术可在一系列的应用领域内发挥作 用。目前只有比价购物方面的商业应用比较成功,而最出色的系 统包括Jango,Junglee和MySimon。 • MySimon是Michael Yang和Yeogirl Yun一起创建的。一种被称 为虚拟学习代理(Virtual Learning Agent-VLA)的技术由 Yeogirl Yun开发并用于网站 的学习中。VLA生成若干智 能代理,能模仿人的采购行 为,经过训练可从任何一 个购物网站上抽取信息。
Shanghai Jiao Tong University
NLP与IE
信息抽取的关键技术
• 命名实体识别 • 实体关系抽取 • 指代消解 • 事件抽取
Shanghai Jiao Tong University
NLP与IE
信息抽取的评价指标
抽取的正确信息点数 准确率 P(Pr ecision) = 所有抽取的信息点数
Shanghai Jiao Tong University
市场介绍
信息服务企业
• 信息抽取应用往往与其他文档处理技术结合建立功能强大的信息 服务系统。至今,已经有不少以信息抽取技术产品为主的公司出 现。如Cymfony公司、 Bhasha 公司、 Linguamatics公司、 BBN公司等。 • Cymfony公司是一家市场分析与咨询公司,结合功能强大的自动 分析与专家人力解释, Cymfony提供产品和服务,提供情报,消 费者的喜好,竞争对手的长处和短处,以及其他重要信息如公司 的声誉,品牌,产品 和员工等。
0 4 2
Shanghai Jiao Tong University
相关研究
中文信息抽取
• 起步较晚。 • 由于中文本身的特殊性,构建中文信息抽取系统要比构 建英文等其他西文信息抽取系统要苦难的多。 • 目前的主要研究工作还集中在对中文命名实体的识别以 及其他简单的抽取任务。 • 设计实现完整的中文信息抽取系统方面还处在探索阶段。
Shanghai Jiao Tong University
市场介绍
中文信息抽取
• 主要集中于学术研究,原型系统方面,市场化应用较少。 • 有一些公司兼做一些信息抽取的应用,专职于中文信息抽取的企 业还未见报道。 • 主要应用于网络信息抽取。 • 公司规模较小,尚在迅速发展/成长阶段。如TRS、问天等。 • 市场需求比较多,有很大的发展空间。
NLP与IE
命名实体识别
• 判断一个文本串是否代表一个命名实体,并确定它的类别。 • 在信息抽取研究中,命名实体识别具有非常直接的实用价 值,在对文本中的名称、地点、日期等进行标注之后,即 提供了对这些信息进行检索的可能。 • 对于许多语言处理系统,命名实体识别都是其中一个很重 要的部分,是目前最有实用价值的一项技术。
Shanghai Jiao Tong University
NLP与IE
命名实体识别
• 根据MUC评测结果 ,英文命名实体识别任务的F-指数 (召回率与准确率的加权几何平均值,权重取1)能达到 90%以上,中文的值稍小一些。 • 早期主要采用属于规则的方法,随着计算机计算速度的加 快和大量熟语料的出现,使得统计方法成为实现命名实体 识别的主流方法,如基于HMM的方法,最大熵模型等。 • HMM方法被认为更容易捕捉局部的语言现象,成为更多 研究者的选择,尤其是用于己有的汉语命名实体识别系统 中
事件元素
• 评价指标一般也采用准确 率、召回率和F指数。
Shanghai Jiao Tong University
NLP与IE
事件抽取
• 可由下面两个主要步骤组成:
1. 事件类别识别:事件模板由事件的类别决定。ACE2005 定义了8 种事件类别以及33 种 子类别。每种事件类别/子类别(简称为“事件类别”)对应着唯一的事件模板。 2. 事件元素识别:事件元素是指事件的参与者。根据所属的事件模板,抽取相应的元素, 并为其标上正确的元素标签
Shanghai Jiao Tong University
NLP与IE
指代消解
• 在信息抽取中,用以合并 描述同一事件或实体的信 息片断。 • 典型的基于学习的知道消 解系统框架:
Shanghai Jiao Tong University
NLP与IE
指代消解的基本方法
• 1978年~1995年,以句法分析为基础的基于语言学方法 的指代消解,代表方法是Hobbs算法以及中心理论。 • 1995年~2002年,这段时间主要是各种基于二元对的分 类方法以及基于向量相似度的聚类方法。 • 2002年至今,越来越多的研究人员开始考虑如何引入背景 知识以及语义知识,同时采用一些全局考虑篇章信息的方 法来实现最优化的篇章指代消解。
基本步骤
• 1、构造信息抽取规则/模板。 • 2、利用模板抽取特定新闻或事件中包括人、事、地与 时间等事实。 • 3、结构化抽取出来的信息并存储。
Shanghai Jiao Tong University
研究内容
信息抽取
• 在非结构化/半结构化的文本文件中确定特定的信息。 • 将文档集或网页中的非结构化信息转换到结构化数据 库中。适用于不同类型的文本。
Shanghai Jiao Tong University
NLP与IE
事件抽取
• 把含有事件信息的非结构化文 本以结构化的形式呈现出来。 • 在自动文摘,自动问答,信息 检索等领域也有着广泛的应用。 • 事件由事件触发词(Trigger) 和描述事件结构的元素 (Argument)构成。
事件触发词
• 主要采取模式匹配的方法和机器学习的方法。
1. 模式匹配的方法是指对于某类事件的识别和抽取是在一些模式的指导下进行的,采用各 种模式匹配算法将待抽取的句子和已经抽出的模板匹配。准确率较高,但往往依赖于具 体领域,可移植性差。 2. 把事件抽取任务看作分类问题,把主要的精力放在分类器的构建和特征的发现、选择上。 相对而言,这种方法较为客观,不需要太多的人工干预和领域知识,是目前主要采取的 方法。
• 与 MUC 相比,目前的 ACE 评测不针对某个具体的领域或场景, 采用基于漏报(标准答案中有而系统输出中没有)和误报(标准 答案中没有而系统输出中有)为基础的一套评价体系,还对系统 跨文档处理(Cross-document processing)能力进行评测。 这 一新的评测会议将把信息抽取技术研究引向新的高度。
Shanghai Jiao Tong University
outline
背景与技术 相关研究 市场介绍 发展趋势 展望
Shanghai Jiao Tong University
市场介绍
早期-分装器生成系统
• 专门用来从网站数据库系统生成的网页。 • 有些采用分隔符为主的抽取规则,无需用到句法和语义 知识,局限于处理比较结构化的数据。如ShopBot, WIEN, SoftMealy和STALKER。 • 有些能处理结构化程度稍差的信息源。如RAPIER, WHISK和SRV。这些系统能处理的文本类型要多一些。 这些系统更接近传统的信息抽取方法。
Shanghai Jiao Tong University
相关研究
主要研究机构
• 哈尔滨工业大学信息检索研究室 • 清华大学智能技术与系统国家实验室自然语言处理组 • 中科院自动化所模式识别国家重点实验室语音语言技术 研究组 • 上海交通大学APEX数据和知识管理实验室 • 大连理工大学信息检索实验室
Shanghai Jiao Tong University
NLP与IE
实体关系抽取
• 确定实体之间的关系。包括隐含的关系和明确的关系。 • 在信息抽取系统中至关重要。也应用于其它领域如知识管 理、自动问答、语义网等研究中。 • 机器学习方法是研究实体关系的主流方法。 • 常用评价指标也是准确率、召回率和F指数。
中文自然语言处理在信息提取和过滤中的 技术应用及其市场趋势调查
Shanghai Jiao Tong University
outline
背景与技术 相关研究 市场介绍 发展趋势 展望
Shanghai Jiao Tong University
概念定义
信息抽取
• 从文本中抽取指定的一类信息 (事件、事实) 并将其形 成结构化的数据填入一个数据库中供用户查询使用的 过程。
Shanghai Jiao Tong University
市场介绍
具体应用
• ShopBot用于产品描述的信息抽取上,用于比价购物。 所抽取的产品信息按价格排序。 • STALKER被用来抽取不同网站上的餐厅信息,如餐厅 名称、菜肴种类、价格、烹调方法、地址、电话和评价。 • SRV试用在讲座信息的抽取任务上,把讲者、地点、时 间等信息抽取出来。 • RAPIER和WHISK被用于招聘广告的信息抽取。需抽取 的信息点包括职位名称、工资、地点等。 • .....
Shanghai Jiao Tong University
市场介绍
针对信息抽取的专业评测活动
• MUC-文本信息理解评测会议 • ACE-自动内容抽取评测会议
1. 实体识别与跟踪 (EDT,Entity Detection and Tracking) 2. 关系识别与描述(RDC,Relation Detection and Characterization)
召回率 R( Re call) = 抽取的正确信息点数 所有正确的信息点数
((beta) 2 + 1) × Pr ecision × Re call F指数(F _ measure) = ((beta) 2 × Pr ecision) + Re call
Shanghai Jiao Tong University
Shanghai Jiao Tong University
相关研究
ACL&COLING中信息抽取领域论文情况
(统计信息来自:http://www.aclweb.org/anthology-new/)
会议 ACLACL-COLING06 ACL07 COLING08 ACL08 投稿 未知 70(含信息检索) 70(含信息检索) 含信息检索 未知 34 录用论文数量 11 15(5篇为信息抽取) 15(5篇为信息抽取) 篇为信息抽取 22 15 中文数量 1 录用比例 未知 21% 未知 43% 占论文总数比例 5% 4%(信息抽取比例) 4%(信息抽取比例) 信息抽取比例 12% 13%