信息抽取技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

GATE设计的三个主要目的
1) 为语言处理软件提供基础架构,提供文 本处理的总体组织结构。 2) 提供可重用的用于自然语言处理的组件 和类库,从而能够嵌入到各种不同语言处 理的应用程序中。 3) 提供语言工程的开发环境,为语言处理 软件的研究和开发提供一种方便的图形化 的环境,为用户提供全面的开发帮助和可 视化的调试机制。
天玑垂直搜索
自然语言理解
ICTCLAS汉语分词系统 正文关键词提取 有意义串提取 文本分类聚类 自动文档摘要 观点倾向性分析 多关键字扫描系统

正文关键词提取
ICTCLAS汉语分词系统

产品功能:
有 意 义 串 提 取
文本分类聚类
自动文档摘要
信息全面获取
组长:于铁响 组员:李汉波 杨涛 姚军 王洋 侯朝辉
中科天玑 Golaxy

Golaxy(中科天玑),前身为1998年成立的中科 院计算所软件研究室,追溯于1990年国家智能中 心理论组,是中国第一家定位于内容深度挖掘的 技术提供商,专业提供互联网舆情监测服务技术 解决方案。Golaxy根植于中国科学院计算技术研 究所多年的核心技术积累,依托于内容智能计算 领域内顶尖的科学家与技术专家团队,在自然语 言理解(Natural Language Understanding)、 信息智能搜索(Intelligent Information Search)、 舆情综合挖掘(Internet Consensus Mining)领 域拥有领先的技术和产品。
GATE信息抽取技术开发背景
随着Internet技术的不断发展及其应用
Βιβλιοθήκη Baidu
的深入,Web俨然已经成为全球最大 的虚拟资料库,可用的信息正呈指数 级增长。如何有效地利用这些信息成 为人们的重要研究课题,因此出现了 大量以Web作为信息源的技术和应用, 其中Web信息抽取技术在近年来引起 了越来越多的研究者关注。
信息智能搜索
I3Search全文搜索 天玑垂直搜索
InfoMagnet元搜索
I3Search全文搜索
产品功能






· 支持32位和64位的主流操作系统 · 性能卓越,纯文本索引速度可以达到9兆字节/秒, 检索速度达到毫秒级 · 多级二次开发接口(c/c++ , java),满足不同用户 的需求 · 与lucene 100% 兼容,实现lucene应用与 i3search的无缝集成 · 支持ICTCLAS 分词组件 · 支持KNIFE格式处理与编码转换组件 · 支持集群并行检索I3Search技术特色



天玑音视频舆情监测系统
产品功能
节目采集 :真实地址解析,音视频节目下载 保, 网页保存,采集器地址隐藏 . 节目分析和归类 :关键信息抽取,自动摘要, 视听节目分类. 舆情分析 :热点话题主题检测与识别,敏感 话题主题检测与识别,主题跟踪,趋势分析, 话题预警 . 数据存储. 信息查询和统计.
1)为语言处理软件规定了一个架构,提 供了有组织的结构。 2)提出了一个框架以及可以应用的类库, 实现这个架构并且可以将其嵌入到各种不 同的语言处理应用程序中。 3)提供了语言工程的开发环境。这个开 发环境构建在整体框架之上,并且提供了 方便的开发组件的图形化工具。
GATE的应用领域
知识管理和语义网络、数字图书

天玑eCIA企业舆情网关
产品功能
以信息需求为中心的主题采集 :排除冗余 相似信息,信息采集实时动态更新, 针对信 息需求点,只采集相关的信息,屏蔽大量 无关的垃圾信息. 信息增值服务 :信息量的变化统计分析, 情报挖掘:新动向(新词汇),Top100的 关键词(新词、人名、地名、机构名).
InfoMagnet元搜索采
集器 天罗通用采集器 天玑垂直采集器
GATE介绍
GATE是一个应用广泛的信息 抽取的开放型基础架构,为用户 提供图形化的开发环境,被许多 自然语言处理项目尤其是信息抽 取研究项目所采用。该系统对语 言处理的各个环节――从语料收 集、标注、重用到系统评价均能 提供很好的支持。
另外的一种方式就把GATE作为
Lib来构建脱离GATE GUI的独立 程序,这时一般的操作就是按照 GATE的API依次对GATE框架, ANNIE Application及其中的PR, Corpus等LR初始化(这些PR, LR实质都是JavaBean),然后运 行并处理输出的结果。
GATE的作用
天玑gKnow专利竞争情报搜索系统
产品功能
检索集成功能
专利采集功能
统计分析功能 聚类分析功能 全文下载功能 全文检索功能
天玑P2P多媒体垂直搜索
产品功能
搜索:根据特征进行搜索,根据特定文
件进行搜索,依据种子搜索,依据hash 值搜索,依据多媒体源文件进行搜索. 追踪:依据特征进行追踪,依据特定文 件进行追踪,依据特定的用户ID或IP进 行追踪. 统计分析. 管理.

GATE系统实现的主要技术
一:CREOLE (a Collection of Reusable Objects for Language Engineering) GATE平台的核心是可重用组件。 二:ANNIE是一个可重用并且易扩展的组 件集合,任务是完成信息抽取和标注。 三:JAPE(a Java Annotation Patterns Engine)的功能是建立规则库,用正则表 达式匹配文本中的信息并作好标注,用于 实现分词分句和较准确的命名实体识别。
GATE开发信息抽取系统的 两种方式
一种在GATE的GUI中添加合适的PR
(可以是已有的Plugin也可以是符合 CREOLE标准的自己编写的PR)组成 一个流水线形式的Application,调用 它对一个Document的LR或者一个 Corpus的LR处理。这种方式需要依赖 GATE的GUI,但在开发初期快速的构 建原型系统和调试程序很方便。



情报的分析提炼 :综合10余家搜索引擎的结果重 新优化排序,按照信息的时间、内容、相关度、 用户兴趣关联度多种手段排序,同一网站信息的 聚合协同,情报的全面综合:内容、标题、关键 词抽取、网站、URL、IP、物理地址等. 情报的灵活地再利用手段 :用户灵活筛选导出信 息结果, 形成企业专有的实时信息情报库,可以 导出到Excel,Word,DB ,可以便捷地与企业的 其他信息系统进行融合,如ERP、CMS(内容 管理系统).
舆情综合挖掘
自然语言理解 信息智能搜索
信息全面获取
舆情综合挖掘
天玑舆情监测系统 天玑音视频舆情监测系统 天玑eCIA企业舆情网关 天玑gKnow专利竞争情报搜索系统 天玑P2P多媒体垂直搜索

天玑舆情监测系统
产品功能

采:以最快的速度对互联网(新闻、论坛、博客、图片/音视频)进 行采集。

看:对信息进行实时、快速、灵活的浏览,按照时效、来源、通道、 内容进行多维度筛选检索。
编:可对热点话题、专题/负面信息、以及作者、文章进行跟踪,可 导入导出相关内容。 处:对信息进行证据保存,转载识别,倾向性分析等。 报:根据用户的要求可生成日报、专报、快报、统计等分析数据及 报表。 管:非法广告识别,敏感短信报警,发删除通知函,删帖跟踪。
馆和文化遗产、E-science、生物 信息学、人类语言技术、数字图 书馆中的文档标注和处理、数字 图书馆中的多媒体 、E-science与 网格、语义网络与知识技术、人 类语言技术
由于Web页面缺乏规范的语法结构,
所以传统的自然语言处理技术并不能 很好的适用于Web信息抽取,另外 Web页面中的大部分内容都以属性列 表的形式呈现,如果把Web的这种结 构特征应用于信息抽取,就可以避免 使用复杂的语言学知识。因此,如何 将基于自然语言理解方式和基于结构 方式有效的结合起来克服各自的缺点, 混合使用各种方法进行信息抽取成为 当前研究的重点之一
相关文档
最新文档