一堆信息抽取的资料文档

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
本文介绍了FASTUS系统,这是一个从自然语言文本中进行信息抽取的系统,抽取来的信息输入数据库或者用作其它用途。6.MUC-7 Information Extraction Task Definition
MUC-7信息抽取任务的定义7.OVERVIEW OF MUC-7/MET-2
本文简要介绍了MUL-7/MET-2的任务8.Information Extraction: Techniques and Challenges
一堆信息抽取的资料文档
一堆信息抽取的资料文档
http://FullSearch.Com中文全文检索网2005-11-25 14:19:09 sigz
关键词:结构化信息抽取“一堆”,就是没有整理,是堆放的。不是自己写的,是找来的。
我会在这里继续添加的,依然是“堆”。有兴趣的可以看看,没有兴趣的就别碰了。有谁有什么好文,拿出来大家共分享。1.网上信息抽取技术纵览(下载)
第一章导论
第二章简要介绍信息抽取技术
第三章介绍网页分装器(wrapper)的开发
第四章介绍已经开发出来的网站信息抽取系统
第五章介绍信息抽取技术的应用范围以及首批已经进入商业运作的商用系统2.Language Independent Named Entity Recognition Combining Morphological and Contextual Evidence
本文介绍了IE(Information Extration)技术(18页)。9.信息抽取研究综述李保利,陈玉忠,俞士汶
摘要:信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。与信息检索不同,信息抽取直接从自然语言文本中抽取事实信息。过去十多年来,信息抽取逐步发展成为百度文库然语言处理领域的一个重要分支,其独特的发展轨迹——通过系统化、大规模地定量评测推动研究向前发展,以及某些成功启示,如部分分析技术的有效性、快速NLP系统开发的必要性,都极大地推动了自然语言处理研究的发展,促进了NLP研究与应用的紧密结合。回顾信息抽取研究的历史,总结信息抽取研究的现状,将有助于这方面研究工作向前发展。10.Class-based Language Modeling for Named Entity Identification (Draft)
Line Eikvil原著(1999.7)陈鸿标译(2003.3)
信息抽取(Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务………
Jian Sun, Ming Zhou, Jianfeng Gao(Accepted by special issue \\\\\\\"Word Formation and Chinese Language processing\\\\\\\" of the International Journal of Computational Linguistics and Chinese Language Processing) Abstract: We address in this paper the problem of Chinese named entity (NE) identification using class-based language models (LM). This study is concentrated on three kinds of NEs that are most commonly used, namely, personal name (PER), location name (LOC) and organization name (ORG). Our main contributions are three-fold: (1) In our research, Chinese word segmentation and NE identification have been integrated into a unified framework. It consists of several sub-models, each of which in turn may include other sub-models, leads to the overall model a hierarchical architecture. The class-based hierarchical LM not only effectively captures the features of named entities, but also handles the data sparseness problem. (2) Modeling for NE abbreviation is put forward. Our modeling-based method for NE abbreviation has significant advantages over rule-based ones. (3) In addition, we employ a two-level architecture for ORG model, so that the nested entities in organization names can be identified. When decoding, two-step strategy is adopted: identifying PER and LOC; and identifying ORG. The evaluation on a large, wide-coverage open-test data has empirically demonstrated that the class-based hierarchical language modeling, which integrates segmentation and NE identification, unifies the abbreviation modeling into one framework, has achieved competitive results of Chinese NE identification. 11.BBN公司的信息抽取系统SIFT(中文详细说明)
Silviu Cucerzan,David Yarowsky
一种独立于语言的命名实体识别方法。3.信息抽取研究综述
王建会对自动摘要算法改进方面所做的研究工作4.信息抽取综述
这是介绍信息抽取(Information Extraction)的一篇报告,包括MUC、Web抽取(Web Extraction)等。5.FASTUS: A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text
相关文档
最新文档