关于智能信息处理技术的研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第24卷第4期微计算机应用V01.24,No.42003年7PJMICROCOMI,U.IERAPPI。ICATIONSJuly.2003
关于智能信息处理技术的研究“
郭庆琳樊孝忠
(华北电力大学计算机系北京102206)(:化京理:l大学计算机系北京100081)摘要:智能信息处理是中文信息处理中的重要课题.尤雌智能搜索和信息获取为重要。而自然语言处理和理解技术是智能信息处理的核心。本文埘|它了自然语肓理解应用于智能搜索和信
息获取的若干问题,阐述了标注、分析搜索要求雌挫完昔耩于词典的知识库的处理手段,特别
是语料库语言学在这些环节的应用情况。同时,率立对中立信息获取技术涉及的具体语言处理
技术也作了较为详尽的论述,包括词典与知帆库、词切分和词性标注、信息获取的短语句法及
语义分析和信息获取的过程。
关键词:搜索要求智能搜索信息获取标注
随着计算机技术的迅速发展,尤其是]nternel的出现和逐渐普及,人们对有用信息的渴望愈来愈强烈。而在浩如烟海的电子信息中搜索自己需要的有用信息其困难程度可想而知。解决这一问题需要对信息进行有效的智能整合,这就涉及到自然语言理解技术。目前全面解
决计算机的自然语言理解尚有非常大的难度,但在个别的应用系统中形成突破却具有较大的可能性。例如,基于自然语言理解的智能搜索和信息获取系统在我们的实验中取得了较好的效果。下面就论述基于自然语言理解的智能信息处理技术——智能搜索、信息获取。
1自然语言理解的两种策略
自然语言理解就是研究如何能让计算机理解并生成人们日常所使用的语言,目的在于建立起一种人与机器之间的密切而友好的关系,使之能进行高度的信息传递与认知活动。建立一个自然语言理解系统,可以是一个纯粹的实验性模型,也可以是一个以直接应用为目的的模型…。
迄今为止的自然语言理解模型,大都以直接应用为目标:或应用于机器翻译,或应用于自动应答,或应用于MIS专家系统,等等。尽管这些模型所采用的语法框架、算法等都各有特点,但在解决自然语言理解的基本策略上却是相当一致的,即都是针对某一具体的应用领域。这种具体领域不仅规定了可用于推理的背景知阻,也规定了可能运用的语汇子集和短语、句型子集。这样的自然浯言理解策略的优点屉:①完全不必对理解所涉及的各个层面(词汇的、句法的、语义的、语用的、语境的)作全面的刻画;②围绕具体领域,可将各个层面的知识作直接的综合。但其缺点是,不具有普遍性、通用性,且往往过分受限,不灵活。
跟绝大多数自然语言理解模型不同,自动识别模型不是针对某一具体的应用领域的,而
本文于2003一ol一13收到.2003—04—28收到修改树。
*本课题为国家重点基础研究发展规划973资助项目(G19990307111
第4期微计算机应用
是面向人工智能所期望解决的一般的自然浯言理解问题的。所谓一般的自然语言理解问题,就是让计算机具备理解人的一般话语的能力,也就是说要在计算机上建立起一个分析或生成一般话晤所必备的知识库来。这种策略,首先把语言理解的各种因素分解开来,逐一加以研究。例如,在各种理解因素中先划出语言因索来。语言因素中又先划出句法因素来。这种策略的优点是,它有可能导致最终建成一个可供一切可能的言语分析或生成所需的自然语0理解知识库。智能搜索和信息获取就应采州过。策略,因为它们所处理的信息是广泛的、普墒的,这要求智能搜索和信息获取必须是智能的。
2智能搜索
搜索是文献量增长到一定程度后的必然婴求,目的在于跟踪相关文献同时尽量减少间读的负担。搜索可抽象成一个过滤器模型,在过滤器内部完成了标注和匹配两个工作。输入世滤器的是原始文献记录,一个控制端予反应用户的搜索要求,而输出的则是从原始记录中筛选出来的满足搜索要求的、甚至是按相关性大小排序后的检出记录。目前实际使用中的情报搜索系统大多数是以处理文献的标识为主,如标题、作者、出版物、主题词、索引号等著求事项。而智能搜索则可以基于语义搜索,艘索对象可为一句话甚至大规模真实文本;智能搜索的对象是自然语言文本,下面论述在自然语言处理技术应用中产生的具体问题。
2.1标注、’一标注是为了产生文本的描述,搜索的真正对象是标注的结果。标注用词可以分成丰题阿
和自由词两种。使用主题词标注时遇到的lⅥ题主要有词表不完备.更新不及时,而且规模世于庞大。使用自由词便于实现标注的自动化【2J。从效率上考虑智能搜索必须采用自由嗣自动标注。词频统计的标注算法是一种不需要“理解”全文的方法。这种方挂分成训练和标洼两个阶段,在训练阶段运行程序统计一个大规模背景语料库中所有词的使用频度。在标注阶段同样统计被标注文本的【可频,之后比较背景语料库和被标文本在词频分布上的差异,将被标文本中出现的异常高频词标注出来即可。统计标注法的效果依赖1二背景语料库的构成,库中收集的文本应该是分布均匀的,包含各种领域和题材,特别是要具备足够大的规模。使用自由词标注比较灵活,可用于智能搜索系统。:2.2理解搜索要求
搜索要求是用户提出的对日标文献特征的描述,从方便的角度考虑希望使用自然语言表达。需要采用自然语言处坪的分析技术将这种表达转换成对全文数据岸的查’向命令。通常用户发出的自然语言搜索要求是零散的浯句。当这样的搜索要求输入系统后,一个自然语言理解前端负责分析其内容。这十前端实际就是一个句法语义分析器,句法分析部分负责生成句法树,可蚪采用功能合一语法。语义分析是根据句法树建立以动词为杜一t2,的语义框架,框架的语义格由名词性短浯填充。在分析过程中还要返回输入中可能出现的错误并通过人机交互纠正。接下来由智能搜索茅统提取框架中的名词性短语,将这些短浯作为关键词,,在经过标注的文献厍中搜索目标记录。可以看出为全文标注所采用的自然语百‘处理技术比较简单高效,而对搜索要求的分析比较精细,这样做是在速度与性能二者之间折衷啦虑。
2.3智能搜索的实现一
智能搜索系统工作在这样一项假设之上:任意两个文档D1和D2,若二:者标注的结果(记作R(D1)和R(D2))完全一致,那么它们所表达的内容(记作M(D1)和M(D2))也认为是