基于受限自然语言的房产信息查询设计与实现
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
南京邮电大学
硕士学位论文
基于受限自然语言的房产信息查询设计与实现
姓名:赵希成
申请学位级别:硕士
专业:计算机软件与理论
指导教师:郑彦
20090401
南京邮电人学坝fj研究生学位论文摘要
摘要
中文自然语言查询系统是数据库查询系统研究的重要分支,它是自然语言理解、数据库技术、人工智能、人机界面相结合的产物。它使用户可以直接以汉语自然语言的方式,
向数据库系统发问并获得所需的信息,从而大大改善了人机交互的容易程度。近年来,设
计数据库自然查询接口,已成为自然语言研究中最具有广泛应用前景之一。
本论文主要的研究目标是结合房产信息查询特定的应用需求,研究与实现一个基于受限的汉语自然语言查询系统。它允许用户在界面层输入受限汉语查询语句,然后通过一定
的算法把用户的输入转换成标准的SQL语句,并在房产信息数据库中完成所要求的查询,
输出查询结果。
本论文首先阐述本课题的研究背景和现状,在对已有技术总结基础上,提出汉语语法并能满足查询要求的受限文法规则。研究设计了适合房产信息系统的系统词典:通用词典、
专用词典和关联词典。提出一种改进的分词算法—wSSD(WordSegmentationOilSystem
Dictionary),该算法参照和单词相关的系统词典中给出的数据库语义,应用房产信息的领
域知识,采用词典中长词优先的原则,以从左向右的顺序滑动与被切分的查询语句相匹配,
实现了分词。在分词基础上,设计实现了面向房产信息查询的受限自然语言理解与数据库
查询子模块,该模块实现了受限自然语言理解和类SQL描述。结合关联词典,采用适合本
系统的“关联路径处理"方法,最终实现了类SQL语句至IJSQL语句的转换。
本文的创新点主要体现在:
1.提出符合汉语语法并能满足本系统查询的受限文法规则;
2.研究和设计了适合房产信息查询的系统词典;
3.提出一种改进的分词算法一WSSD算法;
4.设计实现了面向房产信息查询的受限自然语言理解与数据库查询子模块。
本文研究实现的是一个面向房产信息查询原型系统,仅对规则自然语言进行进行查询处理,还有许多改进之处,比如:受限汉语规则扩充,对不同应用数据库移植等,以便使
系统更完善,实用性更强。
关键词:受限自然语言数据库查询系统词典WSSD算法
杭州房产设计
Themaininnovationsofthispaperareasfollows:
1.ThispaperputsforwardtherestrictivegrammarsandrulesthatareconsistentwiththeChinesegrammarsandcallsatisfythedemandsofthequery;
2.This
anddesignsasystemdictionarythatappliesintheestateinformation
paperstudys
query;.
3.Thispaperputsforwardanewword
segmentationalgorithrn--WSSDalgorithm;
andimplementationthetechnologyforestateinformationquerylimitednatural
4.Design
languageunderstandinganddatabasequerysub.module.
Thepaperissimplyresearchingarchetypeofestateinformationsystem,andonlydealingwiththequeryofregularnaturallanguage,Inordertoperfectthesystemandmakeitinto
practicality,sotherearemanyworkstoimprove,suchas:howtoexpandrestrictivechinese
rules,thetransplantofdifferentapplieddatabase,andSOon.
Keywords:RestrictiveNaturalLanguageDatabaseQuerySystemDictionary
WSSDAlgorithm
III
杭州房产设计
南京邮电大学硕}=研究生学位论文缩略词
缩略词
至宿略词英文全称中文译文
CNLQSChineseNaturalLanguageQuery中文自然语言查询系统
System
WSSDWordSegmentationonSystem基于系统词典分词
dictionary
ICOSIdentifyCondition—ObjectSegmentation识别查询条件和目标字段
CCSCreateConditionSegmentation查询条件字段生成
COSCreateObjectSegmentation查询目标字段生成
杭州房产设计
南京邮电人学坝卜研究生学位论文第一章绪论
第一章绪论
随着现代科学技术的发展,人类从工业化社会步入了信息时代,计算机已经成为这个时代标志性的产物,人类对信息的处理也提出了更高的要求。各生产和管理部门对计算机
应用和数据库应用的需要普遍加强,而广大的非专业数据库用户普遍缺乏计算机专业知识
和数据库概念,要让他们对英语的数据库用户界面如国际标准的数据库查询语言的正确使
用是一件非常困难的事情。因此,为中国用户提供易于理解、便于使用的数据库汉语查询
系统是十分重要的。随着自然语言理解研究的深入,中文数据库自然语言界面显然最符合
这类用户的要求,它能接受用户以自然汉语的形式提出查询语句,自动进行分析,生成标
准的SQL语句,对应用数据库进行查询,最终返回用户所需的信息,从而大大改善了人
机交互的容易程度。
1.1论文背景及意义
我国国民经济在改革开放后步入高速增长的轨道。国际经济学界公认中国目前正处于经济起飞的快速发展阶段,并且认为中国已经建立起公认的能带动经济增长的主导产业,
并将持续、快速地增长。1999年以来,申奥成功、实施西部大开发战略以及国家继续实行
积极的财政政策和稳健的货币政策,使得原本并不平静的房地产业更加热闹空前。
近年来,我国的房地产业有了很大的发展,已逐步成为社会主义市场经济中一个支柱性的产业。房地产作为一个不可移动、长久耐用、价值巨大而又人人必需的特殊商品进入
市场,正在越来越受到社会和人们的普遍关注,因而,对房产查询提出更高的要求,目前
我们借助搜索引擎来检索Web上的信息,这在一定程度上满足用户的需求,但这种通用性
的搜索仍不能满足不同背景、不同目的和不同时期的查询需求,为了更好的丰富查询信息、
服务于社会大众,基于自然汉语的查询系统显得尤为重要。
房产信息查询系统作为一项重要的网络应用,提供对信息的查询功能必不可少。目前,如其它领域的应用系统一样,房产信息查询系统只提供简单查询、组合查询以及模糊查询
等操作。从“自然和谐”的人机交互角度考虑,这些常见的查询操作是不大“自然的"一
用户需要一定的思考和计算机专业知识,将自己对计算机系统的需求表达成一个个关键
字,计算机再根据这些关键字才能比较容易的在数据库中进行查找操作。如果用户直接按
杭州房产设计