从汉字“吃”看汉语词语的信息特征

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

从汉字"吃"看汉语词语的信息特征
作者:卢小宁, LU Xiao-ning
作者单位:北京邮电大学,语言学院,北京,100876
刊名:
北京邮电大学学报(社会科学版)
英文刊名:JOURNAL OF BEIJING UNIVERSITY OF POSTS AND TELECOMMUNICATIONS(SOCIAL SCIENCES EDITION)
年,卷(期):2001,3(1)
被引用次数:2次
1.国家对外汉语教学领导小组办公室汉语水平考试部汉语水平词汇与汉字等级大纲 1997
2.陈灼桥梁--实用汉语中级教程 1997
3.郭志良速成汉语教程--实用汉语课本 1996
4.韩英铎;董名垂汉字基因论及在信息时代将引发的革命 2000(01)
5.周健字词中的趣味 1999
6.常敬语汉语词汇与文化 1995
7.中国对外汉语教学学会第六次学术讨论会论文选 1999
8.刘联荣汉语词汇的流变 1997
9.刘叔新汉语描写词汇学 1990
10.朱伟考吃 1997
11.王宁训诂学原理 1996
1.学位论文王卫玲web文本分类中特征向量优化技术研究2007
随着Internet的迅猛发展和日益普及,电子文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学技术领域面临的一大挑战.文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象,方便用户准确地定位所需的信息.而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类有着广泛的应用前景.
要进行web文本分类,首先要做的就是对web文本数据进行数学描述,其中最常用的模型就是向量空间模型和潜在语义索引模型等.在向量空间模型中,每一个不同的单词都作为特征空间中的一维,每一个文本就是特征空间中的一个向量.潜在语义索引模型在最初对文本的描述上也与之类似.但是,这种描述方法引发了一个非常严重的问题,那就是高维稀疏,加之文本数据所特有的近义词、多义词等等问题,使得文本分类具有相当高的时间复杂度,而且这些问题也极大地干扰了分类算法的准确性,使得文本分类的性能急剧下降.因此,迫切需要通过其它技术优化文本向量表示以帮助提高文本分类的性能.
文本向量的优化技术总的来说分为两类,首先是权重调整方法.权重调整方法是通过综合考虑一个单词相对于一个文本、一个数据集或者一个类的重要性来调整其在不同文本中的权重,使其值尽可能正确地反映一个单词与一个文本在语义上的关系.另一类优化技术是降维,它指的是通过降低特征空间的维度优化文本的表示.主要包括特征选择和特征抽取两种技术.
本文从向量优化技术入手,将研究点分为了两大块:特征选择及其权重计算方案,特征抽取及其权重计算方案,所做的主要工作如下:
在特征选择的研究上,针对目前很少有关于冗余特征研究的现状,分析和论证了在特征选择过程中消除冗余特征的重要性,提出了在特征选择过程中消除冗余特征的途径-特征之间的关联性分析.该方法以信息论量度为基本工具,综合考虑了计算代价以及特征评估的客观性等问题,形成了一种基于关联分析的特征选择算法,算法在保留类别相关特征的同时识别并摒弃了冗余特征,取得了较好的约简效果;在针对特征选择的权重计算方面,首先对传统的权重计算方案进行了分析,在指出其不足的基础上提出了改进方案:(1) 对特征的类别区分能力予以了着重加强,在传统的权重公式中扩展了一项单词的类区分能力:w<,id>=local(t,d)<'*> global(t)<'*>classDisc(t) (2) 对 web 文档信息特征进行分析,并且提出了web 文档中主特征词、主特征域和主特征空间的概念.分析论证了在主特征空间上应当使用文档频度DF(document frequency)信息而非传统意义上的IDFI(inverse document frequency)信息进行权值计算,以更加精确地描述web文本.
在特征抽取的研究上,提出了针对局部LSI的权重计算方案.本文研究了典型的潜在语义索引技术(LSI)在文本分类上的两种应用方式:全局LSI和局部LSI.全局LSI完全无视训练数据中已知的类信息,所以全局LSI不但不会提高反而还会降低文本分类的性能.相比于全局LSI,局部LSI不是在整个训练数据上执行LSI,而是在每一个类的局部区域上分别执行奇异值分解从而为每一个类都创建了一个局部语义空间,然后每一个新的文本都分别被映射到每一个局部语义空间中进行分类.局部LSI通过利用已知的类信息很好地抽取出了区分一个类和其他类的语义结构,所以较之全局LSI有了一定的进步;但是通过对局部LSI的权重计算方案的分析我们发现,其权重计算方法只是简单继承向量空间模型,虽然潜在语义索引与向量空间模型在描述文本上有一定的相似性,但其基本思想有本质的不同:VSM本质上将词语看作空间的维度,将文档根据其所包含的词语看作是该空间中的一个点:LSI中不再将词语看作是单独的维度,潜在语义空间中的维度被认为是对应着各个"潜概念",词语向量被看作是它们在各个"潜概念"上的投影,文档向量是其所包含的词语向量之和.为此本文提出了一种新的基于加权平滑的局部LSI方法,这个方法通过在语义信息表达更清晰的局部区域上执行奇异值分解从而抽取出了更具类区分力的局部语义结构. 分类技术作为数据挖掘技术的基础,是信息过滤的基础技术及核心技术.最后本文将所提出的特征向量优化策略在信息过滤技术平台进行了应用层面的测试,取得了令人满意的测试效果.
2.期刊论文田兵.Tian Bing英语高阶学习词典语用信息标示研究-广东外语外贸大学学报2010,21(5)
词语的语用信息特征系指该词语在不同典型语境中使用时的规约化属性或限制.人类跨语言文化进行交流,尤其是面对面实时交际,对词语语用信息特征的学习掌握提出了更高要求.英语作为重要国际通用语的教学,也要求更加重视词汇的语用信息.由于词汇语用学研究和语料库词汇语用信息分析手段的不断进步,英语常用词语的语用信息得到更多揭示和描写.如何在英语高阶学习词典中进行更合理的描写和表征,成为当前教学词典理论研究和编纂实践的一个重要课题.本文对几部高阶英语学习词典中词语的语用信息特征的实际描写,从空间地域、时间跨度和语体变化等三个方面进行了重点梳理,希望能对
高阶学习词典中词语语用信息描写的阶段性特征、变化趋势加以总结.
3.期刊论文张靖.金浩.ZHANG Jing.JIN Hao汉语词语情感倾向自动判断研究-计算机工程2010,36(23)
汉语词语情感倾向自动判断避免了个人判断的影响,并提高了主观性词典创建效率.讨论和分析汉语词语情感倾向判断技术,使用情感特征集合进行倾向性描述,建立基于二元语法依赖关系的情感倾向互信息特征模型.采用机器学习方式得到分类器,对词语的情感倾向进行自动判别,并进行比较和优化,性能得以提高,最好的SVM准确率达到95.47%,F值达到93.90%.采用特征集合描述情感倾向性,在建立的互信息特征模型上,使用机器学习方法自动判断词语情感倾向是有效的.
4.期刊论文淑琴.那顺乌日图.SHU Qin.Nasunwurtu面向EBMT系统的汉蒙双语语料库的构建-内蒙古社会科学
2006,27(1)
汉蒙对照双语语料库是建设综合型语言知识库的有机组成部分,又是基于实例的机器翻译系统的基础.因为双语语料库中包含两种语言互译信息特征,能够提供两种语言之间丰富的匹配信息,所以不仅在翻译知识的获取、双语词典的编纂、基于语料库的词义消歧等方面起到关键作用,而且在跨语言文献检索、跨语言信息提取、语言教学、双语对比研究等领域都有着广泛的应用前景.作为语言信息处理所需要的语言资源,并行语料库必须有一套统一的标准和规范才能实现资源共享.早日制定蒙古语语料库切分、标注规范对后续工作意义重大.同时实现不同层次的对齐是双语语料库建设的一项重要内容.
5.学位论文何洪峰汉语方式状语研究2006
本课题全面系统深入地研究了汉语的方式状语,全文共分14章。

§1.着重讨论了方式的性质、类型及与相关范畴的关系。

确认了研究范围:方式状语。

§2.提出了方式状语的发展分期的两个标准,据此将方式状语的发展分为三个时期:先秦至西汉;东汉至宋;元代至清。

现代汉语的方式状语是近代汉语的延伸与发展。

§3.先秦至西汉时期,方式状语突出的特点是,以字结构与VP的相对语序不确定。

很多成分可以构成方式状语,名词直接构成方式状语的能力特别强;最能做方式状语的介词结构是以字结构;构成形式大多比较简短。

方式状语的语序发展过程是从VP后逐渐前移。

§4.东汉至宋代,方式状语突出的特点是:以字结构语序基本确定,状语的语法标记及主观化格式尚未成熟。

东汉时期,后置的介词结构基本上都前移至VP前了。

直到宋代,状语标记的语法化程度及方式状语的主观化程度都不高。

方式状语的构成变化不太大。

§5.元明清时期,突出的特点是:状语语法标记“地/的”成熟并广泛地使用,主观化的重叠结构、对称结构及语义多指的方式状语也大量使用。

语法标记的成熟标志着方式状语语法化过程的结束;重叠结构、对称结构大量地构成方式状语;主谓结构做方式状语不少见;比况结构形成了完整的比况模式。

总之,汉语方式状语的发展过程是语序调整确定、语法标记成熟、主观化格式形成及构成成分不断丰富的过程。

§6.方式状语语序的发展有其历时的过程及内在的动因。

先秦至西汉时期,方式状语的语序有两类:(1)非介词结构一律前置;(2)介词结构语序不定。

前置的“以”字结构中,“X以·VP”的结构形式,可以看作是“VP·以X”结构前移的过渡形式。

在时间顺序原则的推动下,后置介词结构逐渐前移。

但是主观性原则也起着一定的作用。

§7.现代汉语的方式状语基本上是明清时期的延续,但其构成的丰富性、语义的多样性、变换的灵活性等等方面却大大超出明清时期。

§8.主谓结构构成的方式状语极富特点,在内部构成、语法性质、语义关系、认知及信息特征等方面与一般方式状语很不相同。

§9.方式状语与谓语有着密切的联系,主要表现是:某些动词虚化中的亦动亦介状态;某些结构的亦谓亦状的状态;状语标记“地”使状语与谓语互相转化。

方式状语与谓语的变换要受到结构和语义方面的制约。

结构方面限制的深层原因是其语义的制约;变换成谓语后,在句法功能、句法语义、信息结构及认知图式上都存在着差异。

§10、§11.§12.有些方式状语与补语、定语、指称性宾语都有着密切的关系。

某些方式状语可以变换成补语、定语;指称性的方式状语有时可以变换成宾语。

变换要受到结构及语义的制约。

变换后也表现出一系列差异。

§13.方式状语内部语义可以表示性质或状态;动作行为;附属事件;方式或情态等等。

联合结构构成的方式状语表示复合的语义。

多重方式状语之间可能有语义关系。

语义功能有四种类型:描写性的;陈述性的;评论性的;指称性的。

语义指向上主要有:单指向的;双指向的;三指向的;多重方式状语的同指与分指等。

§14.方式状语的语义既有客观性,也有主观性。

词语的语义的客观性与主观性主要取决于与其他词语的句法语义关系。

方式状语的主观性较强,形成了一些主观化的句法形式,主要有:状语标记“地”;重叠结构;对称结构;像似结构。

此外,还有隐喻、言说者直接评说等主观性的表达方式。

总之,本课题主要做了如下研究工作:厘定了方式范畴的性质。

提出了方式状语历时发展的分期标准并划分出了方式状语的发展阶段;对方式状语在各时期的特征、构成、语义、发展进行了一定广度与深度的考察;探讨了方式状语语序发展的动因,提出了语序发展有一个过渡形态的观点。

全面考察了现代汉语的方式状语的构成、功能、语义特征、语义关系等等方面;分析了方式状语与谓语、补语、定语、宾语等相关结构成分的变换关系、变换制约关系及其差异;分析了方式状语语义的客观性与主观性,并归纳了方式状语主观化的语法格式。

6.期刊论文马晓华.张薇.MA Xiao-hua.ZHANG Wei俄汉词的语用信息对比-长春大学学报(社会科学版)
2007,17(6)
从俄汉词的语用信息特征在词法、句法及俄汉词的语用信息和语义信息交叉三方面入手,分析对比俄汉词中的语用信息.依据说话人对某种事物或现象所表示的评价态度,即从说话人对说话对象的态度、说话人对客观事实的态度、说话人对所说内容的态度三个方面分析俄汉词的语用信息的异同,揭示了词语中所含有的反映本民族文化、历史背景和生活习惯的信息.
7.学位论文李树青Web个性化信息推荐技术在搜索引擎中的应用2006
快速发展的现代互联网在带给人们大量信息的同时,也不可避免的产生了如何让用户快速有效获取信息的问题。

作为一种常见的Web信息资源检索工具,搜索引擎日益受到人们的关注和广泛的使用,它面向任何Web用户,无需用户具有较高的专业检索知识,使用方式也较为简单,搜索引擎已经成为人们获取Web资源的一种主要方式。

然而,现代搜索引擎也存在着很多不足,其中最为主要的一个问题就是由于采用了全文检索的匹配方法,所以用户往往会得到相当多的查询结果网页,而用户一般只会访问其中感兴趣的网页,但是相当多的搜索引擎缺乏对用户个性化信息的利用,从而不能实现有针对性的个性化信息服务。

事实的情况就表现为即使是具有不同个性化信息需求的用户,在输入相同检索词语的时候也会得到相同的结果,甚至是相同的网页排列次序。

这些问题显然需要得到解决。

借鉴在电子商务网站中广泛使用的Web个性化信息推荐技术,本文提出了一个较为可行的解决方案,即在搜索引擎中使用Web个性化信息推荐技术以实现个性化搜索引擎。

然而,传统的Web个性化信息推荐技术具有很多并不适合搜索引擎的特点,只有结合搜索引擎工作的原理和特点。

在现有的Web个性化信息推荐技术基础上加以改进,才能设计出具有个性化信息推荐能力的智能搜索引擎。

本文的选题是《Web个性化信息推荐技术在搜索引擎中的应用》,通过对基于个性化信息推荐技术的搜索引擎框架和基本技术的探讨,主要介绍了利用搜索引擎服务器日志中所具有
的关键词序列得到用户模式,并按照事务模式聚类的方法实现用户个性化特征的表达,最后在搜索引擎的网页索引中,利用得到的用户个性化特征改进传统的PageRank算法。

通过上述工作,本文构建了一个完整的基于Web个性化信息推荐技术的搜索引擎框架结构。

这种框架结构的设计思想主要考虑了两点内容:一个是尽量减少用户使用的复杂度,能够让用户在完全无需关注个性化过程的情况下,来表达自己的个性化信息需求和得到所需的个性化信息;另一个是尽量在现有搜索引擎技术基础之上进行优化和完善,无需对现有技术和平台环境做过大的调整。

本文的基本结构如下所示:
第一,本文对目前个性化搜索引擎的研究现状和相关概念进行了分析,在给出各种常见搜索引擎个性化形式的同时,也分析了这些技术所存在的主要问题。

通过各种方法的比较,本文认为利用用户个性化信息以完善现阶段的个性化网页权重方法是个不错的搜索引擎个性化方案。

第二,本文比较分析了各种常见的用户模式识别方法,指出适用于当前Web环境的用户模式识别方法所应具有的特点,并提出一种利用搜索引擎服务
器日志信息得到关键词访问序列的思路,据此设计了基于关键词序列的用户模式识别方法。

第三,本文对用户事务模式的相似度匹配方法做了深入的分析和研究,探索了利用基于关键词外在特征的传统事务模式相似度计算方式、基于用户兴趣度的事务模式相似度计算方式、基于关键词语义信息的事务模式相似度计算公式和基于查询文档语义信息的事务模式相似度计算方式。

第四,本文提出了基于修改网页权重值的个性化PageRank算法和基于添加修正参数的个性化PageRanK方法。

针对传统的个性化PageRank算法,利用基于关键词序列的用户事务聚类模式和主题化事务聚类模式,改进了个性化PageRank算法中用户个性化信息特征的表达方法,并给出相应的计算方法。

最后,本文给出了一个较为完整的个性化搜索引擎系统原型。

8.期刊论文李开荣文化认知与汉英文化专有词目等值释义-南京大学学报(哲学·人文科学·社会科学版)
2002,39(6)
汉英双语词典中文化专有词目的等值释义,应当从文化认知出发,分析词目民族文化信息特征,全面揭示文化专有词所隐含的文化信息,采用适当的词语结构和词义表达方式;并因词而异地采取借用和仿造手段,解决目的语中因文化缺项所造成的词语缺项问题,从而促进词语的创新和文化的交流,提高双语词典的释义质量.
9.学位论文邱萌基于内容的多源新闻聚合关键技术研究与实现2009
在当今信息大爆炸的时代,用户如何在浩如烟海的信息中高效地筛选并整合对自己有利的信息成了难题。

而另一方面,随着网络的不断发展,网络新闻的盛行,传统媒体与网络这一“第四媒体”之间的界限将越来越模糊。

<br>
所以在新闻领域,为了跨越传统媒体与网络媒体之间的界限,同时又可以帮助用户快速地将所需的新闻聚合在一起,本文对多形式多来源的新闻聚合技术进行了研究。

<br>
作者研究了多形式新闻聚合所需关键技术,在现在盛行的信息聚合工具RSS技术的基础上,提出了应用于新闻领域的,基于内容的多形式新闻自动聚合解决方案。

本文的关键研究内容概括如下:<br>
利用Agent的自治能力和合作能力,本文将不同新闻源不同形式的新闻的处理交由不同的功能Agent完成,同时又结合了关键词自动抽取技术以及特征向量相似度匹配技术,提出了基于内容的多形式多来源新闻聚合系统架构C-NSSA(Content Based News Syndication System Architecture),用于指导多源多形式新闻的自动聚合。

该架构采用Multi-Agent结构,实现了新闻的采集、预处理、关键词提取、匹配集合、与用户交互等功能,具有高并行性、高可靠性和高可扩展性。

<br>
在系统架构C-NSSA的指导下,本文对新闻自动聚合的核心技术,包括新闻页面解析技术、新闻文档关键词自动提取技术以及表示新闻内容的关键词集合匹配技术,进行了深入的研究。

<br>
在新闻页面解析阶段,本文提出了基于新闻页面结构特征的页而解析方法。

该方法在HTML DOM技术的基础之上,首先将html文本转化成DOM树,然后通过新闻页面的结构特征研究结果,根据文本节点分组总大小,以及一个分组内文本节点大小分析,来实现新闻标题以及正文的提取。

使得页面解析算法更适用于本系统架构的实际应用情况。

在新闻关键词提取阶段,本文利用词的共现性原理,对原有的TF*IDF方法进行了改进。

该方法以传统的关键词权重计算方法TF*IDF为基础,综合考虑了新闻的内容分类,又结合新闻的特点得出词语的位置信息特征,以及词与词之间的共现性特征,使得该关键词权重讣算方法更适用于针对新闻文档的关键词提取。

而在最后的新闻密切度匹配上,本文借鉴了应用广泛的向量空间模型(VSM)以及余弦系数的算法用来计算特征向量的相似性。

同时又考虑到本系统的特殊情况,视频新闻没有文本,只基于内容的多源新闻聚合关键技术研究与实现有个数有限的关键词,若独独采用相似度计算的方法可能会影响匹配效果,于是再次加入词共现性特征的计算。

综合考虑了词的相似度以及关联度两个因素,得到了较好的密切度评估方法。

<br>
最后,由于本系统架构已经使用在具体的项目中,于是在理论研究的基础上,本文对项目的实现进行了简单的介绍,并对本文提出的关键算法进行了实验分析。

用数据证明,基于内容的多源新闻聚合系统有较好的使用效果。

10.期刊论文熊忠阳.付玲玲.张玉芳.蒋健.XIONG Zhong-yang.FU Ling-ling.ZHANG Yu-fang.JIANG Jian结合语
义的特征选择方法-计算机应用2010,30(10)
传统的基于词频统计的特征选择方法忽略了特征项本身的语义信息,特征项之间存在冗余使得维数有限的特征空间无法容纳更多的对分类有用的特征项.为此,利用<知网>(HowNet)的中英双语知识词典构建"概念-领域"表,对每个词语查询该表,如果在表中,则把该词语映射到"领域";否则保留原词.这样不仅可以将较低层概念泛化到较高层概念,还能在一定程度上消除特征项之间的冗余,而且从语义上加强它对所在"领域"的分类贡献度.分别应用信息增益和χ<'2>统计利用该方法进行文本分类实验,结果表明该方法可以有效地提高分类准确率.
1.聂亚宁从体验论看汉语"吃"的转喻和隐喻认知模式及其特点[期刊论文]-湖南大学学报(社会科学版) 2008(2)
2.杨康丽饮食词语的语义引申及对外汉语教学[学位论文]硕士 2005
本文链接:/Periodical_bjyddxxb-shkxb200101014.aspx
授权使用:北京邮电大学(byab),授权号:8f23a15f-db6c-44ee-b86c-9ee501424b33
下载时间:2011年5月16日。

相关文档
最新文档