哈工大信息检索研究中心HIT-CIR共享资源和程序库协议
哈尔滨工业大学统一平台接入管理办法
哈尔滨工业大学统一平台接入管理办法网信中心[2017]7号统一平台服务是校园信息化建设的基础平台,由统一身份认证、共享数据中心、统一通信平台等组成。
业务实施单位在数字校园项目建设过程中,需要接入统一平台时,为防止对学校接口文档、共享数据、demo程序等泄密,分清责任,学校相关业务管理单位和承建数字校园项目的软件开发公司需要遵守以下规定:接入统一身份认证业务管理单位需填写附件一《统一身份认证接入申请处理单》,承建软件开发公司需填写附件五《接口保密协议》,经相关部门审批签字盖章后提交网络与信息中心备案。
接入共享数据中心业务管理单位需填写附件二《信息集成申请处理单》,承建软件开发公司需填写附件五《接口保密协议》和附件六《共享数据安全保密协议》,经相关部门审批签字盖章后提交网络与信息中心备案。
接入统一通信平台业务管理单位需填写附件三《统一通信平台集成申请处理单》,承建软件开发公司需填写附件四《信息源入网信息安全保障责任书》和附件五《接口保密协议》经相关部门审批签字盖章后提交网络与信息中心备案。
统一身份认证接入申请处理单信息集成申请处理单统一通信平台集成申请处理单信息源入网信息安全保障责任书信息源责任单位接入《哈尔滨工业大学统一通信平台》保证遵守以下各项规定:一、遵守国家有关法律、行政法规和管理规章,严格执行信息安全管理规定。
二、不得利用哈尔滨工业大学统一通信平台从事危害国家安全、泄露国家机密等违法犯罪活动,不得利用哈尔滨工业大学统一通信平台制作、查阅、复制和传播违反宪法和法律、妨碍社会治安破坏国家统一、破坏民族团结、色情、暴力等的信息。
发现上述违法犯罪活动和有害信息,应立即采取措施制止并及时向有关主管部门报告。
信息源责任单位提供的信息必须遵守国家有关知识产权的法律、政策规定。
信息源责任单位在联网测试、试运行期间以及业务正式开通后,应保证其所提供业务内容的安全性与稳定性,不对哈尔滨工业大学统一通信平台造成危害。
科大讯飞与哈工大联合创语言认知计算联合实验室
语言认知计算领域进行长 期、深入的合作,具体开 展类人答题、自动阅卷、 语音情报分析、社会舆情 计
算等前瞻课题的研究,重 点突破深层语义理解、逻 辑推理决策、自主学习进 化等认知智能关键技术, 支
第二天早上我6点就起 床了,因为要跟老爸 去爬山,当然早晨起 来的第一件事忘不了。
撑科大讯飞实现从“能听 会说”到“能理解会思考 ”的技术跨越,并围绕教 育学习、人机语音交互、 信
创建的“哈尔滨工业大学 ·讯飞语言认知计算联合 实验室”(HIT·iFLYTEK Langua
ge Cognitive Computing Lab,简称HFL)正式成立。 实验室主任由哈
尔滨工业大学社会计算与 信息检索研究中心刘挺教 授担任,副主任由讯飞研 究院常务副院长胡国平博 士
担任。此次双方的强强联 手、优势互补,必将进一 步推动哈尔滨工业大学社 会计算与信息检索中心多 年
根据联合实验室建设规划双方将语言认知计算领域进行长期深入的合作具体开展类人答题自动阅卷语音情报分析社会舆情算等前瞻课题的研究重点突破深层语义理解逻辑推理决策自主学习进化等认知智能关键技术第二天早上我6点就起床了因为要跟老爸去爬山当然早晨起来的第一件事忘不了
科大讯飞与哈工大联合创 语言认知计算联合实验室 11月28日,科大讯飞与哈 尔滨工业大学联合
智能语音技术的多个领域 均处于业界领先地位。随 着技术与业务的进一步拓 展,科大讯飞对自然语言 理
解和认知智能的技术需求 日益迫切和广泛,并于今 年8月启动了“讯飞超脑” 项目计划向认知智能领域
展开探索和攻关。 “ 哈尔滨工业大学•讯 飞语言认知计算联合实验 室”是科大讯飞针
对“讯飞超脑”项目计划 ,重点引进和布局的核心 研发团队之一。根据联合 实验室建设规划,双方将 在
哈工大文献检索课件
精炼检索结果
可利用 include或exclude来 找到更理想的结果 参考记录条数。可将这些统 计数字导出至表格
•Controlled Vocabulary
•Classification Code •Country •Document Type •Language •Year •Source Title •Publisher
“简单检索”可在检索对话框中输入检索词或检索表达 式
LOGO
检
索
结
果
界
面
LOGO
输入检索词
选择检索词之 间的概念关系
限定检索条件
点选之后,自动 取消词根检索
索引词典
快 速 检 索—Quick SearchLOGO
快速检索界面介绍
LOGO
LOGO
LOGO
LOGO
检索技巧
1. 逻辑算符、位置算符和截词符
逻辑算符及位置算符 : AND OR NOT NEAR ONNEAR
截词符: * ?
NEAR 词序可颠倒
ONNEAR 词序不可颠倒 * 代表无限字符,可以在任意位置 Transplant* 代表transplanting、 transplantation、transplanted等
? 代表一个字符
Wom?n 代表woman or women
类型 年 2000 2001 2002 2003 2004 2005 2006
EI收录 论文数量(篇) 379 502 694 846 1192 1186 2137
EI收录 较上一年增长℅ 40.89 32.45 38.25 21.90 40.90 58.22 13.31
EI收录
高校排名
4 3 4 4 4 5 4
事理图谱-哈工大社会计算与信息检索研究中心
事理图谱:事件演化的规律和模式作者:李忠阳,赵森栋,丁效引言事件是人类社会的核心概念之一,人们的社会活动往往是事件驱动的。
事件之间在时间上相继发生的演化规律和模式是一种十分有价值的知识。
然而,当前无论是知识图谱还是语义网络等知识库的研究对象都不是事件。
为了揭示事件的演化规律和发展逻辑,本文提出了事理图谱的概念,作为对人类行为活动的直接刻画。
在图结构上,与马尔科夫逻辑网络(无向图)、贝叶斯网络(有向无环图)不同,事理图谱是一个有向有环图。
现实世界中事件演化规律的复杂性决定了我们必须采用这种复杂的图结构。
为了展示和验证事理图谱的研究价值和应用价值,我们从互联网非结构化数据中抽取、构建了一个出行领域事理图谱。
初步结果表明,事理图谱可以为揭示和发现事件演化规律与人们的行为模式提供强有力的支持。
事理图谱的定义首先,给出事件、事件间顺承和因果关系的定义。
事理图谱中的事件用抽象、泛化、语义完备的谓词短语来表示,其中含有事件触发词,以及其他必需的成分来保持该事件的语义完备性。
抽象和泛化指不关注事件的具体发生时间、地点和具体施事者,语义完备指人类能够理解该短语传达出的意义,不至于过度抽象而让人产生困惑。
例如,“吃火锅”,“看电影”,“去机场”,是合理的事件表达;而“去地方”,“做事情”,“吃“,是不合理或不完整的事件表达。
后面三个事件因为过度抽象而让人不知其具体含义是什么。
事件间顺承关系指两个事件在时间上先后发生的偏序关系;在英语体系研究中一般就叫做时序关系(Temporal Relation),本文认为两者是等价的。
例如,“小明吃过午饭后,付完账离开了餐馆。
”吃饭、付账、离开餐馆,这三个事件构成了一个顺承关系链条。
事件间因果关系指在满足顺承关系时序约束的基础上,两个事件间有很强的因果性,强调前因后果。
例如,“日本核泄漏引起了严重的海洋污染”。
“日本核泄漏”和“海洋污染”两个事件间就是因果关系,“日本核泄漏”是因,“海洋污染”是果,并且满足因在前,果在后的时序约束关系。
管理信息系统05-ERP
18
商业供应链系统 详细模式
定单录入/开票 定单录入/开票 采购管理 采购管理
“链”管理
库存管理 库存管理 分销管理 分销管理 零售管理 零售管理
流程管理
定价管理 定价管理 经营状况统计分析 经营状况统计分析 成本控制 成本控制
客户信息管理 客户信息管理 供应商信息管理 供应商信息管理 人力资源管理 人力资源管理 应收帐 应收帐
mawz@ 管理信息系统讲义 26
内部决策
成本控制
•传统的期间费用分配
单一的分配原则 期间费用 期间费用 如:工时、销量 各工作中心 各工作中心
商品 商品
•ABC法的期间费用分配
作业成本集
搬运 搬运 期 期 间 间 费 费 用 用
mawz@
成本发生因素 成本发生因素 单位费用 (×) 数目
成 成 本 本 控 控 制 制
•成本模拟 •成本模拟
•强大的报表功能 •强大的报表功能
“链”管理
供应链
财务与成本控制(资金流/工作流) 资金流入
资金流出
供应 供应 市场 市场
采购 采购
储存 储存
商 业 企 业
销售 销售
需求 需求 市场 市场
需求信息 / 工作流 供给信息 / 增值流 / 工作流
mawz@ 管理信息系统讲义 31
财务管理
mawz@
应付帐 应付帐
管理信息系统讲义
现金管理 现金管理 总帐 总帐
内部决策
19
流程管理 定单录入/开票 定单录入/开票
•在线录入帮助 •在线录入帮助 •购买条件检查 •购买条件检查 •即时库存显示 •即时库存显示 •计价方式查询 •计价方式查询 定单录入 定单录入 •历史票据回顾 •历史票据回顾 •异常录入预警 •异常录入预警 •客户预订处理 •客户预订处理 •样品、赠品 •样品、赠品 •可替代品显示 •可替代品显示
哈工大图书馆工程索引
《ISTP》(科技会议录索引,Index to Scientific &Technical Proceedings)
创刊于1978年,由美国科学情报学会编辑出 版,会议录收录生命科学、物理与化学科学、 农业、生物和环境科学、工程技术和应用科 学等学科,其中工程技术与应用科学类文献 约占35%。
《ISR》(科学评论索引,Index to Scientific Reviews)
创刊于1974年,由美国科学情报研究所编辑 出版,收录世界各国2700余种科技期刊及 300余种专著丛刊中有价值的评述论文。高 质量的评述文章能够提供本学科或某个领域 的研究发展概况、研究热点、主攻方向等重 要信息,是极为珍贵的参考资料。
概况
美国《工程索引》(The Engineering Index 简称EI),创刊于1884年,目前由美国工程情 报公司(The Engineering Information Inc. , USA)编辑出版。EI是世界著名的检索工具, 是检索工程技术领域文献的主要工具之一。 EI也有磁带版、光盘版和网络版。
《SCI》(科学引文索引,Science Citation Index)
创刊于1963年,是美国科学情报研究所(ISI) 出版的一部世界著名的期刊文献检索工具。 SCI收录全世界出版的数、理、化、农、林、 医、生命科学、天文、地理、环境、材料、 工程技术等自然科学各学科的核心期刊约 3500种;扩展版收录期刊5800余种。
Ei Compendex
Ei网络版数据库名称为Compendex,侧重提供应 用科学和工程领域的文摘索引信息,涉及核技术、 生物工程、交通运输、化学和工艺工程、照明和光 学技术、农业工程和食品技术、计算机和数据处理、 应用物理、电子和通信、控制工程、土木工程、机 械工程、材料工程、石油、宇航、汽车工程以及这 些领域的子学科。其数据来源于5100种工程类期刊、 会议论文集和技术报告,含700多万条记录,每年 新增约25万条记录。我馆定购的文献时间范围: 1970年至今。
哈尔滨工业大学信息检索研究室
智能技术与自然语言处理研究室:王晓龙教授
语音处理研究室:韩纪庆教授
信息检索研究室:刘挺教授
深圳分部(哈工大深圳研究生院):王轩副教授
校友
王海峰(东芝)、张民(新加坡)、于浩(富士 通)、付国宏(香港大学) 荀恩东(北语)、吕雅娟(计算所)、姚建民 (苏州大学)、张刚(计算所)
语法分析 分词 词性标注 命名实 体识别 依存句 法分析
基于XML的语言学知识资源、常识知识资源和语料库资源
哈工大信息检索研究室
LTML
(Language Technology Markup Language)
哈工大信息检索研究室
资源共享
免费共享程序资源和数据资源
《同义词词林(扩展版)》 中英文双语句对 中文问答系统测试集 汉语依存树库 “分词/词性标注/依存分析/词义消歧”人工 标注语料库 自动文摘语料库
哈工大信息检索研究室
主要论文
国内期刊 《软件学报》 《电子学报》 《自动化学报》 《电子学报》 《计算机研究与发展》 《情报学报》 《中文信息学报》 1 1 2 1 2 3 6
国际期刊 International Journal of Computer Processing of Oriental Languages Journal of Chinese Language and Computing 1 1
语言技术平台LTP
/ltp/
哈工大信息检索研究室
语言技术平台LTP
目前已有国内外130余家 学术机构和我实验室签署 协议,共享了这个平台。
哈工大信息检索研究室
面向音乐领域的文本检索与挖掘系统
面向音乐领域的文本检索与挖掘系统*付瑞吉,秦兵,刘挺哈尔滨工业大学计算机学院信息检索研究中心哈尔滨150001Email: {rjfu, bqin, tliu}@摘要:本文介绍了一个面向音乐领域的文本检索与挖掘系统——八维音乐资讯,主要通过信息抽取技术,对音乐领域的大量半结构化和非结构化的文本进行深层次的挖掘,从中抽取出有价值的信息,转换为结构化数据,目的是为用户提供精准化、全方位的音乐检索结果。
该系统从人、物、时、空、评价、数量、事件和关系八个角度出发,集成了命名实体识别、关系抽取、事件抽取、倾向性分析、问答等多项自然语言处理和信息抽取技术。
系统设计采用MVC架构,包括3层结构:模型层、控制层和视图层。
总之,该系统将已有的信息抽取技术应用于音乐垂直检索系统,具有一定的新颖性和实际意义。
关键词:八维音乐,信息抽取,垂直搜索Text Retrieval and Mining System for Music DomainFu Ruiji, Qin Bing, Liu TingResearch Center for Information Retrieval of Computer Science & Technology School, Harbin Institute of Technology, Harbin 150001Email: {rjfu, bqin, tliu}@Abstract:This paper presents a text retrieval and mining system for music domain, named 8wei Music Information. By means of information extraction (IE), it can mine a great deal of semi-structured and unstructured text deeply, extract valuable information from it and convert the information into structured data, which aims to return accurate and overall search results to users. From persons, objects, time, space, opinions, quantity, events and relations 8 standpoints, 8wei Music system integrates many kinds of natural language processing (NLP) technologies and IE technologies, such as named entity recognition, relation extraction, event extraction, sentiment classification, question-answering, etc. The MVC software framework is used in the system, which consists of three components: Model, View and Controller. In brief, existing IE technologies are used for music vertical search system, which has a certain novelty and practical significance. Keywords: 8wei Music; Information Extraction; V ertical Search1引言随着互联网技术的发展,尤其是进入web2.0时代以来,博客、RSS、WIKI、SNS等社会软件的涌现,使每一个用户都可以成为信息的发布者,网络上的信息迅猛增长。
哈工大信息检索研究中心HITCIR共享资源和程序库协议
哈工大信息检索研究中心(HIT-CIR)共享资源和程序库协议
甲方:哈工大信息检索研究中心(HIT-CIR)
乙方:(此处填写申请人所在单位)
特别说明
1)HIT-CIR共享资源的完整数据和程序库的完整版本只免费提供给“高校和科研院所”用于科学研究,对于独立个人或者商业公司的申请恕不免费提供。
2)请您所在课题组负责人将本协议Word电子版直接发送给车万翔老师(car@)。
为了更好的和同行们交流,促进自然语言处理及信息检索技术的发展,甲方将标注好的多种语料资源和编写的程序库(如下表)免费共享给乙方。
本着互相促进及知识产权的原则,甲方默认提交该协议的乙方同意下述条款。
(1) 该资源或程序库不用于商业目的;
(2) 不将资源或程序库扩散给第三方;
(3) 在发表论文和申报成果时声明“使用了哈工大信息检索研究中心语言技
术平台中的某资源或者某程序模块”,并且引用以下论文:
Wanxiang Che, Zhenghua Li, Ting Liu. LTP: A Chinese Language Technology Platform. In Proceedings of the Coling 2010:
Demonstrations. 2010.08, pp13-16, Beijing, China.
同时,发信给car@,说明发表论文题目或取得成果的出处等情况。
甲方在未来的时间内,将继续加工和丰富已有的以及新的语料资源并且完善程序库的功能和性能,为了能够给乙方提供及时的最新的资源和程序库,乙方需要完整的提供下表信息:
乙方负责人签名:
年月日。
哈工大社会计算与信息检索研究中心发布的词库
哈工大社会计算与信息检索研究中心发布的词库哈尔滨工业大学社会计算与信息检索研究中心,一直致力于研究和开发前沿的信息检索技术,以及在此基础上的应用拓展。
词库作为信息检索领域的重要基础资源,对于提高检索效果、优化用户体验具有至关重要的作用。
本文将详细介绍哈工大社会计算与信息检索研究中心发布的词库。
一、词库概述哈工大社会计算与信息检索研究中心发布的词库,主要包括以下几种类型:1.基础词库:包含大量常用词汇,用于构建索引和分词系统。
2.主题词库:针对特定领域或行业,收录相关词汇,提高专业检索效果。
3.同义词库:收录词汇的同义词,用于消除歧义和提高检索准确度。
4.热门词库:根据用户查询行为,筛选出热门词汇,为推荐系统和搜索引擎优化提供支持。
二、词库特点1.丰富性:词库涵盖多个领域,包含大量词汇,满足不同场景下的检索需求。
2.准确性:词库中的词汇经过严格筛选和校对,确保词汇的准确性和可靠性。
3.实时更新:根据用户查询行为和互联网发展趋势,不断更新和优化词库,保持词库的时效性。
4.开放性:词库面向社会开放,支持学术研究和企业应用,助力我国信息检索技术的发展。
三、应用场景1.搜索引擎:利用词库提高检索效果,为用户提供更准确的搜索结果。
2.自然语言处理:基于词库进行分词、词性标注、实体识别等任务,提升自然语言处理效果。
3.语音识别:结合词库,提高语音识别的准确度和实用性。
4.个性化推荐:根据用户兴趣和词库,为用户推荐相关内容,提升用户体验。
四、发展前景随着互联网技术的不断发展和大数据时代的到来,词库在信息检索、自然语言处理等领域的重要性愈发凸显。
哈工大社会计算与信息检索研究中心将继续深入研究,不断优化词库,为我国信息检索技术的发展贡献力量。
总结:哈工大社会计算与信息检索研究中心发布的词库,作为信息检索领域的重要基础资源,具有丰富性、准确性、实时更新和开放性等特点。
在搜索引擎、自然语言处理、语音识别和个性化推荐等场景中发挥着重要作用。
哈工大文献检索报告
姓名:xx班级:xxxxxxx学号:xxxxxxxxxx专业:机械设计制造及其自动化文献检索SCI文献检索报告sunyu 2012/6/2Saturday文献检索报告课题名称:仿人机器人的行走机械结构及其控制系统简介:仿人机器人是研究人类智能的高级平台,它是综合机械、电子、计算机、传感器、控制技术、人工智能、仿生学等多种学科的复杂智能机械,目前已成为机器人领域的研究热点问题之一。
对国内外仿人机器人研究现状进行广泛调研,其中日、美等国在研制仿人机器人方面做了大量的工作,中国各高校也积极研究,取得了突破性进展。
概括并分析机器人自由度配置、步态规划的分类、基于零力矩点的稳定性判据、传感器的分类和应用以及机器人控制系统等关键技术。
本课题针对仿人机器人中的行走控制系统部分进行相关的文献检索。
检索策略:利用图书馆提供的SCI科学引文索引进行相关文献检索主题:行走机械结构walking mechanical structure 或OR 行走控制系统walking control system标题:仿人机器人Humanoid robot 不包括NOT 工业机器人Industrial robots时间跨度:所有年限引文数据库:Science Citation Index Expanded Conference Proceedings Citation Index – Science检索结果:对结果进行精炼:将学科限定为 robotic精炼结果为 143篇引文跟踪:被引频次最高的文献如下1.标题: The development of Honda humanoid robot作者: Hirai K; Hirose M; Haikawa Y; 等.书籍团体作者: IEEE会议: IEEE International Conference on Robotics and Automation 会议地点: KATHOLIEKE UNIV LEUVEN, LEUVEN, BELGIUM 会议日期: MAY 16-20, 1998会议赞助商: IEEE, Robot & Automat Soc; Consiglio Nazl Ric; Fund Sci Res, Flanders, Belgium; Fraunhofer Inst Produktionstechnik & Automatisier; Commiss European Communities; INRIA; BULL; CNES; DAIMLER; KUKA; MATRA; SIEMENS; TECNOSPAZIO; THOMSON-CSF来源出版物: 1998 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION, VOLS 1-4 丛书: IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION 页: 1321-1326 出版年: 1998被引频次: 139 (来自 Web of Science)创建引文跟踪结果分析:该课题发文最多的作者机构该课题发文最多的机构该课题发文最多国家该课题发文最多的来源出版物影响因子查询:被引频次前五的文章如下:1.来源出版物: 1998 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION, VOLS 1-4 丛书: IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION 页: 1321-1326 出版年: 1998被引频次: 139 (来自 Web of Science)会议论文2.来源出版物: INTERNATIONAL JOURNAL OF ROBOTICSRESEARCH 卷: 21 期: 10-11 页: 869-882 DOI: 10.1177/0278364902021010837 出版年: OCT-NOV 2002被引频次: 61 (来自 Web of Science)影响因子:4.0953.来源出版物: INTERNATIONAL JOURNAL OF ROBOTICS RESEARCH 卷:25 期: 3 页: 243-259 DOI:10.1177/0278364906063822 出版年: MAR 2006被引频次: 35 (来自 Web of Science)影响因子同上4.来源出版物: JOURNAL OF INTELLIGENT & ROBOTIC SYSTEMS 卷: 37 期: 2 页: 117-141 DOI:10.1023/A:1024172417914 出版年: JUN 2003被引频次: 30 (来自 Web of Science)影响因子0.7575.来源出版物: INTERNATIONAL JOURNAL OF ROBOTICS RESEARCH 卷: 25 期: 7 页: 669-685 DOI:10.1177/0278364906066768 出版年: JUL 2006被引频次: 21 (来自 Web of Science)同第二篇影响因子4.095。
哈工大信息检索研究中心HIT-CIR共享资源和程序库协议
哈工大信息检索研究中心(HIT-CIR)共享资源和程序库协议甲方:哈工大信息检索研究中心(HIT-CIR)
乙方:(此处填写申请人所在单位)
特别说明
1)HIT-CIR共享资源的完整数据和程序库的完整版本只免费提供给“高校和科研院所”用于科学研究,对于独立个人或者商业公司的申请恕不免费提供。
2)请您所在课题组负责人将本协议Word电子版直接发送给车万翔老师(car@)。
为了更好的和同行们交流,促进自然语言处理及信息检索技术的发展,甲方将标注好的多种语料资源和编写的程序库(如下表)免费共享给乙方。
本着互相促进及知识产权的原则,甲方默认提交该协议的乙方同意下述条款。
(1) 该资源或程序库不用于商业目的;
(2) 不将资源或程序库扩散给第三方;
(3) 在发表论文和申报成果时声明“使用了哈工大信息检索研究中心语言
技术平台中的某资源或者某程序模块”,并且引用以下论文:
Wanxiang Che, Zhenghua Li, Ting Liu. LTP: A Chinese Language Technology Platform. In Proceedings of the Coling 2010:
Demonstrations. 2010.08, pp13-16, Beijing, China.
同时,发信给car@,说明发表论文题目或取得成果的出处等情况。
甲方在未来的时间内,将继续加工和丰富已有的以及新的语料资源并且完善程序库的功能和性能,为了能够给乙方提供及时的最新的资源和程序库,乙方需要完整的提供下表信息:
乙方负责人签名:
年月日。
哈工大信息检索研究中心同义词词林扩展版说明
《哈工大信息检索研究室同义词词林扩展版》说明一、英文名称HIT IR-Lab Tongyici Cilin (Extended)二、词表建设《同义词词林》的第一版和第二版的词表完全一样,收词53,859条。
其中有很多的词已经很不常用,成为所谓的罕用词。
参照多部电子词典资源,并按照人民日报语料库中词语的出现频度,只保留频度不低于3(小规模语料的统计结果)部分词语,可剔除14,706个罕用词和非常用词。
经过这样的处理,《同义词词林》还剩下39,099个词条。
为了满足自然语言处理的需要,这样规模的词典显然是少了一些,可以说远远不够。
为了扩充《同义词词林》,本实验室利用很多词语相关资源,并投入了大量的人力和物力,完成了一部具有汉语大词表的《哈工大信息检索研究室同义词词林扩展版》。
最终的词表包含77,343条词语。
二、词分类《同义词词林》按照树状的层次结构把所有收录的词条组织到一起,,把词汇分成大、中、小三类,大类有12个,中类有97个,小类有1,400个。
每个小类里都有很多的词,这些词有根据词义的远近和相关性分成了若干个词群(段落)。
每个段落中的词语有进一步分成了若干个行,同一行的词语要么词义相同(有的词义十分接近),要么词义有很强的相关性。
例如,“大豆”、“毛豆”和“黄豆”在同一行;“西红柿”和“番茄”在同一行;“大家”、“大伙儿”、“大家伙儿”在同一行。
另外,“将官”、“校官”、“尉官”在同一行,“雇农”、“贫农”、“下中农”、“中农”、“上中农”、“富农”在同一行,“外商”、“官商”、“坐商”、“私商”也在同一行,这些词不同义,但很相关。
为了将词义相关的行和同义的行区分开,词典《同义词词林》在行的左端加上“* *”作为标记。
小类中的段落可以看作第四级的分类,段落中的行可以看作第五级的分类。
这样,词典《同义词词林》就具备了5层结构,见图1。
随着级别的递增,词义刻画越来越细,到了第五层,每个分类里词语数量已经不大,很多只有一个词语,已经不可再分,可以称为原子词群、原子类或原子节点。
哈尔滨工程大学开放共享平台仪器管理员使用手册说明书
哈尔滨工程大学大型仪器设备开放共享平台仪器管理员操作手册(V1.5)国有资产管理处哈尔滨工程大学大型仪器设备开放共享系统——仪器管理员操作手册目录一、登录系统 (4)1.1 除材化学院外其他学院仪器的管理员登录 (4)1.2 材化学院仪器的管理员登录 (6)二、仪器管理 (8)2.1 管理员变更 (8)2.2 仪器信息维护 (8)2.3 导出仪器信息 (9)三、开放管理 (9)3.1 仪器开放 (9)3.2 基础设置 (10)3.3 自主上机参数设置 (12)3.3.1 预约规则 (12)3.3.2 自主预约显示设置 (13)3.3.3 样品信息 (13)3.4 送样检测参数设置 (14)3.4.1 预约规则 (14)3.4.2 送样预约显示设置 (15)3.4.3 样品信息 (15)3.5 收费设置 (15)3.5.1 计费方式 (16)3.5.2 开机费 (16)3.5.3 计时模式 (16)3.5.4 送样收费流程、自主收费流程 (16)3.5.5 加急加价 (16)3.5.6 新增检测项目 (16)3.6 确认生效 (16)四、预约审批 (16)五、接样 (18)六、费用核定 (19)6.1 上传检测报告 (20)6.2 核对确认费用 (20)6.3 违规扣分 (21)6.4 核定确认 (21)七、发布培训 (22)7.1 添加设置证书 (22)7.2 发布培训 (23)7.3 颁发证书 (23)八、系统使用支持 (24)8.1 政策及仪器、人员问题 (24)8.2 系统操作及技术问题 (24)一、登录系统1.1 除材化学院外其他学院仪器的管理员登录1.用户打开浏览器(推荐谷歌浏览器),输入开放共享平台网址,点击页面左侧“校内用户”—“统一身份认证”,登录进入到学校开放共享平台(如图1)。
也可通过学校主页“校园信息门户”(如图2),进入“应用中心”,点击“学校大型仪器设备共享平台”(如图3)登录。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
哈工大信息检索研究中心(HIT-CIR)共享资源和程序库协议甲方:哈工大信息检索研究中心(HIT-CIR)
乙方:(此处填写申请人所在单位)
特别说明
1)HIT-CIR共享资源的完整数据和程序库的完整版本只免费提供给“高校和科研院所”用于科学研究,对于独立个人或者商业公司的申请恕不免费提供。
2)请您所在课题组负责人将本协议Word电子版直接发送给车万翔老师()。
为了更好的和同行们交流,促进自然语言处理及信息检索技术的发展,甲方将标注好的多种语料资源和编写的程序库(如下表)免费共享给乙方。
本着互相促进及知识产权的原则,甲方默认提交该协议的乙方同意下述条款。
(1) 该资源或程序库不用于商业目的;
(2) 不将资源或程序库扩散给第三方;
(3) 在发表论文和申报成果时声明“使用了哈工大信息检索研究中心语言技
术平台中的某资源或者某程序模块”,并且引用以下论文:
Wanxiang Che, Zhenghua Li, Ting Liu. LTP: A Chinese Language Technology Platform. In Proceedings of the Coling 2010:
Demonstrations. 2010.08, pp13-16, Beijing, China.
同时,发信给,说明发表论文题目或取得成果的出处等情况。
甲方在未来的时间内,将继续加工和丰富已有的以及新的语料资源并且完善程序库的功能和性能,为了能够给乙方提供及时的最新的资源和程序库,乙方需要完整的提供下表信息:
乙方负责人签名:
年月日。