IIR02-智能信息检索-杜小勇
语义Web与本体研究综述
收稿日期:2004-08-08 基金项目:国家自然科学基金资助项目(604963205);国家863计划资助项目(2002AA4Z 3510) 作者简介:杜小勇(1963-),男,浙江人,教授,博士生导师,主要研究方向:高性能数据库系统、智能信息检索、知识工程; 李曼(1977-),女,河南人,博士研究生,主要研究方向:本体工程、语义W eb 、智能信息检索; 王大治(1977-),男,博士研究生,主要研究方向:自动推理、语义W eb 、智能信息检索.文章编号:1001-9081(2004)10-0014-03语义Web 与本体研究综述杜小勇1,李 曼1,王大治2(1.中国人民大学信息学院,北京100872; 2.中国科学院成都计算机应用研究所,四川成都610041)(duy ong @ )摘 要:语义Web 是一个新兴的研究方向,Ontology 在语义Web 中的本体应用研究还在初级阶段。
介绍了Ontology 的定义和描述语言,建设方法和工具,以及主要研究机构,并介绍了目前语义Web 中Ontology 的研究和成果。
关键词:语义Web ;本体中图分类号:TP311.13 文献标识码:ASurvey on semantic Web and OntologyDU X iao 2y ong ,LI Man ,W ANG Da 2zhi(rmation School ,Renmin Univer sity o f China ,Beijing 100872,China ;2.Chengdu Institute o f Computer Application ,Academia Sinica and Computer Society o f Sichuan ,Chengdu Sichuan 610041,China )Abstract :Semantic Web is a new research direction.The application of Ontology in Semantic Web has just begun.Definition and description languages ,methodolgy and related tools ,as well as research institutes and achievements on ontology were introduced.K ey w ords :semantic Web ;ontology0 引言语义Web (Semantic Web )旨在使Web 上的文本信息具有计算机系统可以理解的语义。
概率数据库加速查询方法[发明专利]
专利名称:概率数据库加速查询方法专利类型:发明专利
发明人:杜小勇,陈晋川,张敏
申请号:CN201210209270.4
申请日:20120620
公开号:CN102880629A
公开日:
20130116
专利内容由知识产权出版社提供
摘要:本发明提供一种概率数据库加速查询方法,包括:获取概率查询关键字,所述概率查询关键字包含多个变量的联合取值;根据所述概率查询关键字在缓存中进行查询,所述缓存中保存有之前概率查询过程的中间运算结果,若所述缓存中存在与所述多个变量的联合取值匹配的中间运算结果,则将所述中间运算结果作为所述概率查询的查询结果。
通过在缓存中存储中间运算结果的方式,在对概率数据库做新的概率查询时,首先查询缓存中是否存在匹配的中间运算结果,若存在则直接将该中间运算结果作为该概率查询的查询结果,从而优化了对概率数据库的查询速度。
申请人:杜小勇
地址:100872 北京市海淀区中关村大街59号中国人民大学信息学院
国籍:CN
代理机构:北京同立钧成知识产权代理有限公司
代理人:刘芳
更多信息请下载全文后查看。
杜小勇《数据库系统概论》思政
杜小勇《数据库系统概论》思政
杜小勇教授的《数据库系统概论》是一门旨在介绍数据库系统及其设计原理的课程。
在这门课程中,杜教授不仅注重技术的传授,更加强调道德、伦理和社会责任等思想政治教育。
首先,杜教授在课堂上强调学生必须遵守学术诚信的原则,不得抄袭、剽窃或者利用已有知识不当获得好成绩。
他告诫学生,道德是人生的立身之本,而在数据库系统设计和应用中,道德更是必不可少的品质。
其次,杜教授还介绍了数据库系统的应用场景和潜在的社会影响。
他指出,数据库系统有着广泛的应用,可以为政府、企业等机构提供高效、安全、可靠的数据管理服务。
同时,数据库系统也可能涉及到个人隐私和商业机密等敏感信息,因此需要严格的保密和安全措施。
杜教授的思政教育,让学生认识到了技术的应用必须与社会责任相结合,不能仅仅追求经济效益。
总之,杜小勇教授的《数据库系统概论》不仅仅是一门技术课程,更是一门注重思想政治教育的课程。
他的思想深入学生心灵,让学生牢记道德、伦理和社会责任,为未来的职业生涯打下坚实的思想基础。
- 1 -。
基于用户层次信息的协同推荐算法
基于用户层次信息的协同推荐算法
秦国;杜小勇
【期刊名称】《计算机科学》
【年(卷),期】2004(031)010
【摘要】在个性化信息推荐服务中,协同推荐作为一种基本的信息过滤方法得到广泛的应用,它根据和目标用户具有相似行为的用户对资源的评价来进行推荐.但是,我们的研究发现,协同推荐算法所获得的相似用户群和实际用户的概念层次没有关系,这和我们的直觉是矛盾的,这驱使我们在协同推荐算法中考虑进用户的分类信息.实验结果表明,这样的方法是有效的,它和传统协同过滤相比具有更高的推荐精度.【总页数】3页(P138-140)
【作者】秦国;杜小勇
【作者单位】中国人民大学信息学院,北京,100872;中国人民大学信息学院,北京,100872
【正文语种】中文
【中图分类】TP3
【相关文献】
1.融合类别信息和用户兴趣度的协同过滤推荐算法 [J], 何明;肖润;刘伟世;孙望
2.一种基于改进的层次聚类的协同过滤用户推荐算法研究 [J], 张峻玮;杨洲
3.结合用户背景信息的协同过滤推荐算法 [J], 吴一帆;王浩然
4.基于矩阵分解和层次聚类的协同过滤推荐算法 [J], 东苗;王启宗
5.基于用户行为和新闻时效性的农业信息协同过滤推荐算法 [J], 徐建鹏;徐祥;王晖;伍琼;王杰
因版权原因,仅展示原文概要,查看原文内容请购买。
2021《数据科学与大数据技术导论》中国工信出版社杜小勇主编大纲-范举
3周
数据探索与Python语言
Python基础与常用工具(如Jupyter notebook);数据探索与预处理与Pandas
第
4
周
机器学习初步与实 践
培养学生建立机器学习问题、方法、评价 的基本概念与能力,包括:分类
(KNN)、聚类(K-means)与回归
(linear regression),以及Python机器学 习实践(如sklearn)
第10周
文本数据分析与处 理
通过文本分类的例子,让学生了解如何利 用机器学习的模型对文本进行自动分类与 检索。内容包括:文本的预处理(如中文 分词)、文本的分析(如文本分类)、文 本的检索、MapReduce处理模型与Hadoop单机模拟实验(如倒排索引构 建)。
第11周
文本数据分析与处 理
通过文本分类的例子,让学生了解如何利 用机器学习的模型对文本进行自动分类与 检索。内容包括:文本的预处理(如中文 分词)、文本的分析(如文本分类)、文 本的检索、MapReduce处理模型与Hadoop单机模拟实验(如倒排索引构 建)。
第
8周
文本数据分析与处 理
通过文本分类的例子,让学生了解如何利 用机器学习的模型对文本进行自动分类与 检索。内容包括:文本的预处理(如中文 分词)、文本的分析(如文本分类)、文 本的检索、MapReduce处理模型与Hadoop单机模拟实验(如倒排索引构 建)。
第9周
文本数据分析与处 理
通过文本分类的例子,让学生了解如何利 用机器学习的模型对文本进行自动分类与 检索。内容包括:文本的预处理(如中文 分词)、文本的分析(如文本分类)、文 本的检索、MapReduce处理模型与Hadoop单机模拟实验(如倒排索引构 建)。
基于本体的关系数据库语义检索
基于本体的关系数据库语义检索王珊;张俊;彭朝晖;战疆;杜小勇【期刊名称】《计算机科学与探索》【年(卷),期】2007(001)001【摘要】以经济学领域本体为例,首先研究SemSORD基本原理和方法,然后提出基于关系数据库关键词检索(Keyword Search over Relational Databases,KSORD)技术实现的关系数据库语义检索模型,并实现相应的原型系统Si-SEEKER,最后提出该领域的研究挑战和技术发展趋势.【总页数】20页(P59-78)【作者】王珊;张俊;彭朝晖;战疆;杜小勇【作者单位】中国人民大学,信息学院,北京,100872;教育部数据工程与知识工程重点实验室,北京,100872;中国人民大学,信息学院,北京,100872;教育部数据工程与知识工程重点实验室,北京,100872;大连海事大学,计算机科学与技术学院,辽宁,大连,116026;中国人民大学,信息学院,北京,100872;教育部数据工程与知识工程重点实验室,北京,100872;中国人民大学,信息学院,北京,100872;教育部数据工程与知识工程重点实验室,北京,100872;中国人民大学,信息学院,北京,100872;教育部数据工程与知识工程重点实验室,北京,100872【正文语种】中文【中图分类】TP301【相关文献】1.基于本体的关系数据库关键词语义查询扩展方法 [J], 郗君甫;刘国华;唐军军;祁瑞丽;朱鹤2.SMap:基于语义的关系数据库模式与OWL本体间映射方法 [J], 贾存鑫;胡伟;柏文阳;瞿裕忠3.关系数据库管理系统中支持基于本体的语义匹配 [J], 张哲4.基于OWL本体的关系数据库语义映射方法的研究 [J], 吕艳辉;王红霞5.基于网络表示学习的本体语义挖掘与功能语义检索方法 [J], 倪子健;李文强;唐忠因版权原因,仅展示原文概要,查看原文内容请购买。
DAS模式下基于密文分组索引的完整性验证
DAS模式下基于密文分组索引的完整性验证杨平平;杜小勇;王洁萍【期刊名称】《计算机科学与探索》【年(卷),期】2010(004)005【摘要】目前关于DAS模式下的全概率完整性验证方法主要是建立在明文数据上,并没有建立在密文数据上的完整性验证方法.提出一种建立在密文数据上的适用于动态数据库的完整性验证方法.分组索引是在DAS模式下的一种高效的密文索引,在密文数据分组索引的基础上,提出利用无碰撞增量式哈希生成完整性验证信息的方法.这是一种验证速度快(可并行计算)、维护代价小(对于增删改操作可增量式维护)的全概率验证方法,适用于动态数据库中完整性的验证.【总页数】10页(P426-435)【作者】杨平平;杜小勇;王洁萍【作者单位】中国人民大学教育部数据工程与知识工程重点实验室,北京,100872;中国人民大学信息学院,北京,100872;中国人民大学教育部数据工程与知识工程重点实验室,北京,100872;中国人民大学信息学院,北京,100872;中国人民大学教育部数据工程与知识工程重点实验室,北京,100872;中国人民大学信息学院,北京,100872【正文语种】中文【中图分类】TP309【相关文献】1.DAS模型下基于查询概率的密文索引技术 [J], 赵丹枫;金顺福;刘国华;高峰;王柠2.基于密文随机性度量值分布特征的分组密码算法识别方案 [J], 吴杨;王韬;邢萌;李进东3.基于GPU的密文分组随机链接加密模式的研究 [J], 吴伟民;李坚锐;林志毅4.基于密文块数组折半查找的B~+树密文数据库索引 [J], 雷春红;余建桥5.基于布隆过滤器和B+树构建倒排索引的电子病历密文搜索 [J], 王莱;周腾达;王正飞;洪佳明因版权原因,仅展示原文概要,查看原文内容请购买。
语义Web环境中本体库管理系统体系结构研究
语义Web环境中本体库管理系统体系结构研究
李曼;杜小勇;王珊
【期刊名称】《计算机研究与发展》
【年(卷),期】2006(043)0z3
【摘要】近年来,语义Web的提出给传统的本体研究带来了许多新的挑战,其中本体的管理成为一个迫切的普遍的需求.分析了语义Web环境中本体的特点和本体管理的功能需求;提出了通用本体库管理系统体系结构的设计原则;并基于该原则设计了一个新型的多层双库(ML&DR)的体系结构;介绍了其中主要的功能模块;最后,给出了一个遵循该体系结构设计和实现的原型系统--CODERS.
【总页数】7页(P39-45)
【作者】李曼;杜小勇;王珊
【作者单位】中国人民大学信息学院,北京,100872;中国科学院软件研究所,北京,100080;中国人民大学信息学院,北京,100872;教育部数据工程与知识工程重点实验室,北京,100872;中国人民大学信息学院,北京,100872;教育部数据工程与知识工程重点实验室,北京,100872
【正文语种】中文
【中图分类】TP311
【相关文献】
1.基于本体的语义搜索引擎的概念体系结构研究 [J], 黄海
2.基于语义面向服务架构的信息集成系统体系结构研究 [J], 余朋飞;宋晓;张霖;卜
倩
3.关系数据库管理系统中支持基于本体的语义匹配 [J], 张哲
4.基于本体论的地理信息系统体系结构研究 [J], 许金川;赵政
5.语义Web环境中基于本体推理的协同标注 [J], 祝锡永;周益辉;李晟
因版权原因,仅展示原文概要,查看原文内容请购买。
人工智能技术在信息检索系统中应用
人工智能技术在信息检索系统中应用
张玲玲
【期刊名称】《电脑知识与技术》
【年(卷),期】2009(005)014
【摘要】阐述了人工智能的原理及智能信息检索系统的基本概念,分析了智能信息检索系统的结构及其研究中遇到的难题,并从人工智能的研究成果来探讨解决问题的思路.
【总页数】2页(P3777-3778)
【作者】张玲玲
【作者单位】南京晓庄学院行知学院,江苏,南京,210012
【正文语种】中文
【中图分类】TP393
【相关文献】
1.UMLS在信息检索系统中的应用 [J], 王茹
2.小议人工智能技术在信息检索系统中应用 [J], 陈远;王家雄
3.Vue框架在地理信息检索系统中的应用 [J], 仪锋;特日根
4.人工智能技术及其在钢铁工业中的应用──第七讲人工智能技术在钢铁工业中的应用 [J], 杨自厚
5.人工智能技术及其在钢铁工业中的应用第六讲人工智能技术在钢铁工业中的应用(上) [J], 杨自厚
因版权原因,仅展示原文概要,查看原文内容请购买。
人工智能领域算法相关专利申请的创造性分析策略
人工智能领域算法相关专利申请的创造性分析策略
牛晓佳
【期刊名称】《中国发明与专利》
【年(卷),期】2022(19)6
【摘要】人工智能领域相关的专利申请中,技术特征与算法特征有着密不可分的关联性,该领域的技术方案在发明构思的提炼、现有技术启示等判断过程中相较于其他领域存在明显区别。
《专利审查指南》针对人工智能等新业态领域的审查规则做出修改,但是并未针对如何从整体考虑技术方案的创造性给出明确的指导性意见。
本文从算法的功能性应用以及产业应用的多个角度入手,立足于专利审查指南的评判标准,从实际案例出发,给出人工智能算法类特征与技术特征以不同结合角度、不同结合情景所构建的技术方案的创造性分析策略。
【总页数】5页(P58-62)
【作者】牛晓佳
【作者单位】中国信息通信研究院知识产权与创新发展中心
【正文语种】中文
【中图分类】TP319
【相关文献】
1.第二制药用途类专利申请中新颖性、创造性的问题分析和申请策略
2.分析化学领域中实验数据对专利申请创造性判断的影响
3.再制干酪领域相关企业专利申请技
术分析4.基于审查标准谈人工智能领域的专利申请策略5.医药生物领域分析检测技术专利申请的创造性的探讨
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
vec(qcc) |
Drawbacks of the Boolean Model
• Exact matching • No ranking: • Awkward: Information need has to be translated into a Boolean expression • Too simple: The Boolean queries formulated by the users are most often too simplistic • Unsatisfiable Results: The Boolean model frequently returns either too few or too many documents in response to a user query
IR使用的三类数据
• On-page Data:
– text – multimedia: image/videlo
• Link data/semantic data • Uasge data
– Social network data
What is IR?
• Definition
– IR = <D, Q, R(qi,dj)>, where
• idf factor, the inverse document frequency
– TF*IDF formular: wij = tf(i,j) * idf(i)
The Vector Model
• Let,
– N be the total number of docs in the collection – ni be the number of docs which contain ki – freq(i,j) raw frequency of ki within dj
– common sets of index terms – sharing of weighted terms – likelihood of relevance
• Each set of premises leads to a distinct IR model
The Boolean Model
– – – – – – – Media-related operators Indexing IE Classification and clustering Link analysis Relevance evaluation ……
• Applications
课程安排
• 见word文件
What is Information Retrieval?
– vec(dj) = (w1j, w2j, …, wtj) : a weighted vector associated with the document dj – gi(vec(dj)) = wij : a function which returns the weight of term ki in document dj
智能信息检索
杜小勇教授,中国人民大学 文继荣教授,微软亚洲研究院
About course
• • • • 与MSRA合作,每2年一次. 2008,2010,2012春季学期 以MSRA研究员的系列讲座 属于”开阔视野型”课程
Content
• • • • IR: Concepts and Models System architecture Evaluation and benchmark Key techniques
• A normalized tf factor is given by
– tf(i,j) = freq(i,j) / max(freq(l,j)) – where kl ∈ dj
sim(dj,q)=?
两大类的模型
• 基于文本内容的检索模型
– – – – – – – – 布尔模型 向量空间模型 概率模型 统计语言模型 基于协同的模型 基于链接分析的模型 基于关联的模型 Usage-data
• 与检索对象内容无关的其他检索模型
Classical IR Models ---- Basic Concepts
The Boolean Model
Ka Kb (1,1,0) (1,1,1)
• q = ka (kb kc)
(1,0,0)
Kc
• sim(q,dj) = 1 if
(vec(qcc) /in vec(qdnf)) (ki, gi(vec(dj)) = gi(vec(qcc))) 0 otherwise
– wij >= 0 : a weight associated with (ki,dj) The weight wij quantifies the importance of the index term for describing the document contents
• wij = 0 indicates that term does not belong to doc
j dj
q i
• Sim(q,dj) = cos() = [vec(dj) vec(q)] / (|dj| * |q|) = [ wij * wiq] / (|dj| * |q|) • Since wij > 0 and wiq > 0, 0 <= sim(q,dj) <=1 • A document is retrieved even if it matches the query terms only partially
– q = ka (kb kc) – vec(qdnf) = (1,1,1) (1,1,0) (1,0,0) – vec(qcc) = (1,1,0) is a conjunctive component
Outline
• • • • Boolean Model(BM) Vector Space Model(VSM) Probabilistic Model(PM) Language Model(LM)
Classical IR Models - Basic Concepts
• A ranking is an ordering of the documents retrieved that (hopefully) reflects the relevance of the documents to the user query • A ranking is based on fundamental premises regarding the notion of relevance, such as:
– quantification of intra-document contents (similarity)
• tf factor, the term frequency within a document
– quantification of inter-documents separation (dissimilarity)
The Vector Model
• Sim(q,dj) = [ wij * wiq] / ( |dj| * |q|) • The KEY is to compute the weights wij and wiq ? • A good weight must take into account two effects:
The Vector Model
• Define:
– wij > 0 whenever ki dj – wiq >= 0 associated with the pair (ki,q) – vec(dj) = (w1j, w2j, ..., wtj) vec(q) = (w1q, w2q, ..., wtq) – index terms are assumed to occur independently within the documents ,That means the vector space is orthonormal.
• Bag-of-Word Model • Each document represented by a set of representative keywords or index terms • The importance of the index terms is represented by weights associated to them • Let
Models
IR Model
• Representation
How to represent document/query – Bag-of-word – Sequence-of-word – Link of documents – Semantic Network
• Similarity/relevance Evaluation
• The t terms formபைடு நூலகம்an orthonormal basis for a tdimensional space • In this space, queries and documents are represented as weighted vectors
The Vector Model
• Simple model based on set theory • Queries specified as boolean expressions
– precise semantics – neat formalism – q = ka (kb kc)
• Terms are either present or absent. Thus, wij ∈ {0,1} • Consider