人工智能_语义网
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语义网(SW)
Semantic Web
Web 3.0
www.ddbzj.com
演讲者:石东来
The Semantic Web
AI
总目录
• Web的发展 • 语义网简介 • 几个简单的算法 • 总结与展望
Web 1.0
• • Read Only Presentation • •
Web 2.0
Creation & interactiΒιβλιοθήκη Baidun Social
语义网 = 语义 + 网
语义技术的应用
1、Dbpedia:从维基百科(wiki)词条里取出结构化资料,用以强化维基百科的搜索功 能,将其他资料联接至wiki. 2、葛兰素史克公司(GlaxoSmithKline,下称GSK)正在对AllegroGraph进行测试,以提供 一个更为灵活的IT基础设施并通过自动化提高生产力。这家制药公司正在利用一个 语义数据提取层进行试验。 3、柯达主席兼首席执行官(CEO)彭安东去年在一场演讲中表示,“照片之间也能相互 ‘认识’了—不用人们指点,利用元数据(Metadata),一张照片便可寻找到具有 相关元数据的另一张照片,因此,所有的照片便能以新的类别进行重新组合, 无非取决于它们之间不同的关联方式而已。”
比如“我想买手机和电脑”,一句进行关键词提取后,得到如下结果: Keyword:手机(P_KW1),电脑(P_KW2),买(S_KW1)
Step2(关键词与特征词提取) 提问方式
根据系统定义的问句类型,抽取能代表某类问句的特征词 Extrac – semanticword(W1,W2…Wn):→(SW1,SW2…SWm) 比如“http协议的定义是什么?”,它的特征词是“是什么(SW1)”
1、“猜测”用户的意图、习惯;数据的标签与用户需求相匹配。 2、本体语音标准化,多语种的支持。 3、海量语义数据:面对知识大规模处理的问题。(并行计算) 4、内容的可扩展性:有了语义网内容以后,如何以可扩展的方式去管理它, 包括如何组织,存储和查找等。 5、本体的开发和演化:内容的可获取性,目前基于本体的语义网很少。
“顾兔” 知识导航图
5“顾兔”与“於莵”一声之转
3/4《闻一多全集》 6《天问疏证》 7《楚辞选注》 8《屈子章句》
顾兔
3/4“顾”是“居诸”“籧篨”之音变
图一
音韵
5中原地区本有月中有兔的传说, 文化背景 而此传说传入楚地之后,因楚人称虎为 “於莵” 故将月中有兔之传说演化为月中有虎之神话。
How To?
Web 3.0
?
万维网走向语义数据时代
Web 1.0:网络担当信息的提供者,单向性的提供和单一性理解。 (被动的接收信息)
Web 1.0
Producer Customer
Web 1.0 如何盈利?
点击率 + 用户量
(搜索技术)
(技术平台)
(即时通讯)
万维网走向语义数据时代
Web 2.0:网络是平台,用户提供信息的同时,也获取信息。 (用户产生内容)
楚辞文献语义网
《西汉帛画》 《皇朝礼器图式》 长沙马王堆一号与三号 汉墓《西汉帛画》 洪兴祖《楚辞补注》 4“蟾蜍玉兔” 说 《说文》字形 姜亮夫《楚辞通故》 朱熹 《楚辞集注》 版本校勘 3“蟾蜍”说 2“明眸之兔”说 神话 1“顾望之兔”说 1《楚辞章句》 2《楚辞灯》 5《楚辞类稿》 作者 6 闻一多等 注释作者 5 汤炳正等 论文出处 4 萧兵等 3 闻一多等 书名出处 2 毛奇龄等 方言词汇 5楚人称虎为“於莵” 1 王逸等 作者释义 夜光何德,死则又育?厥利维何,而顾兔在腹。 原句 8 刘梦鹏 刘永济等 7 金开诚等 8“顾”为“虚词”说 7“蓄养月兔”说 6“蹲踞之兔”说 5“於莵”说 图谱 考古 甲骨文字形 篆书字形
对语义信息建模
1、需要一个描述框架,能够将语义信息(概念以及概念之间的联系)表示出来。
2、需要定义一种描述语言具体进行语义信息的描述,
3、需要一种操作语言对语义信息进行操作。
语义网标准
XML
RDF
OWL
解析Tim Berners-Lee语义网结构
总流程
查询语句
分词
语义理解
词库
新关键词特征向量
文档库
IR系统
网页特征库
返回数据
Step1(分词处理):二元分词
英文:I am a student
中文:我是一个学生
Step2(关键词与特征词提取)
1
2 3
关键词
提问方式 提问侧重点
Step2(关键词与特征词提取):关键词
主关键词(P_KWi)提取,可以描述为: Extrac – primary – keyword(W1,W2…Wn):→(P_KW1, P_KW2…P_KWm) 次关键词(S_KWi)提取,可以描述为: Extrac – secondary – keyword(W1,W2…Wn):→(S_KW1, S_KW2…S_KWm)
网络发展整体观
参考文献
[1] 张承立,陈剑波,齐开悦. 基于语义网的语义相似度算法改进[J]. 计算机工程与应用,2006.
[2] 李洁,丁颖. 语义网关键技术概述[J]. 计算机工程与设计,2007,08.
[3] 陈林,杨丹,赵俊芹. 基于语义理解的智能搜索引擎研究[J]. 计算机科学,2008,06.
C/P
Web 2.0
C/P
C/P = Customer/Producer
C/P
万维网 Web 2.0
移动增 值业务
网络游 戏 联属营 销
如何盈 利?
会员费/ 信息费 广告 电子商 务
万维网需要解决的问题
1、计算机对自然语言的理解能力:海量的搜索结果,需要用户 自己去寻找所需的信息。 2、网站信息不公开,数据间没有关联性(结构化)。
提问侧重点
结合问句类型,按规则提问问句的侧重点(EWi)
Extrac – emphasisword(W1,W2…Wn):→(EW1,EW2…EWm)
比如“http协议的定义是什么?”,问句的侧重点是“概念(EW1)”
Step3(语义分析及查询扩展) 中英文转化、同义 和近义词转化
面向web网页的特征库
依据问句特征词进 行提问方式识别
再对问题侧重点进 行语义的分析
最终形成包含语义 信息的n个特征向 量
检索和排序
基于Lucene工具建立搜索引擎
全文搜索引擎工具包 向量空间模型
标题1 标题 1
标题2
标题3
标题4
检索和排序
Oldscore公式如下:
PR公式如下:
标题1 标题 1
标题2
标题3
标题4
语义网难点
[4] 刘柏嵩. 基于知识的语义网:概念、技术及挑战[J]. 中国图书馆学报,2003,02.
Thank
You
www.ddbzj.com
谢谢观看
3、信息质量问题:Web 2.0中“用户产生内容”,虽然方便了人之间的相互交流, 但垃圾信息广告 等,无用数据很多。
问题的原因
词匹配而不是语义匹配 简单的关键词关系而不是准确的概念关系 断词问题
万维网走向语义数据时代
Web 3.0:网络成为用户需求理解者和提供者,网络对用户的习惯了如指掌 ,可以进行资源筛选,只能匹配,直接给用户答案。
Semantic Web
Web 3.0
www.ddbzj.com
演讲者:石东来
The Semantic Web
AI
总目录
• Web的发展 • 语义网简介 • 几个简单的算法 • 总结与展望
Web 1.0
• • Read Only Presentation • •
Web 2.0
Creation & interactiΒιβλιοθήκη Baidun Social
语义网 = 语义 + 网
语义技术的应用
1、Dbpedia:从维基百科(wiki)词条里取出结构化资料,用以强化维基百科的搜索功 能,将其他资料联接至wiki. 2、葛兰素史克公司(GlaxoSmithKline,下称GSK)正在对AllegroGraph进行测试,以提供 一个更为灵活的IT基础设施并通过自动化提高生产力。这家制药公司正在利用一个 语义数据提取层进行试验。 3、柯达主席兼首席执行官(CEO)彭安东去年在一场演讲中表示,“照片之间也能相互 ‘认识’了—不用人们指点,利用元数据(Metadata),一张照片便可寻找到具有 相关元数据的另一张照片,因此,所有的照片便能以新的类别进行重新组合, 无非取决于它们之间不同的关联方式而已。”
比如“我想买手机和电脑”,一句进行关键词提取后,得到如下结果: Keyword:手机(P_KW1),电脑(P_KW2),买(S_KW1)
Step2(关键词与特征词提取) 提问方式
根据系统定义的问句类型,抽取能代表某类问句的特征词 Extrac – semanticword(W1,W2…Wn):→(SW1,SW2…SWm) 比如“http协议的定义是什么?”,它的特征词是“是什么(SW1)”
1、“猜测”用户的意图、习惯;数据的标签与用户需求相匹配。 2、本体语音标准化,多语种的支持。 3、海量语义数据:面对知识大规模处理的问题。(并行计算) 4、内容的可扩展性:有了语义网内容以后,如何以可扩展的方式去管理它, 包括如何组织,存储和查找等。 5、本体的开发和演化:内容的可获取性,目前基于本体的语义网很少。
“顾兔” 知识导航图
5“顾兔”与“於莵”一声之转
3/4《闻一多全集》 6《天问疏证》 7《楚辞选注》 8《屈子章句》
顾兔
3/4“顾”是“居诸”“籧篨”之音变
图一
音韵
5中原地区本有月中有兔的传说, 文化背景 而此传说传入楚地之后,因楚人称虎为 “於莵” 故将月中有兔之传说演化为月中有虎之神话。
How To?
Web 3.0
?
万维网走向语义数据时代
Web 1.0:网络担当信息的提供者,单向性的提供和单一性理解。 (被动的接收信息)
Web 1.0
Producer Customer
Web 1.0 如何盈利?
点击率 + 用户量
(搜索技术)
(技术平台)
(即时通讯)
万维网走向语义数据时代
Web 2.0:网络是平台,用户提供信息的同时,也获取信息。 (用户产生内容)
楚辞文献语义网
《西汉帛画》 《皇朝礼器图式》 长沙马王堆一号与三号 汉墓《西汉帛画》 洪兴祖《楚辞补注》 4“蟾蜍玉兔” 说 《说文》字形 姜亮夫《楚辞通故》 朱熹 《楚辞集注》 版本校勘 3“蟾蜍”说 2“明眸之兔”说 神话 1“顾望之兔”说 1《楚辞章句》 2《楚辞灯》 5《楚辞类稿》 作者 6 闻一多等 注释作者 5 汤炳正等 论文出处 4 萧兵等 3 闻一多等 书名出处 2 毛奇龄等 方言词汇 5楚人称虎为“於莵” 1 王逸等 作者释义 夜光何德,死则又育?厥利维何,而顾兔在腹。 原句 8 刘梦鹏 刘永济等 7 金开诚等 8“顾”为“虚词”说 7“蓄养月兔”说 6“蹲踞之兔”说 5“於莵”说 图谱 考古 甲骨文字形 篆书字形
对语义信息建模
1、需要一个描述框架,能够将语义信息(概念以及概念之间的联系)表示出来。
2、需要定义一种描述语言具体进行语义信息的描述,
3、需要一种操作语言对语义信息进行操作。
语义网标准
XML
RDF
OWL
解析Tim Berners-Lee语义网结构
总流程
查询语句
分词
语义理解
词库
新关键词特征向量
文档库
IR系统
网页特征库
返回数据
Step1(分词处理):二元分词
英文:I am a student
中文:我是一个学生
Step2(关键词与特征词提取)
1
2 3
关键词
提问方式 提问侧重点
Step2(关键词与特征词提取):关键词
主关键词(P_KWi)提取,可以描述为: Extrac – primary – keyword(W1,W2…Wn):→(P_KW1, P_KW2…P_KWm) 次关键词(S_KWi)提取,可以描述为: Extrac – secondary – keyword(W1,W2…Wn):→(S_KW1, S_KW2…S_KWm)
网络发展整体观
参考文献
[1] 张承立,陈剑波,齐开悦. 基于语义网的语义相似度算法改进[J]. 计算机工程与应用,2006.
[2] 李洁,丁颖. 语义网关键技术概述[J]. 计算机工程与设计,2007,08.
[3] 陈林,杨丹,赵俊芹. 基于语义理解的智能搜索引擎研究[J]. 计算机科学,2008,06.
C/P
Web 2.0
C/P
C/P = Customer/Producer
C/P
万维网 Web 2.0
移动增 值业务
网络游 戏 联属营 销
如何盈 利?
会员费/ 信息费 广告 电子商 务
万维网需要解决的问题
1、计算机对自然语言的理解能力:海量的搜索结果,需要用户 自己去寻找所需的信息。 2、网站信息不公开,数据间没有关联性(结构化)。
提问侧重点
结合问句类型,按规则提问问句的侧重点(EWi)
Extrac – emphasisword(W1,W2…Wn):→(EW1,EW2…EWm)
比如“http协议的定义是什么?”,问句的侧重点是“概念(EW1)”
Step3(语义分析及查询扩展) 中英文转化、同义 和近义词转化
面向web网页的特征库
依据问句特征词进 行提问方式识别
再对问题侧重点进 行语义的分析
最终形成包含语义 信息的n个特征向 量
检索和排序
基于Lucene工具建立搜索引擎
全文搜索引擎工具包 向量空间模型
标题1 标题 1
标题2
标题3
标题4
检索和排序
Oldscore公式如下:
PR公式如下:
标题1 标题 1
标题2
标题3
标题4
语义网难点
[4] 刘柏嵩. 基于知识的语义网:概念、技术及挑战[J]. 中国图书馆学报,2003,02.
Thank
You
www.ddbzj.com
谢谢观看
3、信息质量问题:Web 2.0中“用户产生内容”,虽然方便了人之间的相互交流, 但垃圾信息广告 等,无用数据很多。
问题的原因
词匹配而不是语义匹配 简单的关键词关系而不是准确的概念关系 断词问题
万维网走向语义数据时代
Web 3.0:网络成为用户需求理解者和提供者,网络对用户的习惯了如指掌 ,可以进行资源筛选,只能匹配,直接给用户答案。