文本信息结构化与可视化研究

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5
文本信息结构化的若干研究(1) 网页链接结构可视化
研究背景:挖掘特定专业领域(IT)网页信 息关联—结构的可视化,富士通研究开发 中心有限公司委托研究项目
研究意义:互联网获取相关信息数据库 / 相 关信息跟踪
6
网页链接结构可视化
网页实例:
2002秋季英特尔信息技术峰会主体演讲介绍
http://www.sina.com.cn 2002年10月29日 18:37 新浪科技 主体演讲: 10月31日星期四上午 A:开幕致词 演讲人: Jason Chen 职位:英特尔公司副总裁、英特尔公司亚太区总裁
13
汉语动词次范畴化框架自动分析
大规模自动获取结果
检验方法 评价指标
Precision
Recall F-measure
零检验
37.43% 85.9% 52.14
BHT检验
50% 57.2% 53.36
ML0.001 ML0.005 ML0.008
检验
检验
检验
39.2% 40.3% 58.2%
ML0.01 检验
60.6%
85.9% 83.33% 54.5% 51.3%
53.83 54.33 56.3 55.56
该结果可以和英语同类研究最好结果相比 英语53%~65% 本研究53%~56%
14
汉语动词次范畴化框架自动分析
成果:SCF知识库,动词总数=3502
SCF
数目 1
2
3
4
5
6
7
8
9 10 11 12 13
7
网页链接结构可视化
可视化效果
8
网页链接结构可视化
关键技术—信息抽取模板
例如:产品模板 – 产品名称 – 产品所属公司名称 – 产品所属类别 – 产品相关的事件(如:推出、投放) – 事件发生地点 – 事件发生时间 …… 其他如:财务模板/人物模板/技术模板… …
9
网页链接结构可视化
关键技术—特征词识别/二元关系确定
的结构化表示
3
计算机理解自然语言的表现方式
多层次的语言结构表示—语言理解系统
摘句式文摘
理解
部分结构分析 名实体识别
语篇分析 语篇结构/命题网络
语义分析 语义结构
单语处理 词/词性序列
句法分析(功能) 句法及句法功能结构
……
短语级分析 短语结构
词性标注 词性序列
一种语言
跨语言处理
另一种语言
词法分析/分词 标准化词序列
11
文本信息结构化的若干研究(2) 汉语动词次范畴化框架自动分析
研究背景:国家自然科学基金项目(60373101) 研究目标:建立汉语动词次范畴化词汇知识库,
服务于汉语文本信息自动处理技术的需要—文本 信息结构化的一个层次 汉语动词次范畴化框架(SCF)形式化描写:五 元组=<V, TA, NA, PA, CL> 其中V谓语动词集合 / TA论元类型集合(11种)/ NA相应谓语动词支配 论元个数 / PA相应论元在SCF中的相对位置 / CL 广义句法形态常量(“着了过”等6个)
特征词表 名实体关系识别规则 类别权重 规则形式(从训练语料中自动获取)
if [PN]{verbin}[Com][Post] then Pn-In:PN; Cur-Com:Com; Cur-Post:Post;
10
网页链接结构可视化
结果示例
中国联通董事长变更 杨贤足去职王建宙接任 Pn-In:王建宙 Cur-Com:中国联通 Cur-Post:董事长 Pn-out:杨贤足 Pre-Com:中国联通 Pre-Post:董事长
文本信息结构化与可视化研究
赵铁军 哈尔滨工业大学计算机学院
语言技术研究中心 2004年7月12日·复旦大学
提纲
计算机理解自然语言的表现方式
结构化与图形化 分层次结构化的理解系统
文本信息结构化的若干研究
网页链接结构可视化 汉语动词次范畴化框架自动分析 跨语言结构转换—基于实例机器翻译
2
35 30 25 20 15 10
5 0
1
543 1085 1627 2169 2711 3253
系列1
16
汉语动词次范畴化框架自动分析
14
动词 个数 9 32 120 211 321 440 442 408 335 274 216 180 126 92
SCF 数目 15 16 17 18 19 20 21 22 23 24 25 26 28 30
动词
个数 84 55 40 30 20 23 12 8
8
9
3
1
2
1
Байду номын сангаас
15
汉语动词次范畴化框架自动分析
………… 相关链接 2002秋季英特尔信息技术峰会技术讲座介绍(2002/10/29 18:24) 英特尔通过纳米技术扩展摩尔定律(2002/10/29 17:41) 英特尔将至强™处理器频率提升至2.80 GHZ(2002/10/29 17:36) 英特尔:计算和通信融合是企业竞争优势的关键(2002/10/29 17:29) 英特尔推出新技术和基础模块以解决存储难题(2002/10/29 17:27) …………
计算机理解自然语言的表现方式
人对自然语言的理解
行为反应 语言能力:问答/文摘/复述/翻译… … 显式或隐式地表达出语言的结构和意义:心理
学家的看法—人的理解过程是从词的序列中建 构起具有层次安排的命题
计算机对自然语言的理解
面向应用的NLP—上述2 对自然语言的多层次分析—上述3:自然语言
12
汉语动词次范畴化框架自动分析
实现过程:获取→应用
获取过程
学习SCF预设集合:43000简单句(词典例句+ 人民日报语料),1774动词→非完整句法分析 →生成原始SCF预设集合→统计过滤→获得 SCF预设集合并计算相应概率分布 / 结果138个 SCF框架
从大规模真实文本中自动获取汉语动词SCF: 6个月人民日报语料库,3558动词→句法分析 结果为输入→错误校正→模式提取→SCF生成 →假设检验
分句 句子序列
文本的结构化:面向不同应用
文本 自然形态
有不同的结构化形式
4
计算机理解自然语言的表现方式
自然语言的可视化或图形化:另外一种理 解方式
图像理解—自然语言化文本理解—图形化 故事理解动画 对语言信息处理结果的一些简单而实用的图形
化:词或短语识别结果的反显 / 句法结构树形 图 / 依存关系图 / 评分结果的直方图… … 强调视觉效果,增强技术可信性又增加趣味性
相关文档
最新文档