文本挖掘系统面向自动化学科中文期刊论文报告人刘禹.ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
专业
帮助
研究目标
获得论文的题录信息 初步分离作者、机构、文章题目、关键词、
摘要等知识要素 利用文本挖掘技术实现对知识要素的精细化
处理
系统概述
垂直爬虫技术
文本分类技术
特征词选择算法
关键词语义聚类
数据获取
数据获取 数据清洗
知识获取 构建学科知识体系 关键词语义重复
关键技术
基于卡方拟合优度的特征词选择算法 关键词的形态语义聚类算法 人物机构对齐算法 同名消歧算法 机构名称抽取算法
特征词选择算法和卡方、信息增益等特征词 0.7 0.7
chifit
chifit
RI RI
0.6 0.6
选择算法效果相当,好于点互信息特征词选 0.5 0.5
择算法0.4
chi-square ig df point-wise mi
chi-square ig df point-wise mi
0.4
特征0.词3 0.3选择算法可以在较低的特征维度上获
基于卡方拟合优度的特征词选择算法()
理论背景 皮尔逊卡方检验主要应用在检测两个随机变
量是否独立和检验分布的拟合中 特征词选择算法从分布拟合的角度对词汇和
类别之间的独立性进行假设检验 计算公式
,ifN0orN0andnot N0andN0
实验结果
0.9 0.9
结论0.8 0.8
RI RonI ConhiCnehsieneNseewNs ewwitshwMituhltKinNoNmiCalaBsasyifeiserClassifier
实验结果
数据集:抽取224个汉语术语进行实验,按 照语义是否相同人工标注真值
我们的方法 传统编辑距离计算
准确率 0.9214 0.4833
召回率 0.9348 0.4202
0.9281 0.4495
应用场景 自动构建知识族谱 将与查询知识点密切相关的知识点,按照时
序上的发展继承演变关系组织起来
两个给定序列的最长公共子序列既是X的子 序列,又是Y的子序列,且在所有的公共子 序列中长度最长。
最长非对称前缀()
如果z是两个字符串的非对称式前缀,则可能 有以下两种情况出现:
z分别是的前缀
z是s的前缀,是t的子串
如果z在所有的非对称式前缀集合中长度最 长,那么则称z是字符串的最长非对称式前 缀
物实体
加边算法
两单位字符串的最长公共子序列长度与其中 较小字符串长度之比大于0.9且两单位字符 串的最长非对称前缀长度大于2
两单位字符串的最长非对称前缀匹配模板 (大学|研究院|研究所|研究中心)
两单位字符串的最长非对称前缀匹配模板 (?!<中国科)学院
最长公共子序列
一个给定序列的子序列即为给定序列在保持 原有位序的基础上去掉若干元素(也可能一 个都不去掉),如<>是<>的子序列
文本挖掘系统
面向自动化学科中文期刊论文
报告人:刘禹
主要内容
需求概述 研究目标 系统概述 关键技术 总结及展望
需求概述
自动化学科创新方法课题的三个目标是: (1)建立学科知识体系;(2)开发学科知
识服务网络平台;(3)提供知识服务,推动 知识创新。
科技创新平台
知识
作者
知识
前沿
机构
周期
实验结果
人工标注白硕、王斌、赵军的样本作为测试
集
熵
纯度
归一化
文章数
生成簇
实际簇
互信息
数目
数目
白硕
0
1
0
45
2
1
王斌
0.184
93.9%
0.957
82
29
31
赵军
0.039
99.1%
0.898
116
25
20
白硕 王斌
赵军
准确率
100% 95.2% 99.5%
召回率
62.2% 90.8% 79.9%
算法有效性
不需要人工事先整理出机构规范化表 不需要有很厚语文素养的专家参与 不需要复杂的规则模板 仅依赖数据的自学习和自校验能力
总结
从处理前后数据量的变化来看文本挖掘系统 的有效性
从实验数据的评测指标上来看文本挖掘系统 的有效性
从知识服务网络平台的用户体验上来看文本 挖掘系统的有效性
F值
0.767 0.930 0.886
兰德指数
0.622 0.983 0.938
决策次数
990 3321 6670
机构名称抽取算法
需求分析 机构字符串书写不规范,给统计学术机构的
学术成果带来不便
算法思路
借助同一作者实体的机构记录对机构名称进 行规范化
算法流程
模板优先队列
⑴中国科学院.*?所; ⑵中国科学院.*?院; ⑶中国科学院.*?中心; ⑷中国科学院.*?台; ⑸^.*?大学; ⑹^.*?学院; ⑺^.*?学校; ⑻^.*?研究院;
人物机构对齐算法
需求分析 通过英文形式的作者姓名与机构名称之间的
对应关系获得对应的中文形式
算法流程
基于距离属性的二叉分裂算法 保持原有位序的分裂式层次聚类方法
实验结果 数据处理中记录下可能出现潜在错误的实例 计算得到人物机构对齐算法的准确率为 262,896/299,823=87.684% 其中262,896为被正确进行人物机构对齐的
基于卡方拟合优度的特征词 选择算法 关键词的形态语义聚类算法 人物机构对齐算法 同名消歧算法
评价
低维优势显著、选词更具代 表性 92.14% 87.6837% 98.14%
人物记录条目;299,823为总的人物记录条 目
同名消歧算法
需求分析 汉语中存在大量人名重复现象,给准确统计
学者的学术成果带来困难
算法思路 将同一个名字的作者条目映射为散点图上的
结点 每一个结点有且仅有机构字符串属性 按照属性相似度原则给散点图加边 图中的每一个连通分量上的条目指向同一人
得较0.好2 0.2的分类效果,因此适用于计算资源有
0.1
应用场景
采用特征词选择算法从关键词中挑选出属于 自动化学科的专业术语,交给编辑人员筛选, 构建自动化学科知识树
关键词的形态语义聚类算法
需求分析 自动生成汉英术语对照词典 构建“知识族谱”
算法流程 编辑距离二次计算框架 作用于最优路径集合上的启发式规则集
从知识服务网络平台与其他平台的对比来看
总结ห้องสมุดไป่ตู้
文本挖掘系统在知识要素抽取上的效果
题录信息
关键词中英对照组 作者
原始数据(条) 116,642(知网) /58,235(万方)
148,825 299,823
处理后数据(条) 109,788
83,602 135,969
总结
论文中提出的算法及性能评价
论文成果