文献检索报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
检索报告
2012级信工院系专业学号
姓名
成绩
一检索课题概况
(一)检索课题名称(中英文题名)
计算机元数据的数据清洗
Cleanning data for the metadata of computer
(二)检索课题研究现状
在构建机构知识库时,其中一项重要的工作是将收割的临时元数据仓储中的DC(Dublin core)元数据进行规范化,并将规范后的元数据写入DC元数据中心。由于这些元数据来自不同的加工单位,存在录入错误、语义表示不一致、拼写错误和记录重复等情况,数据质量差异大,尤其是重复记录信息严重,影响查全率和查准率,所以,在元数据导入数据中心前,需要对元数据进行清洗。国外对数据清洗的研究最早出现在美国,是从对全
美的社会保险号错误的纠正开始口]。美国信息业和商业的发展。极大地刺激了对数据清洗技术的研究,主要集中在检测并消除数据异常、检测并消除近似重复记录、数据的集成、特定领域的数据清洗四个方面。国内对数据清洗技术的研究还处于初步阶段。直接针对数据清洗,特别是针对中文数据清洗的研究成果并不多。大多是在数据仓库、决策支持、数据挖掘研究中,对其作一些比较简单的阐述。银行、保险和证券等对客户数据的准确性要求很高的行业,都在做各自的客户数据的清洗工作,针对各自具体应用而开发软件,而很少有理论性的成果见诸于报道。
(三)总体检索思路
计算机元数据的数据清洗工作是针对实际问题提出的课题,许多行业和领域如保险、证券、银行、图书馆都需要对原始数据进行数据清洗。本课题涉及的学科范围包括计算机科学与技术、图书馆文件检索、情报学等等。国内外数据清洗技术发展都很迅速,所以需要检索的文献包括国内外从2001-2012年的各种期刊论文、会议论文、会议论文、国内外专利文献等等,文献语种主要是中文和英文。
二检索过程记录
该部分为综合检索报告的主体部分,主要分为图书资料、中文期刊论文、外文期刊论文、学位论文、专利文献及网络资源的检索。包括对所选用的数据库、检索年限、检索词、检索策略(即逻辑检索表达式)以及检索结果等的记录。
一、中文数据库:
(一)图书资料
1.湘潭大学图书馆的纸质图书
检索年限:2002-2012
检索词:元数据数据预处理数据清洗
逻辑检索表达式:题名=数据预处理
检出文献总数:1
检出文献截图和举例:
[1] 刘文霞 .数据预处理 [M]. 厦门大学出版社 ,2011
注:图书馆关于数据预处理方面的书籍比较少。
2.电子图书(请使用两个电子图书数据库检索)
数据库一:读秀
检索年限:全部
检索词:数据清洗
逻辑检索表达式:全部字段=数据清洗
检出文献总数:49
检出文献截图和举例:
[1]王晓原,张敬磊等,交通流数据清洗与状态辨识及优化控制关键理论方法,科学出版社 ,2011
[2]王晓原,张敬磊,杨新月,交通流数据清洗及状态辨识关键理论与应用,科学出版社 , 2010.09
[3]郑庆华,Web知识挖掘理论、方法与应用,科学出版社, 2010.04
数据库二:超星
检索年限:2002-2012
检索词:计算机元数据数据预处理数据清洗
逻辑检索表达式:主题词:元数据
检出文献总数:1
检出文献截图和举例:
[1]刘嘉著.元数据导论.[M].北京.华艺出版社2002(1).
主题较新,只有1条记录
(二)期刊论文(3个期刊全文数据库)
中文数据库一: CNKI的中国期刊全文数据库
检索年限:2002-2012
检索词:元数据数据预处理数据清洗
逻辑检索表达式:关键词=数据清洗 AND 数据预处理
检出文献总数:51
检出文献截图和举例:
[1]刘丽峰,一种基于清洗关联规则的金融数据挖掘算法[J].微电子学与计算机2012(05) .
[2]袁健.一种重构网站结构的Web日志挖掘数据预处理方法[J].小型微型计算机系统2011(07)
[3]贾瑛.Web使用挖掘的数据预处理过程分析[J].科技信息2011(21).
中文数据库二:万方
检索年限:2002-2012
检索词:元数据数据预处理数据清洗
逻辑检索表达式:题名或关键词:(元数据) + 题名或关键词:( 数据预处理) + 题名或关键词:( 数据清洗) * Date:2002-2012 DBID:WF_QK
检出文献总数:4401
检出文献截图和举例:
[1]郭志懋周傲英数据质量和数据清洗研究综述[J]. 软件学报2002(11)
[2]张健冯建华ZHANG JianFENG Jian-hua数据预处理在保险理赔预测中的应用[J].计算机工程与设计2005(9)
[3] 苏成数据挖掘中不可忽视的环节--数据预处理[J]. 华南金融电脑2006(1)
中文数据库三:维普
检索年限:2002-2012
检索词:元数据数据预处理数据清洗
逻辑检索表达式:题名或关键词=元数据或题名或关键词=数据预处理或题名或关键词=数据清洗与时间=2002-2012
检出文献总数:5256
检出文献截图和举例:
[1]邵必林.边根庆.张维琪.闫瑾.采用k-均值聚类算法的资源搜索模型研究[J].西安交通大学学报.2012(10).
[2]叶碎高.何斌.彭安帮.周惠成.康海贵.信息融合技术在防洪决策中的应用分析.[J].南水北调与水利科技.201
2.(5).
[3]罗凯.王昌.周谭凯.一种信息资源整合优化模型及其性能分析.[J].情报杂志.2012(10)
(三)学位论文(至少2个数据库)
数据库一:万方
检索年限: 2002-2012
检索词:元数据数据预处理数据清洗
逻辑检索表达式:题名或关键词:(元数据) + 题名或关键词:( 数据预处理) + 题名或关键词:(数据清洗) * Date:2002-2012 DBID:WF_XW
检出文献总篇数:1774
检出文献截图和举例:
[1]李晓菲.数据预处理算法的研究与应用.[D]. 西南交通大学.2006.(被引用4 次)
[2]徐一帆.入侵检测中数据预处理算法的研究.[D]. 东北大学.2007.
[3]张宁.MSMiner中的数据预处理和文本分类[D].中国科学技术大学.2003 .
数据库二:cnki