信息检索与数据预处理

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计描述(Statistic Description)
4、直方图hist 5、数据拟合,利用cftool Ps:以上数据预处理方法只是对数据的简单 描述,更深入的内容可以参看数据挖掘技 术和多元统计分析。
references
[1] 杨文霞,数学建模培训之数据的预处理,武汉理 工大学理学院,2009.7.11 [2]http://www.ilovematlab.cn/viewthread.php?tid= 872 [3]元昌安等,数据挖掘原理与SPSS Clementine应 用宝典,电子工业出版社. [4]徐从富,数据预处理技术,浙江大学人工智 能研究所 [5]司守奎,算法大全,201~205 [6] http://www.madio.net/thread-93363-1-1.html
Inconsistent Data
由于数据来源,收集标准等的不同导致相同 属性的数据不同表现形式。 例1:A数据库对产品质量等级划分列为一等 品,二等品,三等品;B数据库则划分为A 级,B级,C级。 例2:武大的一周从周日开始到周六 我们学校的一周从周一开始到周日
数据变换(Data Transformation)
平滑化:消除数据中的噪声影响(回归方法)
标准化: Y
X

X m in ( X )
归一化:Y
m ax ( x ) m in ( x )
统计描述(Statistic Description)
1、查看均值mean、中位数median,标准差std, 极差range 2、峰度kurtosis,正态分布的峰度为3,若2 ν 比3 大得多,表示分布有沉重的尾巴,说明样本中 含有较多远离均值的数据,因而峰度可以用作 衡量偏离正态分布的尺度之一。 3、偏度skewness,偏度反映分布的对称性.其值 大于0 称为右偏态,此时数据位于均值右边的 比位于左边的多;反之,称为左偏态;而值接 近于0则可认为分布是对称的
信息检索与数据预处理
Biblioteka Baidu
信息检索
信息来源: 1、传统资源.图书馆纸质书籍期刊。 2、网络资源。 数据库:中国期刊网,超星,书生之家 (图书馆首页-->数据库导航) 搜索引擎:google学术、google图书(google搜索技巧 ) 新浪共享资料、豆丁网 百度文库、CSDN、人大经济论坛 各大高校BBS论坛、FTP资源 数学中国论坛 国家统计局 维基百科(英文版)
数据提取(Data extraction)
Ps: (1) 若其中涉及的人工步骤,如各种相同的复制 粘贴较多,则建议还是编写简单的C语言程序 或者matlab程序处理。做到采取手动提取和 使用程序、工具软件提取相结合. (2) 尽量将数据存为矩阵形式,方便matlab的使 用。 (3) 为保险起见,要注意save重要数据和常用数 据。将导入的数据,存成一个.mat文件,以 后就可以重新Load进工作区间参与运算。
Incomplete Data 数据的不完整可能由于数据在收集、来源、 整理等过程中造成的数据的缺失。 (1)忽略缺失值 (2)人工凭经验填写缺失值 (3)使用该部分数据的均值填充 (4)利用回归等方法填写一个最有可能的值 (5)利用SPSS中分析-->缺失值分析
数据清洁(Data Cleaning)
数据清洁(Data Cleaning)
数据清理要去除源数据集中的噪声数据和 无关数据,处理遗漏数据和清洗脏数据、 空缺值, 识别删除孤立点等。
数据清洁(Data Cleaning)
Noisy Data
噪声是一个测量变量中的随机错误和误差。 一般我们直接剔除这些异常值。 例:
数据清洁(Data Cleaning)
数据预处理
1、数据提取(Data extraction) 2、数据清洁(Data Cleaning) 3、数据变换(Data Transformation) 4、统计描述(Statistic Description)
数据提取(Data extraction)
(1)如果数据较为整齐,则利用matlab函数直接导入。如 importdata(),xlsread(),load(). (2)如果是txt数据,而且混有字符和数字,一般处理起来 比较麻烦点,则可用C语言中的fgets()一行行读出来, 存成字符串再用atof()函数转化为十进制数,最后重新 存为txt数据进行处理。 (3)熟悉数据库语言的可以利用数据库进行相关操作,再 次不作介绍。
信息检索
信息检索技术: 1、利用搜索引擎,关键词搜索 2、数据库中,利用题名、摘要、作者等分类 搜索 3、从参考文献入手 4、从维基百科(英文版)词条的reference入 手 4、从在该领域有名的教授的论文入手
数据预处理
自2000年以来,数学建模竞赛题目的数据 提供方式越来越多样(txt文档、acess数据、 excel数据);数据量越来越庞大; 快速而方便的从提供的数据中,找到我们 所需要使用的数据,就可以为后面的分析 和处理节约时间,而不为提取数据所累; 数据的存储、重用和传递,也是数学建模 竞赛中常常 用到的; 对数据的使用和分析是建模的基础
相关文档
最新文档