第二章 数据的收集
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
7.自动生成 在大数据时代,数据的产生方式呈现多样化,如从传 感器、摄像头自动收集的数据,电子商务在线交易日志数 据、应用服务器日志数据等自动保存的数据都是自动生成 的数据。
2.2.2 二手数据 二手数据也称为次级数据,是指那些从同行或一些媒体上获得的、经过加工整理的数据,比如国家统计 局定期发布的各种数据,从报纸、电视上获取的各种数据。 1.导入Access数据 (1)在Excel中单击“数据”|“自Access”按钮,如图2-5所示。
图2-5 导入Access数据
(2)在弹出的对话框中选择需要的Access文件“图书销售.accdb”,如图2-6所示。
图2-6 选择Access文件
(3)单击“打开”按钮,在弹出的对话 框中选择需要的表“销售情况”,如图2-7所 示。
(4)在弹出的对话框中确定数据的显示 方式和放置位置,如图2-8所示。
4.抽样调查法 抽样调查法是根据随机性原则,从研究对象的总体中抽取一部分个体作为样本进行调查研究, 据此推断有关总体的数字特征的研究方法。ຫໍສະໝຸດ Baidu样应遵循以下原则。 (1)随机取样。 (2)取样应具有代表性。 (3)若样本由具有明显不同特征的部分组成,应按比例从各部分抽样。 5.实验法 实验法是在设定的特殊实验场所、特殊状态下,对调查对象进行实验以获得所需的资料。 6.报告法 报告法是通过报告单位根据一定的原始记录和台账,根据统计表的格式和要求,按照隶属关 系,逐级向有关部门提供统计资料的一种调查方法。
2.1.2 数据的呈现形式 1.不同个体在同一标志上的不同取值 在Excel中,这样的数据可以排成一列,也可以排成一行或一个矩形块。 某公司100名职工的月基本工资数据资料如图2-2和图2-3所示。
图2-2 单列数据
图2-3 矩形块数据
2.数据清单 不同个体在多个标志上的取值所组成的二维表格,在Excel中叫数据清单,如图2-4所示。
导入的结果如图2-12所示。 (3)也可以选择网页上的数据后,单击鼠标右键,在弹出的快捷菜单中选择“复制”命令, 如图2-13所示,再到Excel中粘贴即可。
图2-12 导入的结果
图2-13 复制数据
3.利用爬虫软件下载网络数据 万维网上更多的数据是以非表格形式呈现的。 如何有效地提取并利用这些信息成为一个巨大的挑战。 为了解决上述问题,定向抓取相关网页资源的软件——聚焦网络爬虫应运而生。 聚焦网络爬虫是一种能自动下载万维网数据的程序,它能按照一定的规则,根据既定的目标, 自动地抓取万维网上的数据。
2.2.1 一手数据 1.观察法 观察法是指调查人员亲自到现场对调查对象进行观察,在被 调查者不察觉的情况下获得数据资料的一种调查方法。 2.采访法 采访法是通过指派调查人员对被调查者提问,据被调查者的 答复取得资料的一种调查方法。
3.问卷调查法 问卷调查法是把调查项目列于表格上形成问卷,通过发放问卷搜集调查对象情况的一种采集 资料的方法。问卷中问题的设计应注意以下原则。 (1)具体性原则,即问题的内容要具体,不要提抽象、笼统的问题。 (2)单一性原则,即问题的内容要单一,不要把两个或两个以上的问题合在一起提。 (3)通俗性原则,即表述问题的语言要通俗,不要使用使被调查者感到陌生的语言,特别 要避免使用过于专业的术语。 (4)准确性原则,即表述问题的语言要准确,不要使用模棱两可、含混不清或容易产生歧 义的语言或概念。
图2-4 数据清单
Excel数据清单包含一行列标题和多行数据,清单中的每一列称为一个字段,列标题称为字段 名(即统计学中的标志);清单中的每一列数据的类型和格式完全相同;清单中每一行数据称为 一条记录。
数据清单中不能有合并单元格的形式。 多个相关的数据清单在一起,就称为一个数据库。
2.2 数据的来源
图2-1 Excel数据类型
在1数.1据数运字算通过信程系中统,的我基们本发概现念,数值、货币、日期与时间都可以进行加、减、乘、除等算术运算, 所以统称为数值型;而文本只能进行简单的“计数”,不能进行算术运算,仍称文本型。
所以,在Excel数据分析中,我们把数据类型分成两种:数值型数据和文本型数据。 数值型数据对应统计学中的数量标志的标志表现,文本型数据对应统计学中的品质标志的标志表 现。
(5)简明性原则,即表述问题的语言应该尽可能简单明确,不要冗长和啰唆。 (6)客观性原则,即表述问题的语言要客观,不要有诱导性或倾向性语言。 (7)非否定性原则,即要避免使用否定句形式表述问题。 (8)可能性原则,即必须符合被调查者回答问题的能力。凡是超越被调查者理解能力、记 忆能力、计算能力、回答能力的问题,都不应该提出。 (9)自愿性原则,即必须考虑被调查者是否自愿真实回答问题。凡被调查者不可能自愿真 实回答的问题,都不应该正面提出。
数据分析基础
宁赛飞 主编 李小荣 副主编 管银枝 主审
以分析大数据时代对大学生就业能力基本要求 出发,以数据的处理与数据的分析为重点,
采用案例教学模式组织内容,将理论融入案例
人民邮电出版社
目录/Contents
第二章 数据的收集
2.1 理解数据
2.2 数据的来源
2.1 理解数据
2.1.1 数据的类型 在Excel中,数据类型细分起来有很多(见图2-1),但是归根结底还是四大类,分别是:数值、 货币、日期与时间、文本。
图2-7 选择Access表
图2-8 选择显示方式和放置位置
(5)单击“确定”按钮,导入的结果如图2-9所示。
图2-9 导入的结果
2.导入网站表格数据 (1)在Excel中单击“数据”|“自网站”按钮,如 图2-10所示。 (2)输入或复制并粘贴网址。
图2-10 导入网站数据
图2-11 选择导入的表格