信息源选择与数据挖掘方法PPT(21张)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
寻本溯源,洞悉万象
2020/9/2
5.企业信息报告
寻本溯源,洞悉万象
2020/9/2
6.投资机构的统计网站
寻本溯源,洞悉万象
2020/9/2
6.政府统计类网站/数据库
寻本溯源,洞悉万象
2020/9/2
7.法律规章
法律类数据库:北大法宝、汤森路透的万 律数据库等。
举例:与个人信息安全相关: 中国《中华人民共和国网络安全法》; 欧盟《一般数据保护条例》; 英国《数据保护法案》; 美国《网络空间安全信息共享法》; 《隐私法案》;
快速地进行生成,过滤,转换等操作。其功能最适合的领域, 是爬虫和数据清洗。
其前端界面使用WPF开发,支持插件扩展。通过图形化操作, 能够快速建立解决方案。
2020/9/2
二、数据挖掘方法——数据分析举例
寻本溯源,洞悉万象
2020/9/2
报告和数据使用注意事项
行业报告和各类网站数据良莠不齐,需要有 一定的经验和对行业的理解来判断,而且不同行 业报告的口径不一致,可能导致结论对接不上。 一般来说,可信度:政府>企业>个人。
▪ 其他的网站
寻本溯源,洞悉万象
2020/9/2
一、信息获取渠道:市场信息获取
▪ 1.国内咨询机构网站数据报告 ▪ 2.国内互联网公司数据报告网站 ▪ 3.国外咨询机构网站数据报告 ▪ 4.各大公司不定期发布的报告 ▪ 5.企业信息报告 ▪ 6.政府统计类网站/数据库 ▪ 7.法律规章
寻本溯源,洞悉万象
信息源选择与数据挖掘方法
大纲
▪ 一、信息获取渠道 ▪ 二、数据挖掘方法 ▪ 三、注意事项
寻本溯源,洞悉万象
2020/9/2
一、信息获取渠道:学术信息获取
▪ 学术搜索引擎:Google Scholar、百度学 术
▪ 学术数据库:CNKI中国知网,万方,维普, Web of science,Emerald(爱墨瑞得) 管理学、经济学、工程学数据库, ProQuest学位论文全文库,Elsevier Science 全文学术期刊
所以报告和数据选择和使用,解读和判断上 也需要一定的经验和专业技能,引用臆断的行业 报告和数据的结论来做出判断,研究结论的准确 性与科学性将受到影响。
寻本溯源,洞悉万象
2020/9/2
数据挖掘方法使用注意事项
寻本溯源,洞悉万象
通常作为与数据仓库和分析相关的技术,数据挖掘处于 它们的中间。然而,有时还会出现十分可笑的应用,例如发 掘出不存在但看起来振奋人心的模式(特别的因果关系), 这些根本不相关的、甚至引人误入歧途的、或是毫无价值的 关系,在统计学文献里通常被戏称为“数据捕捞”。数据挖 掘意味着扫描可能存在任何关系的数据,然后筛选出符合的 模式。大量的数据集中总会有碰巧或特定的数据,有着“令 人振奋的关系”,因此要注意伪相关,即相关不一定存在因 果关系。在得出结论之前,没有将所有这些影响因素都考虑 进去的话,得出的因果关系都是不成立的。
寻本溯源,洞悉万象
2020/9/2
二、数据挖掘方法—学习渠道
寻本溯源,洞悉万象
2020/9/2
二、数据挖掘方法-数据爬虫工具举例
数据爬虫工具
Arachnid
Spiderman ThinkUp
网络矿工
应用
优点
Arachnid是一个基于Java的web spider框架.它包含一个简单的 HTML剖析器能够分析包含HTML内容的输入流.通过实现 Arachnid的子类就能够开发一个简单的Web spiders并能够在 Web站上的每个页面被解析之后增加几行代码调用。 Arachnid 的下载包中包含两个spider应用程序例子用于演示如何使用该 框架。
行了广泛调研,
筛选出快手现有 用户1080名,抖 音现有用户1104名, 两者重合现有用 户630名,并结合 QuestMobile的大 数据监测,最终
研究发布了《快 手&抖音用户研究 报告》。
Байду номын сангаас
寻本溯源,洞悉万象
2020/9/2
3.国外咨询机构网站数据报告列表(1)
寻本溯源,洞悉万象
2020/9/2
Spiderman 是一个基于微内核+插件式架构的网络蜘蛛,它的目 标是通过简单的方法就能将复杂的目标网页信息抓取并解析为 自己所需要的业务数据。
微型爬虫框架,含有一个小型HTML解析器
灵活、扩展性强,微内核+插件式架构,通过简单的配置就可 以完成数据抓取,无需编写一句代码
ThinkUp 是一个可以采集推特、facebook等社交网络数据的社 会媒体视角引擎。通过采集个人的社交网络账号中的数据,对 其存档以及处理的交互分析工具,并将数据图形化以便更直观 的查看。
2020/9/2
1.国内咨询机构网站数据报告列表
寻本溯源,洞悉万象
2020/9/2
2.国内互联网公司数据报告网站列表
寻本溯源,洞悉万象
2020/9/2
企鹅智酷_腾讯网-腾讯出品行业报告
寻本溯源,洞悉万象
2020/9/2
举例:企鹅智酷:抖音&快手用户研究报告
2018年3月,对全 国范围的网民进
1、6个后台工作线程,最大限度挖掘爬虫性能潜力 2、界面提供参数设置,灵活方便 3、抛弃app.config配置文件,自己实现配置信息的加密存储, 保护数据库帐号信息
4、自动调整请求频率,防止超限,也避免过慢,降低效率 5、任意对爬虫控制,可随时暂停、继续、停止爬虫 6、良好的用户体验
HAWK是一种数据采集和清洗工具,依据GPL协议开源,能够 灵活,有效地采集来自网页,数据库,文件, 并通过可视化地 拖拽,
……
Sinawler
Hawk
寻本溯源,洞悉万象
国内第一个针对微博数据的爬虫程序。原名“新浪微博爬虫”。 登录后,可以指定用户为起点,以该用户的关注人、粉丝为线 索,延人脉关系搜集用户基本信息、微博数据、评论数据。该 应用获取的数据可作为科研、与新浪微博相关的研发等的数据 支持,但由于新浪微博API的限制,爬取的数据可能不够完整 (如获取粉丝数量的限制、获取微博数量的限制等)
采集推特、脸谱等社交网络数据的社会媒体视角引擎,可进行 交互分析并将结果以可视化形式展现。
Soukey采摘网站数据采集软件是一款基于.Net平台的开源软件, 也是网站数据采集软件类型中唯一一款开源软件。尽管Soukey 采摘开源,但并不会影响软件功能的提供,甚至要比一些商用 软件的功能还要丰富。
功能丰富,毫不逊色于商业软件
3.国外咨询机构网站数据报告列表(2)
寻本溯源,洞悉万象
2020/9/2
4.各大公司不定期发布的报告
1、高德地图:2015年度中国主要城市交通分析报告 2、微信城市服务发布《微信政务民生白皮书》 3、淘宝:发布中国消费趋势数据 4、互联网增长的第一本数据分析手册-Growing IO的公开手册 5、移动游戏运营数据分析指标白皮书…………