基于Python的新浪微博位置数据获取方法研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
等方面的研究袁E-mail院landcom8835@163.com.
第 39 卷 第 5 期
杜翔袁等院基于 Python 的新浪微博位置数据获取方法研究
91
的微博文本袁对用户社交图谱及感冒数据进行了分 析曰陈琳等[3]通过爬虫获取了发布微博的时间与微 博文本袁分析与雾霾相关微博数量在不同时间尺度 下的变化关系曰A Tumasjan 等[4]通过分析 twitter 上 的十万条信息的情感袁 准确的反映了当时的选举结 果曰Burns 等[5]通过追踪 2012 年 2 月至 2012 年 3 月 24 日之间 twitter 的使用情况袁 表明社会媒体活动 在国家级竞选活动中的相对重要性; 刘乙坐和张 明旺等[6-7]等通过分析微博特点袁提出了一套让政府 有关部门可以有力监测和引导舆论的机制曰易善君 等[8]通过分析微博数据和空气数据袁研究空气质量 与居民情感之间的关系袁得出空气中对居民情感影 响较大的为颗粒物质与有刺激性气味的气体. 关 于微博爬虫和微博数据的研究非常多袁但是由于他 们没有获取到发布微博的位置数据袁研究受到了局 限袁如果有发布微博位置数据袁就能分析舆论的传 播路径袁还能分析感冒尧雾霾尧情感等信息与地理位 置之间的关系. 所以文中提出一个基于 Python 的 微博位置数据的获取方法袁 来增加微博数据的维 度袁使微博数据的价值和可研究性提高.
第 39 卷 第 5 期 2018 年 10 月
江西理工大学学报
Journal of Jiangxi University of Science and Technology
文章编号院2095-3046渊2018冤05-0090-07 DOI:10.13265/j.cnki.jxlgdxxb.2018.05.015
0引言
智能手机的普及尧web2.0 技术的日益成熟以及 移动网络的迅速发展袁 使得社交媒体软件迅速发展 和被使用. 据统计袁国内最大的微博平台要要要新浪微 博截至 2017 年 9 月袁 活跃用户就达到了 3.76 亿[1]. 用户借助微博平台袁在网络上留下各种野足迹冶袁包
括评论尧图片尧视频尧地理位置和个人信息等袁尤其 在外出游玩过程中袁 用户到达旅游目的地之后倾向 于通过微博随时随地发布心情和照片等袁 这些数据 经过长时间的积累便会形成大规模的数据量. 由于 数据都是用户根据自己当时的感受尧所想而产生的袁 他人干预的因素较小袁 因此数据能较为真实的反映 出用户当时的状态袁具有较高的挖掘价值.
周中华等[2]通过模拟登录微博成功获取了大量
收稿日期院2017-10-12 基金项目院国家自然科学基金资助项目渊41561085冤 作者简介院杜翔渊1992- 冤袁男袁硕士研究生袁主要从事空间数据库理论与空间数据挖掘等方面的研究袁E-mail:404452958@qq.com. 通信作者院兰小机渊1965- 冤袁男袁博士袁教授袁主要从事空间数据库理论与空间数据挖掘尧云计算环境下空间数据的存储管理尧物联网与 GIS
Hale Waihona Puke Baidu
Abstract: In order to obtain the massive location data in Sina microblog, this paper proposes a method of obtaining location data which in Sina Microblog based on Python, following which,we have designed a program to achieved it. Through simulation login, web page parsing, keyword matching and other technologies, this program manages to obtain the required text data袁userinfo and location data. Experiments show that this program can collect data such as the location of Sina microblog in a specific area,with an adjustable acquisition speed,which may provide the possibility for the further study on data mining in microblog. Keywords: Python; obtaining method; Sina microblog; location data
基于 Python 的新浪微博位置 数据获取方法研究
Vol.39, No.5 Oct. 2018
杜翔 a袁 蔡燕 b袁 兰小机 b
渊江西理工大学袁a.西校区管委会曰b.建筑与测绘工程学院袁江西 赣州 341000冤
摘 要院为获取新浪微博中微博位置数据袁提出一种基于 Python 的新浪微博位置数据获取方法袁 并遵循此方法设计了一个可以获取新浪微博位置数据的程序. 该程序通过模拟登录尧 网页解析尧关 键字匹配等技术来获取所需的微博文本数据尧用户信息和微博位置数据. 实验表明袁本程序能够采 集特定区域的新浪微博位置等数据袁且采集速度可调节袁为后续微博的数据挖掘研究提供可能. 关键词院Python曰获取方法曰新浪微博曰位置数据 中图分类号院TP311.1 文献标志码院A
Study on method of obtain location data for sina microblog based on python
DU Xianga, CAI Yanb, LAN Xiaojib
(a.West campus Management Committee; Jiangxi University of Science and Technology, Ganzhou 341000, China曰 b.School of Architectural and Surveying & Mapping Engineering, Jiangxi University of Science and Technology, Ganzhou 341000, China)
第 39 卷 第 5 期
杜翔袁等院基于 Python 的新浪微博位置数据获取方法研究
91
的微博文本袁对用户社交图谱及感冒数据进行了分 析曰陈琳等[3]通过爬虫获取了发布微博的时间与微 博文本袁分析与雾霾相关微博数量在不同时间尺度 下的变化关系曰A Tumasjan 等[4]通过分析 twitter 上 的十万条信息的情感袁 准确的反映了当时的选举结 果曰Burns 等[5]通过追踪 2012 年 2 月至 2012 年 3 月 24 日之间 twitter 的使用情况袁 表明社会媒体活动 在国家级竞选活动中的相对重要性; 刘乙坐和张 明旺等[6-7]等通过分析微博特点袁提出了一套让政府 有关部门可以有力监测和引导舆论的机制曰易善君 等[8]通过分析微博数据和空气数据袁研究空气质量 与居民情感之间的关系袁得出空气中对居民情感影 响较大的为颗粒物质与有刺激性气味的气体. 关 于微博爬虫和微博数据的研究非常多袁但是由于他 们没有获取到发布微博的位置数据袁研究受到了局 限袁如果有发布微博位置数据袁就能分析舆论的传 播路径袁还能分析感冒尧雾霾尧情感等信息与地理位 置之间的关系. 所以文中提出一个基于 Python 的 微博位置数据的获取方法袁 来增加微博数据的维 度袁使微博数据的价值和可研究性提高.
第 39 卷 第 5 期 2018 年 10 月
江西理工大学学报
Journal of Jiangxi University of Science and Technology
文章编号院2095-3046渊2018冤05-0090-07 DOI:10.13265/j.cnki.jxlgdxxb.2018.05.015
0引言
智能手机的普及尧web2.0 技术的日益成熟以及 移动网络的迅速发展袁 使得社交媒体软件迅速发展 和被使用. 据统计袁国内最大的微博平台要要要新浪微 博截至 2017 年 9 月袁 活跃用户就达到了 3.76 亿[1]. 用户借助微博平台袁在网络上留下各种野足迹冶袁包
括评论尧图片尧视频尧地理位置和个人信息等袁尤其 在外出游玩过程中袁 用户到达旅游目的地之后倾向 于通过微博随时随地发布心情和照片等袁 这些数据 经过长时间的积累便会形成大规模的数据量. 由于 数据都是用户根据自己当时的感受尧所想而产生的袁 他人干预的因素较小袁 因此数据能较为真实的反映 出用户当时的状态袁具有较高的挖掘价值.
周中华等[2]通过模拟登录微博成功获取了大量
收稿日期院2017-10-12 基金项目院国家自然科学基金资助项目渊41561085冤 作者简介院杜翔渊1992- 冤袁男袁硕士研究生袁主要从事空间数据库理论与空间数据挖掘等方面的研究袁E-mail:404452958@qq.com. 通信作者院兰小机渊1965- 冤袁男袁博士袁教授袁主要从事空间数据库理论与空间数据挖掘尧云计算环境下空间数据的存储管理尧物联网与 GIS
Hale Waihona Puke Baidu
Abstract: In order to obtain the massive location data in Sina microblog, this paper proposes a method of obtaining location data which in Sina Microblog based on Python, following which,we have designed a program to achieved it. Through simulation login, web page parsing, keyword matching and other technologies, this program manages to obtain the required text data袁userinfo and location data. Experiments show that this program can collect data such as the location of Sina microblog in a specific area,with an adjustable acquisition speed,which may provide the possibility for the further study on data mining in microblog. Keywords: Python; obtaining method; Sina microblog; location data
基于 Python 的新浪微博位置 数据获取方法研究
Vol.39, No.5 Oct. 2018
杜翔 a袁 蔡燕 b袁 兰小机 b
渊江西理工大学袁a.西校区管委会曰b.建筑与测绘工程学院袁江西 赣州 341000冤
摘 要院为获取新浪微博中微博位置数据袁提出一种基于 Python 的新浪微博位置数据获取方法袁 并遵循此方法设计了一个可以获取新浪微博位置数据的程序. 该程序通过模拟登录尧 网页解析尧关 键字匹配等技术来获取所需的微博文本数据尧用户信息和微博位置数据. 实验表明袁本程序能够采 集特定区域的新浪微博位置等数据袁且采集速度可调节袁为后续微博的数据挖掘研究提供可能. 关键词院Python曰获取方法曰新浪微博曰位置数据 中图分类号院TP311.1 文献标志码院A
Study on method of obtain location data for sina microblog based on python
DU Xianga, CAI Yanb, LAN Xiaojib
(a.West campus Management Committee; Jiangxi University of Science and Technology, Ganzhou 341000, China曰 b.School of Architectural and Surveying & Mapping Engineering, Jiangxi University of Science and Technology, Ganzhou 341000, China)