基于数据挖掘和自然语言处理的社交媒体数据分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

cookie
解析cookie值模拟登陆QQ空间
json
数据清洗后转换格式为json
爬虫思路
02 研究方法
语料库
新浪微博
情感分析
模型
Word2Vec
02 研究方法
数据的可视化
pandas
FLASK
echarts
利用pandas对数据进行 统计和分析
利用flask框架简单部署在5050端口
利用echarts生成多样化 的图表
03 成果展示
03 成果展示
总体分析
结合各个时间节点对数据进行展示, 挖掘总体数据展现的规律。.
03 成wk.baidu.com展示
正能量
高中vs大学
今天是周五
.
21:00
成果展示
03 表达观点,青春正能量
整体上倾向于正向情感,happy占比高达34%
成果展示
03 春风得意马蹄疾,一日看尽长安花 ——《登科后》
01 选题背景
灵感来源
社交媒体上包含的大量信息,有利于来探究同学们的心理状态
01 选题背景
社交媒体数据挖掘
• 社交媒体数据量大且足够丰富 • 社交媒体上数据便于收集 • 人们更愿意在社交媒体上吐露心声
02 研究方法
02 研究方法
网络爬虫
NLP
情感分析
多维度展示
02 研究方法
MySQL
选用MySQL做持久化存储
探寻数据背后的故事 @星辰遥感
最初想要做的就是透过数据挖掘出我们院、 我们学校乃至我们这一代大学生的一些特性, 展现当代大学生的社交生活状况。
未来我们希望最终能通过社交媒体去 分析出同学们存在的心理问题以及心 理状况的变化。
初步构想
数据解读心理状况
未来前景
检测心理问题
We are just on the way. Thank you!
03 成果展示
图中可以看到 评论数与情感分数呈正态分布
03 成果展示
评论数有效的反映了社交的质量,大学之初结识了许多朋友 文本情感均值在逐渐上升。
03 成果展示
我们
因为彼此,成就彼此。
知道
知之为知之,不知为不知,是知也。
自己
张扬个性,释放自我。.
可以
年轻,没有什么不可以。.
04 未来展望
04 未来展望
2017年动态数量激增,告别高中,开始享受大学时光
成果展示
03 今天是周五吗? 是
——@即刻
一周中,同学们更偏向于周五发表动态.
假期伊始,周五的狂欢。
成果展示
03 这夜晚 为我们 而璀璨
——<<深夜诗人>>
21:00之后发表动态数量激增,一天的学习生活之后,开始放飞自我, 深夜档社交媒体故事多…..
基于数据挖掘和自然语言处 理的社交媒体数据分析
大学生社交状态探究
CONTENTS
01 选题背景 02 研究方法
03 作品展示 04 未来展望
01
选题背景
社交媒体无疑已经成为现代人们分享喜怒哀乐的最主要的平台, 中国社交媒体发展报告指出,46.2%的用户每天使用社交应用 的时长在 60 分钟以上,日均使用时长在 30 分钟以上的用户 累计达 61%,日均使用时长在 10 分钟以上的用户累计达 84.9%。
相关文档
最新文档