数据密集型科学研究范式
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Case: Facebook如何使用大数据? 案例
闪回
我投票
庆祝骄傲
Case:主题数据
Case:交通行为预测
基于用户和车辆的LBS定位数据,分析 人车出行的个体和群体特征,进行交通 行为的预测。交通部门可预测不同时点 不同道路的车流量进行智能的车辆调度, 或应用潮汐车道;用户则可以根据预测 结果选择拥堵几率更低的道路。
库恩认为科学的发展看作一无个侵循入式环感过知程:
新问题和 新事物产
情绪识别的准确生
前科学时期 科学革命
存在 分歧
通过竞争 确立范式
常规科学时期
释疑、通过释疑 推动科学发展 动摇原有范式
新旧范式交替 新旧共同体更替
新的常规科学时期…… 解题能力更强
1.2范式的演变
不良情绪的发现
无侵入式感知
情绪识别的准确
4.来自于跨学科、横向研 究的参考型数据(人类 基因数据)
2.来自于物理学、医学、生物 学、心理学等学科领域的大型 实验设备的试验型数据(如大 型強子對撞機、粒子加速器试 验数据)
5. 人类的人口统计学数据和产生的在线行为数据(消费、浏览、发帖)
2.3关联数据运动
2006年,互联网之父伯纳斯•李在讨论 关于语义网项目的一份设计记录中提 出了发展数据网络的设想,并创造了 “关联数据(Linked Data)”,提出数据 网络的核心即关联数据。
组情
高成就组 (HG)
均值 中等成就组
(MG)
课程周
F 低成就组
(LG)
显著性
事后 检验
低成就组(LG)的困惑情绪表现 最多,高成就组(HG)次之,
绪
PED
0.046
0.049
0.046
0.203 0.816 N/A
中等成就组(MG)表现最少;
CED
0.015
0.012
0.022 6.725** 0.001 LG>HG* 低成就组的消极情绪最多,中
2.3关联数据运动
关联数据就是用主体、谓语、客体三元组来表示资源的RDF(Resource Description Framework)格式数据,关联数据描述了一种出版结构化数据让其 能够互联和更加有用的方法,它依赖标准互联网技术,如HTTP和URIS,不仅 使用他们服务于人类可读的网页,而是扩展到以能被计算机自动阅读的方式分 析信息。
17
Leverage physiological data to recognize emotions
21
思考
新的研究范式是对于传统范式的抛弃与彻底地 革新吗?
02
第四范式兴起的社 会根源
23
2.1数据洪流的到来
无侵入式感知
分布式计算
情绪识别的准确
移 动
终
端
设
备
社 会 化 网 络
云计算
情绪密度计算
EDet
1
PostNum(t
)
PostNum(t )
n 1
EmoWordNum(Postnt ), WordNum(Postnt )
当
WordNum(Postnt )
0
时
0,
当 WordNum(Postnt ) 0 时
案例: 情绪的时序演化分析
0.02
整
体
0.015
PED
积极情绪
科学界对海量数据对科学研究的 影响已经开始重点关注,各大重 要核心杂志,书籍均已推出相关 专辑、专题。围绕科学研究海量 数据的问题展开讨论。
27
2.2科学界对数据的关注
学者们将研究数据的来源归结为5类:
3.来自于大规模模拟计 算的计算型数据
1.来源于测量仪器、传 感设备记录仪器的观测 型数据(如天文望远镜 观测的数据,运行一年: 1.28PB)
整体,它的存在给科学家提供了一个研究纲领; (3)范式还为科学研究提供了可模仿的成功的先例。
在库恩的范式理论中,范式归根到底是一种理论体系。
1.1 范式的演变
“范式转移”,是指一个领域里出现新的学术成果,打破了原有的假设或者法则,从而迫使 人们对本学科的很多基本理论做出根本性的修正。
地平说
地圆说
1.2范式的演变
❖ 最初由美国著名科学哲学家托马斯•库恩在《科学革命的结构》中提 出。简要概括,内涵有两层:1.科学共同体的共同承诺集合;2.科学 共同体共有的范例。
❖ 范式从本质上讲是一种理论体系。范式理论指常规科学所赖以运作的 理论基础和实践规范。
1.1 范式的定义
范式的特点: (1)范式在一定程度内具有公认性; (2)范式是一个由基本定律、理论、应用以及相关的仪器设备等构成的一个
➢ 研究对象:科学数据
1.2.4数据密集型研究范式
无侵入式感知
情绪识Байду номын сангаас的准确
教育研究范式的发展演变
育研究的发展演变
不良情绪的发现
无侵入式感知
情绪识别的准确
有教无类 因材施教
昆体良
“模仿—理论—练习” 三阶段学习过程理论
教育研究范式的发展演变
育研究的发展演变
哲学思辨范式
17世纪中叶
20世纪初
解释主义范式 雅虎宣布研究院不再
C DE dj
j
E
C DET
djk
jk
T
C STW
djk
jk
V
其学习感受和想法。
CDE dj
j
C DET
djk
jk
C STW
jkw
jw
j1
k1
w1
48
案例: 最受学习者关注话题的检测
情绪-话题检测结果(根据每类情绪分布提取概率最高的话题)
情绪-话题标签
Top 10 words with highest probabilities
关联数据有别于互联网上的文件互联,它强调数据互联,将以前没有任何关联 的数据链接到一起,允许用户发现、描述、挖掘、关联和利用数据。
关联数据
大数据—案例
大数据—案例
➢ 数据来源: 匿名校园卡所记录的近2万名大学生在没有外界干预情况 下的行为数据,包括食堂吃饭、宿舍洗澡、教学楼打水 和进出图书馆4种行为约3000万条刷卡记录。
11
1.2.4数据密集型研究范式
➢ 2007年,计算机图灵奖得主吉姆•格雷在美国国家研究理事会计算机科学和远
程通信委员会(NRC-CSTB)演讲报告中提无出侵了科入学式研感究知“第四范式”,即情以绪数识别的准确
据密集型研究范式为基础的科学研究范式。
➢ 数据密集型范式是针对数据密集型科学,有传统的假设驱动向 基于科学数据进行探索的科学方法的转变而生成的科学研究范 式。
案例: 情绪-话题的联合建模与时序演化分析
问题
• 1.在SPOC论坛中,学习者最关注的话题是什么? • 2.在SPOC论坛中,不同学业成就组的情绪-话题有何差异?
模型
μ t
ψ
T E
e
π
γ
在撰写帖子前,学习者已经有一个在线学习的直观感受(对 α
θ
z
w
应于的一个情绪分布),例如,50%满意,30%不满意和20%困
Case:学业情感分析
❖情绪作为教学活动中一种重要的非智力因素(D’ Mello et al.,
2008),是影响SP学O习C者论与坛教学中者的之情间的绪教分与析学互动及教学质量
的核心因素之一,也是教学者观察和分析学习者学习状态的重 要依据。 ❖SPOC(Small Private Online Course)作为一种限制性的在 线学习课程平台,其论坛已越来越多地被高校教师用于课后探 究式讨论、问题答疑及意见反馈,该场景蕴藏着丰富的群体学 习反馈和学习状态信息。
➢ 生活规律性和学业成绩正相关
横纵坐标是归一化后的生活规律性指数和GPA得分 (减去平均值再除以标准差)。可以看到,不管是 吃饭还是洗澡,生活越规律,平均而言成绩越好。
2.3关联数据运动
关联数据运动 36
2.3关联数据运动
37
2.3关联数据运动
美国国会图书馆
世 界 银 行
纽 约 时 报
38
Case: Facebook如何使用大数据?
E
N
T
惑。 并且他/她的意见/反馈可通过每种情绪的主题概率分布来建
S
β
D
E
模(例如,在负面情绪分布中,作业难度、授课风格与课程安排
三种话题各占40%,30%和30%);然后在撰写每个句子时首先 P(ei j, zi k | e-i ,z-i ,w)
确定一个情绪类别,然后从情绪-话题分布中选出一个话题去描述
Facebook作为最大的 社交平台,每天都有 大量的数据产生。
Case: Facebook如何使用大数据?
Facebook通过分析用户数据来确定用户行为,通过分析用户的Facebook喜欢,可以准确地预测一 系列高度敏感的个人属性数据。 剑桥大学和微软研究院的研究人员开展的工作展示了Facebook喜 欢的模式如何能够非常准确地预测你的性取向,对生活的满意度,智力,情绪稳定性,宗教,酒精 使用和吸毒,关系状态,年龄,性别,种族和政治观点 - 以及其他许多观点
2.2科学界对数据的关注
报告称: 2010年企业在磁盘上存储了超过7EB的新数据,消费者在个人计算机上存储了超过 6EB的新数据, 1EB=10亿GB 相当于美国国会图书馆中存储数据的4000多倍
2.2科学界对数据的关注
26
2.2科学界对数据的关注
刊登专辑 “数据处理” Dealing with data”
LG>MG** 等成就组次之,高成就组表现
NED
0.022
0.024
0.032 6.595** 0.001 LG>HG** 的最少
刘智,杨重阳,彭晛,刘三女牙,等. SPOC论坛互动中学习者情绪特征及其与学习效果的关系研究.中国电化教育, 2018,
(4):102-110.
LG>MG*
注:***p<0.001;**p<0.01
作为一个独立实体而
存在 20世纪中叶,
第二次世界大战后
2009年
实证分析为主的方法论
第四种范式——数据密集型科 学范式
研究主体 应深入现场
Case 1: Quantified Health Status of Learners(UCD, Ireland)
Case 2: Quantified Emotions of Learners(HU-Berlin, Germany)
➢ 数据分析: 学生打水、进出图书馆的次数 :学生的勤奋程度 食堂吃饭、宿舍洗澡的时间 :学生校园生活规律程度
----电子科技大学大数据研究中心科研团队
➢ 洗澡和吃饭规律性示意图
深色是前5%有规律的,浅色是前5%无规律的
例:(c)图是开始洗澡的时间在一天24小时中的 分布,某位有规律的同学主要在晚上21点左右洗 澡,而没有规律的某位同学除了凌晨02:30到 05:30,随时都可以去洗澡。
CED
NED
困惑情绪 负面情绪
积极>消极>困惑 学期初与学期末两阶段, 三种情绪出现峰值,表
情绪密度值
情
0.01
明学生情感参与较多,
绪
0.005
而中期学生讨论的情绪
投入较少。
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
不同
成就
情绪 变量
数据密集型科学研究范式
刘智
教育大数据应用技术国家工程实验室 国家数字化学习工程技术研究中心
华中师范大学 二〇二〇年四月
提 纲
目录范式与范式的演化过程 第四范式兴起的社会根源
contents
对第四范式的分析
研究流程
01
范式与范式的演化过程
3
1.1 范式的定义
❖ “范式”:英文“Paradigm”,意为“模范”或“模型”。
1.2.1经验范式
➢ 经验范式偏重于经验事实的描述和明确具体的实用性的科学研究范式。在研究
方法不上良以情归绪纳的为发主现,带有较多盲无目性侵的入观式测感和知实验。
情绪识别的准确
➢ 经典研究方法“三表法”:先观察,进而假设,再根据假设进行实验。 ➢ 主要科学模型:科学实验
1.2.2理论范式
➢ 理论范式主要指偏重理论总结和理性概括,强调较高普遍的理 论认识不而良情非绪直的接发现实用意义无的侵科入式学感研知究范式。情绪识别的准确
Positive-T1 Negative-T25 Confusion-T38
好/good (0.037), loveliness (0.023), 生活/life (0.023), 乐观/optimism (0.019), 积极/positive (0.017), 心态 /mentality (0.016), 调整/adjust (0.015), 培养/foster (0.011), 赞同/agree (0.011), 方法/method (0.011)
➢ 在研究方法上以演绎为主,不局限于描述经验事实。 理论范式的模型为数学模型。
1.2.3模拟范式
➢ 模拟范式是一个与数据模型构建、定量分析方法以及利用计算机来分析和解决科学问题的研究范式。
➢ 研究域:数值不模良拟情,绪模的拟发拟现合与数据分析,无计侵算入优式化感。知
情绪识别的准确
模拟范式在研究中所用模型主要是计算机的仿真/模拟
44
案案例例: 情1:绪情的绪时的序时演化序分演析化分析
问题
• 1.在SPOC论坛互动中,学习者具有哪些情绪特征及每种情绪如何演化? • 2.在SPOC论坛互动中,不同学业成就学习者间的情绪有何差异?
数据
华中师范大学云课堂平台中《心理学基础》三个学期的论坛发帖记录。 759名学习者发布的9816条帖子,总评成绩平均分为77.28,标准差为22.43。