4-大数据时代的真实世界研究2

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
50
40
% of patients
40
36.2%
30
% of patients
30 23.5% 20 9.8% 4.5% 0 5.9%
20 14.9% 12.2% 10 1.3% 0 <300 300999 1000- 10,000- ≥1 9999 99,999 million 1.4% 3.6%
2 3 4 5 6 7 8 9 10
134
106
81
64
52
39
17
5
2
Lin SM, et al. J Hepatol. 2007:46:45-52. 对233例干扰素治疗慢乙肝患者和233例无治疗对照组患者进行中 位数随访6.8年(1.1-16.5年)研究
大数据潜质的信息资源
• 笔者体会“大数据”不仅是数据量大,数据结构复杂,而 且应该是动态变化、蕴含着丰富使用价值的数据
• 如今,在我们身边具有大数据潜质的信息资源随处可见, 目前大多以纸张或模拟信息媒介的形式存放,但随着数字 信息技术、网络技术以及物联网技术的出现和应用,他们 大都可以被数据化后而激活,成为拥有巨大创新价值的宝 库
数据到底有多大?
• 一组名为“互联网上一天”的数据告诉我们,一天之中, 互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮 件有2940亿封之多(相当于美国两年的纸质信件数量); 发出的社区帖子达200万个(相当于《时代》杂志770年的 文字量);卖出的手机为37.8万台,高于全球每天出生的 婴儿数量37.1万…… • IBM的研究称,整个人类文明所获得的全部数据中,有90% 是过去两年内产生的。而到了2020年,全世界所产生的数 据规模将达到今天的44倍。
• 启示:大数据的魔力在于不仅仅是事后的分析评估,而是 能够在某种程度上“预知未来”。如果被预测出来的“时 间窗口”事关重大甚至像上面的案例讲的——“人命关天 ”,那大数据的价值将不可限量


一、大数据时代
二、大数据时代的思维改变
三、真实世界研究
大数据时代的思维改变
• IBM的资深“大数据”专家杰夫·乔纳斯(Jeff Jonas)提出:让数据“说话”
云计算
“大数据”与“数据”的区别
• 过去我们说的“数据”很大程度上是指“数字”,都是一 个个数字或者是可以进行编码的简单文本,这些数据分析 起来相对简单,过去传统的数据解决方案(如数据库或商 业智能技术)就能轻松应对 • 而今天我们所说的“大数据”则不单纯指“数字”,可能 还包括“文本,图片,音频,视频……”等多种格式,其 涵括的内容十分丰富,如我们的博客,微博,轻博客,我 们的音频视频分享,我们的通话录音,我们位置信息,我 们的点评信息,互动信息等等,包罗万象 • 用正规的语句来概括就是,“数据”是结构化的,而“大 数据”则包括了“结构化数据”、“半结构化数据”和“ 非结构化数据”
12
10
HBsAg+ HBeAg+
30
20
P = 0.031
8
6
RR=60.2
10
0 0
74
13.5% 血清学转换
(月) 24 48 72 96 120144168192216
60 49 39 32 22 14 6 4
累计发生率 (%)
4 2 0 1 Year
Biblioteka Baidu
HBsAg+ HBeAg–
RR=9.6
HBsAg– HBeAg–
•数据化:将现象转变为可制表分析的量化形式的过程 •数字化:把模拟数据转换成可用0和1表示的二进码,以便 电脑处理
“棱镜门”计划泄密者,美国前中央情报局特工 爱德华·斯诺登
案例1:莫里绘制航海图
• 远在1855年,时任美国海军的马修·方丹·莫里利用前人遗留 的具有大数据潜质的航海日志,绘制出给航海业带来巨大变化 的航海图。 • 航海日志是船长个人的航海经历的记录,但这些经验信息并没 有得到应用。而莫里在发现库房中存留的大量航海日志后,他 与20位从事数据处理的人,一起把破损的航海日志记录的有用 信息,通过数据提取,制成表格,整合数据之后,把整个大西 洋按经纬度划分成了5块,并按月份标出了温度、风速和风向等 。于是,这些来自破旧脏乱航海日志的信息,变成了有效的航 海路线图。为了不断地提高航海线路的精度,莫里要求航海图 的使用者都要将航行经历,使用事先特定的表格继续记录成航 海日志,他们再根据航海日志产生的数据不断地修订和完善航 海图。 • 航海图使用后使原航行路程缩短了三分之一,并大大减少了航 行的危险,此后不仅得到美国海军的使用,而且也被商船大量 使用。
“结构化”、“半结构化”、“非结构化
• 关于“结构化”“半结构化”“非结构化”可能从字面上 比较难理解
• 由于数据是结构化的,数据分析可以遵循一定现有规律的 ,如通过简单的线性相关,数据分析可以大致预测下个月 的营业收入额。目前,只有5%的数据是结构化 • 而大数据是半结构化和非结构化的,其在分析过程中遵循 的规律则是未知的,它通过综合方方面面的信息进行模拟 ,它以分析形式评估证据,假设应答结果,并计算每种可 能性的可信度,通过大数据分析我们可以准确找到下一个 热点
核心观点:大数据时代“因果关系”变得 不那么重要了
• 大数据时代最大的转变就是:放弃对“因果关系”的渴求 ,而取而代之关注“相关关系”。也就是说只要知道“是 什么”,而不需要知道“为什么” • 这是对人们长时间积累起来的思维习惯的一次冲击和挑战 ,但当我们开始习惯用大数据的思维时,经过一段时间的 积累,也许就会发现大数据的魅力了 • 最重要的是:人们可以在很大的程度上从对于“因果关系 ”的追求中解脱出来,转而将注意力放在“相关关系”的 发现和使用上
案例——因果关系臆想导致错误的理解
• 案例1:手机是否增加癌症发生率?丹麦癌症协会(2011 年10月,《英国医学杂志》):研究分析了1990-2007年 间358403手机用户,在此期间,共有10729名中枢神经系 统肿瘤患者,最后发现,手机与癌症风险增加之间不存在 任何关系
• 案例2:美国折扣零售商塔基特(Target)与怀孕预测
大数据时代来临
• 2008年9月,《Nature》出版了一个专刊,讨论大 数据存储、管理和分析等问题,昭示着大数据时 代的到来。之后麦肯锡公司、《Science》先后出 版大数据报告和专刊
• 大数据的讨论在中国也风起云涌,中国计算机学 会于2012年10月在大连成立了以中国工程院院士 李国杰为首的“大数据专家委员会”,国家自然 科学基金委于2013年3月在上海举办了第89期双清 论坛“大数据技术与应用中的挑战性科学问题”
大数据时代来临
• 进入2012年,大数据(big data)一词越来越多地被提及 ,人们用它来描述和定义信息爆炸时代产生的海量数据, 并命名与之相关的技术发展与创新。 • 哈佛大学社会学教授加里·金说:“这是一场革命,庞大 的数据资源使得各个领域开始了量化进程,无论学术界、 商界还是政府,所有领域都将开始这种进程。”
• 案例3:感冒与穿戴之间没有直接关系
• 案例4:汽车发电机故障与冰激凌
生活中并不缺少美,缺少的是发现美的眼睛
——罗丹
生活中并不缺乏数据, 只是缺乏善于从数据中发现规律的方法
2017/3/23 24
高病毒载量与肝硬化及HCC风险增加相关
随访13年HCC累计发生率1 (N = 3,653)
50
随访11年肝硬化累计发生率 2 (N = 3,582)
• 大数据时代的三个思维改变:
– 首先,要分析更多的数据,有时甚至要处理与某事物相关的所有 数据,而不是依赖靠分析少量数据样随机抽样 – 其次,研究数据如此之多,以至于不再热衷于追求精确性 – 最后,不再探求难以捉摸的“因果关系”,转而关注事物的“相 关关系”
– 大数据时代处理数据上的三大转变:
• 要全体不要抽样 • 要效率不要绝对精确 • 要相关不要因果
案例3:美国总统奥巴马成功当选竟然靠的大数据
• 奥巴马在2012年的总统大选中之所以最后胜出,借用了大 数据的方法,通过对目标选民的细分,奥巴马的竞选团队 甚至对每一个个体选民进行统计,如年龄,性别甚至喜欢 在什么时段收看节目……这样,在投放广告时才更有针对 性。竞选结果表明,他仅以微弱的优势获得了胜利,而这 微弱优势的选票,也许就来自于接收到精准投放广告的那 部分选民 • 启示:大数据并不是一门高深的“技术”,而是一种思维 方式。从部分抽样到全部抽样,不再是传统统计学对趋势 的把握,而更加注重个体特征的综合分析,从而得出更有 针对性的决策和判断
案例2:谷歌预测甲型H1N1流感爆发
• 2009年,在甲型H1N1流感爆发的几周前,互联网巨头谷歌 公司的工程师在《Nature》杂志发表一篇令人震惊的论文 • 该文根据互联网上5000万条美国人最频繁检索的词条如“ 哪些是治疗咳嗽和发热的药物”等,与美国疾控中心在 2003年至2008年间季节性流感传播时期的数据进行比较, 发现了45条检索词条的组合,再将它们用于一个特定的数 学模型所预测的流感发病趋势与CDC曾经预测的相关性高 达97% • 该论文不仅预测了流感在美国全境的发生,还预测了在不 同州或地方的传播趋势,而这样的预测不像疾控中心只能 在流感爆发1~2周之后才可以做到
大数据是什么?
• 什么是大数据,其概念定义至今莫衷一是 • 2012年8月份国际数据挖掘会议SIG KDD的大数据论坛,从 数据存储角度认为大数据应该是10台服务器也无法存储的 数据,这样的数据必须进行在线分析,否则计算机存储无 法支持;有专家从数据分析角度认为,数据结构很复杂, 现有方法无法处理,必须采用类似谷歌的Hadoop平台进行 处理的就是大数据。 • 到2013年,世界存储的数据预计达到1.2泽字节(ZB=270) ,其中98%为数字数据 • 今天我们所说的“大数据”和过去传统意义上的“数据” 的区别又在哪里?大数据的来源又有哪些?
10
<300
基线 HBV DNA (copies/mL)
300999
1000- 10,000- ≥1 9999 99,999 million
1对1991-1992年台湾3653例HBsAg阳性的人群进行平均13年随访研究.
2对1991-1992年台湾3582例没有治疗的HBV患者进行平均11年随访研究.Iloeje,
Chen, et al. JAMA 2006; 295: 65-73. et al. Gastroenterology 2006; 130: 678-686. SEB-PM007/01-9/2009
HBeAg持续阳性与肝硬化及HCC发生相关
50 40
肝硬化累计发生率(%)
台湾11,893名男性HCC累计发生率 无血清学转 换 43.5%
案例4:挽救早产儿——生命本该不脆弱
• 在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超 过3000次的数据读取。通过这些数据分析,医院能够提前 知道哪些早产儿出现问题并且有针对性地采取措施,避免 早产婴儿夭折 • 而研究表明,早产儿的稳定有时不是病情好转的标志,而 是风暴钱的宁静,就像身体的器官要做好抵抗困难的准备 • 那些由于早产不幸夭折的孩子们在“特定时期”并不会有 剧烈的生命体征变化,而通过大数据分析,只要及时进行 医疗干预,这些灾难完全可以避免
• 而中医药领域浩瀚的古代医籍、大量病历资料与现代科学 研究文献,以及随着物联网的广泛应用,人们衣食住行过 程以及健康信息监测所产生的数字信息,也都将成为可以 有力促进中医药和人类健康事业发展的大数据
本质上,世界由信息构成
• 物联网,试图在一切生活的事物中都植入芯片、传感器和 通信模块,这个词很像互联网的姐妹,其实不过是一种典 型的数据化手段罢了
– 2009年,苹果公司申请了一项专利,通过音频耳塞收集关于血液 氧合度、心率和体温的数据
• 今天,我们生活在一个计算型社会,因为我们相信世界可 以通过数字和数学而获得解释——量化一切——把各种各 样的显示转化为数据

耳挂、头戴式16通道 • 健康监护设备
物联网
世界的本质就是数据
•量化一切是数据化的核心
大数据时代的真实世界研究
程良斌 湖北省中医院 肝病科


一、大数据时代
二、大数据时代的思维改变
三、真实世界研究


一、大数据时代
二、大数据时代的思维改变
三、真实世界研究


2013年4月14日CCTV《对话》栏目 陈伟鸿 Vs 维克托
作者:[英] 维克托· 迈尔-舍恩伯格 (Viktor Mayer-Schönberger)著 盛扬燕 周涛 译
相关文档
最新文档