医疗大数据、智慧健康主题汇报PPT
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算机大数据算法--十大经典算法
✓ C4.5 ✓ K-Means ✓ Support vector machines ✓ The Apriori algorithm ✓ 最大期望(EM)算法
✓ PageRank ✓ AdaBoost ✓ k-Nearest Neighbor ✓ Naive Bayes ✓ CART
程等信息有了很强的关联性。
大数据——Velocity 速度
• 实时数据流处理的要求,是区别大数 据引用和传统数据仓库技术,BI技术 的关键差别之一;
• 1s 是临界点,对于大数据应用而言, 必须要在1秒钟内形成答案,否则处 理结果就是过时和无效的;
大数据——Value 价值
为了一点金子,需要保存全部沙子
医疗健康,刚性需求
看病难,看病贵
看病难,看病贵
非结构化数据处理——文字
1 、语言处理技术
建立标准 术语系统
医学知识 模型
信息提取
文本模块化
2、数据挖掘技术
机器学习
统计学习
规则归纳
3、应用
电子病历数据挖掘支持:临床决策、建立临床路径、临床 指南,诊疗过程追踪
非结构化数据处理——图像
图像之全息眼镜
?
—
1PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes
数
据 1EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes
1ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes
1970 1974 1979
1991
2001 2003 2008 2011
数据管理技 术历经人工 管理、文件 管理、数据 库管理等时 代,大数据 技术的出现 使该领域进 入了一个新 的发展阶段
大数据是“未来的新石油”
• 2012年,世界上存储的数据达到1.5ZB(约1亿TB)字节, 如果把这些数据全部印刷成书,这些书可以覆盖整个美国52 次,如果将之存储于标准的光盘,这些光盘可以堆成五堆, 每一堆都可以伸到月球。
大数据时代的爆炸增长
大数据的4V特征
大数据——Volume 数据量
PB是大数据層次的临界点. Bity->KB->MB->GB->TB->PB->EB->ZB->YB->NB->DB
1Bity
1KB
1MB
1GB
1TB
1PB
1EB
1ZB
1YB
1NB
1YB
大数据——Variety 多样性
物联网数据
Machine / Sensor
Call Log
Log
Apps
半结构化/非结构化数据
什么是大数据?
何
1Byte = 8 Bit
为
1KB = 1,024 Bytes
1MB = 1,024 KB = 1,048,576 Bytes
1GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes 1TB = 1,024 GB = 1,048,576 MB = 1,099,511,627,776 Bytes
租赁托管服务
服务器整机租赁
为中小企业、创业团队,提供高性能服务器 的整机租赁服务,烟台分所能够提供主机、 电力、网络、环境的可靠保障,为企业的研 发、生产等提供有力保障。
&
服务器托管
利用烟台分所数据中心的机柜空间,为企业 自行采购的服务器等设备提供托管服务,能 够提供可靠的电力、网络、环境服务。
• 神经网络作为一种先进的人工智能技术,因其自身自行处理、分 布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、 不完整、不严密的知识或数据为特征的处理问题,它的这一特点 十分适合解决数据挖掘的问题。
• 虽然神经网络有多种模型及算法,但在特定领域的数据挖掘中使 用何种模型及算法并没有统一的规则,而且人们很难理解网络的 学习及决策过程。
数据仓库开 始涌现,关 系数据库开 始全面普及 且平台无关, 进入成熟期
2001年后,互联网迅 速发展,数据量成倍递 增,量变引起质变,开 始对数据管理技术提出 全新的要求
GFS
谷歌发表 论文介绍 分布式计 算
Hadoop成 为Apache 顶级项目, 重点支持海 量数据分布 式管理和分 布式计算
1946 1951 1956 1961
• 可以应用到涉及到应用分类、趋势预测中。 • 如淘宝商铺将用户在一段时间内的购买情况划分成不同的类,根
据情况向用户推荐关联类的商品,从而增加商铺的销售量。
计算机大数据算法--聚类算法
• 聚类类似于分类,但与分类的目的不同,是针对数据的相似性和 差异性将一组数据分为几个类别
• 属于同一类别的数据间的相似性很大,但不同类别之间数据的相 似性很小,跨类的数据关联性很低。
互联网数据
行业/企业内 数据
数据 来源多
数据 类型多
关联性强
企业内部多个应用系统的数据、互联网和 物联网的兴起,带来了微博、社交网站、
传感器等多种来源。
保存在关系数据库中的结构化数据只占 少数,70~80%的数据是如图片、音频、 视频、模型、连接信息、文档等非结构
化和半结构化数据。
数据之间频繁交互,比如游客在旅行途中 上传的图片和日志,就与游客的位置、行
计算机大数据算法--关联规则
• 关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一 个数据项的出现推导出其他数据项的出现
• 关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客 户的需求。
• 例如淘宝可以根据用户浏览、购买等习惯推测人群分类,如孕妇、 电脑爱好者等。
计算机大数据算法--回归分析
第一台计 片
算机
人工管
ENIAC面 理
世
磁盘被 发明, 进入文 件管理 时代
GE公司发 明第一个网 络模型数据 库,但仅限 于GE自己 的主机
IBM E.F.Do dd提 出关系 模型
SQL
SQL语 言被发 明
关系型 数据库
ORACL E发布第 一个商 用SQL 关系数 据库, 后续快 速发展
数据仓库
数据没有办法在可容忍的时间下使用常 规软件方法完成存储、管理和处理任务
美国国会图书馆藏书 (151,785,778册)
中国国家图书馆:2631万册
1EB = 4000*美国国会图书馆存储的信息量
大数据是如何产生的?
大数据的来源
信息世界、物理世界、人类社会(CPH) 三元世界彼此融合、交互映射形成大数据
非结构化数据处理——视频
科技,改变生活
• 物联网 • 3G通讯技术 • WIFI • 条码及RFID • 云计算 • 智能手持终端 • 新型健康管理设备 • ……
物联网
• 传感技术的快速发展为各类监测与控制提供了可能。
智能终端
可பைடு நூலகம்戴医疗设备
2020/9/12
智能家用医疗健康检测设备
应用
临床操作: • 比较效果研究 • 临床决策支持系统 • 医疗数据透明度 • 远程病人监控
付款/定价 : • 自动化系统 • 基于卫生经济学 和疗效研究的定 价计划
研发: • 预测建模 • 提高临床试验设计的统计工具和算法 • 临床实验数据的分析 • 个性化治疗 • 疾病模式的分析
机器学习
聚类分析
• 事实上,谷歌的这项统计数据被证实很有效。谷歌的相应数据, 同美国疾病控制与预防中心(CDC)等政府机构所统计的数据非常 接近(97%)。在某些情况下,谷歌甚至能够比CDC提前一周 预测出哪些地区将爆发流感。
流感趋势预测
流感趋势预测
计算机大数据算法
• 在大数据时代,数据挖掘是最关键的工作。 • 大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的
非结构化大数据分析手段
健康大数据云服务丰富智能硬件用户体验
智能家用医疗健康检测设备未来趋势
流感趋势预测
• 2008年,谷歌推出了其著名的流感趋势网站 (http://www.google.org/flutrends)。该网站假定的前提是:如 果用户患上了流感,则他们会搜索更多同流感相关的信息。如 此一来,如果对任何一个国家或地区有关流感的搜索量进行统 计,就能较好推断出某个国家或地区是否正爆发流感。
数据中心,强大支撑
1. 服务和保障 2. 业务技术支持 3. 使用案例
中国科学院计算技术研究所烟台分所数据中心是具有 国内一流标准的网络数据中心,拥有高速光纤线路、完备 的网络环境以及专业化的网络管理技术。为客户提供便捷、 高质量的服务。
拥有一流的设施和先进的网络设备,在为您提供高质 量的IT服务的同时为您节省了时间和成本,为企业E时代的 发展成功提供坚实基础。
数据中心概况
计算 能力
• 配备500余台高性能服务器,总计算能 力达到60万亿次浮点运算/秒。
存储容量
• 存储容量达到2.2PB,能提供海量数
据的存储及备份。
分布式架构
• 提供分布式、高可靠的高性能计 算和海量数据存储。
数据中心介绍——硬件配置
基础网络
供电设施
运行环境
安保消防
数据中心介绍——环境设施
“大数据”是如何产生的?
“大数据”是如何产生的?
数据管理技术发展历史
1960年代,IT系统规模和复杂度变大,数据与应用分 离的需求开始产生,数据库技术开始萌芽并蓬勃发展, 并在1990年后逐步统一到以关系型数据库为主导
1946年,电脑诞生,数 据与应用紧密捆绑在文件 中,彼此不分
E-R 网络型
磁带+卡
大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识 的过程,也是一种决策支持过程。 • 其主要基于人工智能,机器学习,模式学习,统计学等。
计算机大数据算法
• 通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘 出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少 风险、理性面对市场,并做出正确的决策。
医疗大数据&智慧健康
目录
一.什么是大数据? 二.大数据&医疗 三.数据中心,强大支撑
大数据
1. 什么是大数据? 2. 大数据时代的爆炸增长 3. 大数据的战略影响
电影《点球成金》
数据本质是生产资料和资产
VS
不可再生资源
数据
什么是数据?
Web Clickstream
DOC / Media
Social Media
• 大数据的挖掘常用的方法有分类算法、聚类算法、关联规则、回 归分析、神经网络方法、Web 数据挖掘等。这些方法从不同的角 度对数据进行挖掘。
计算机大数据算法--分类算法
• 分类算法是找出数据库中的一组数据对象的共同特点并按照分类 模式将其划分为不同的类。
• 其目的是通过分类模型,将数据库中的数据项映射到某个给定的 类别中。
• 挖掘大数据的价值类似沙里淘金,从海量数 据中挖掘稀疏但珍贵的信息;
• 价值密度低,是大数据的一个典型特征;
大数据的价值
推动经济转型发展的新动力
重塑国家竞争优势的新机遇
提升政府治理能力的新途径
大数据的战略影响
• 大数据是21世纪的 新石油,将与陆海空天 一样象征国家的主权
成为国家主权的
新疆域
• 2012年3月22日,奥巴马政府宣布投资2亿美元拉动大数据 相关产业发展,将“大数据战略”上升为国家战略。奥巴马 政府甚至将大数据定义为“未来的新石油”。
• 大数据是需要新处理模式才能具有更强的决策力、洞察发现 力和流程优化能力的海量、高增长率和多样化的信息资产。
• 大数据就是“未来的新石油”。
度
1YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes
量
什么是大数据?
《红楼梦》含标点87万字
(不含标点853509字) 每个汉字占2个字节: 1汉字=16bit = 2*8位=2bytes 1GB ≈ 671部红楼梦 1TB ≈ 631,903 部 1PB ≈ 647,068,911部
• 回归分析反映了数据库中数据的属性值的特性,通过函数表达数 据映射的关系来发现属性值之间的依赖关系。
• 它可以应用到对数据序列的预测及相关关系的研究中去。在市场 营销中,回归分析可以被应用到各个方面。
• 如通过对本季度销售的回归分析,对下一季度的销售趋势作出预 测并做出针对性的营销改变。
计算机大数据算法--神经网络方法
形成社会进步的
新引擎
• 实验观察的范式 • 理论支撑的范式 • 计算模拟的范式 • 数据驱动的范式
大数据
提供科学研究的
新范式
形成高新科技的
新领域
• 大数据成为促进 “互联网+”新经济 和社会进步的催化剂
• 大数据产业、 • 云计算产业、互 联网+X产业等等
大数据&医疗
1. 大数据在医疗行业中的应用 2. 非结构化大数据分析手段 3. 流感趋势预测 4. 计算机大数据算法