大数据医疗培训资料(PPT 28张)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据处理工具
2 、 2009年推出了亚马逊弹性MapReduce(Amazon Elastic MapReduce),亚马逊对Hadoop的需求和 应用可谓了若指掌,无论是中小型企业还是大型 组织。 弹性MapReduce是一项能够迅速扩展的Web服务, 运行在亚马逊弹性计算云(Amazon EC2)和亚马 逊简单存储服务(Amazon S3)上。 这可是货真价实的云:面对数据密集型任务,比 如互联网索引、数据挖掘、日志文件分析、机器 学习、金融分析、科学模拟和生物信息学研究, 用户需要多大容量,立即就能配置到多大容量。
当你的数据达到TB级别后,硬件运算速度明显不能达到期 望值(即时出现结果),这时,你需要求助于大数据算法 和处理工具。
计算机大数据算法
访问全部数据时间过长 读取部分数据——时间亚线性算法
数据难于放入内存计算 将数据存储到磁盘上——外存算法 仅基于少量数据进行计算——空间亚线性算法
单个计算机难以保存全部数据,计算需要整体数据 并行处理——并行算法
大数据在医疗行业的运用
1、精细化医疗。
2 、国家肿瘤中心开发的影像学和病理学自动识别软件, 已超过医师平均水平。
3、各种砸钱不讨好的移动医疗,没有抓住痛点,没有找 到经济增长点,无根之水。
有可能想象依赖于“分子症状',而不是临床症状来 触发治疗干预更积极的医疗实践。——治疗未病
大数据时代的非结构化数据分析在医疗中的 运用——前提
3 、图像分类:支持向量机算法(神经网络的一种衍生算法)
大数据时代的非结构化数据处理在医疗中的 运用——图像之全息眼镜
大数据时代的非结构化数据处理在医疗中的 运用——视频
远程医疗
在线教育:人卫开放大学等
大数据时代的非结构化数据处理在医疗中的 运用——物联网
安大略理工大学的卡罗琳•麦格雷戈(Carolyn McGregor )博士和一支研究队伍与IBM一起和很多医院合作,用一 个软件来监测处理即时的病人信息,然后把它用于早产儿 的病情诊断。系统会监控16个不同地方的数据,比如心率 、呼吸、体温、血压和血氧含量,这些数据可以达到每秒 钟1260个数据点之多。在明显感染症状出现的24小时之前 ,系统就能监测到早产儿细微的身体变化发出的感染信号 。
大数据处理工具
4 、 BigQuery是Google推出的一项Web服务,用来在云端处 理大数据。
Google曾表示BigQuery引擎可以快速扫描高达70TB未经压 缩处理的数据,并且可马上得到分析结果。 大数据在云端模型具备很多优势,BigQuery服务无需组织 提供或建立数据仓库。
BigQuery在安全性和数据备份服务也相当完善。
大数据处理工具
1 、 2011年5月,IBM正式推出InfoSphere大数据分 析平台,包括 BigInsights和Streams,二者互补 ,Biglnsights基于Hadoop,对大规模的静态数据 进行分析,它提供多节点的分布式计算,可以随 时增加节点,提升数据处理能力。 Streams采用内存计算方式分析实时数据。 InfoSphere大数据分析平台还集成了数据仓库、 数据库、数据集成、业务流程管理等组件。
计算机计算能力不足或知识不足 人来帮忙——众包算法
计算机大数据算法 ——并行算法之mapreduce
MapReduce是一种编程模型,用于大规模数据集(大于1TB) 的并行运算。概念"Map(映射)"和"Reduce(归约)",和它 们的主要思想,都是从函数式编程语言里借来的,还有从 矢量编程语言里借来的特性。 它极大地方便了编程人员在不会分布式并行编程的情况下 ,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组 键值对映射成一组新的键值对,指定并发的Reduce(归约) 函数,用来保证所有映射的键值对中的每一个共享相同的 键组。(大规模数据集的并行运算。)
云计算和物联网
云计算和物联网如今已是IT业界的两大焦点,它们有很大 的区别,但同时也有着千丝万缕的联系——物联网通过数 量惊人的传感器采集到难以计数的数据量,而云计算可以 对这些海量数据进行智能处理。可以说,云计算是物联网 发展的基石,而物联网又是云计算最大的用户,二者的融 合可谓珠联璧合,相辅相成。在大数据时代,云计算融合 物联网将进一步推动数据价值的挖掘,促进产业爆发。
大数据分析手段
——机器学习分类
1、监督学习:给定输入即有唯一标准输出答 案。例如支持向量机 2、学习理论:学习样本量的计算、模型准确 率的计算等理论 3、无监督学习:对于给定输入并不能确定标 准答案。例如聚类分析
4、加强学习:类似生物反馈。
大数据分析手段 ——聚类分析
将物理或抽象对象的集合分成由类似的对象组成 的多个类的过程被称为聚类。由聚类所生成的簇 是一组数据对象的集合,这些对象与同一个簇中 的对象彼此相似,与其他簇中的对象相异。
大数据时代的非结构化数据处理在医疗中的 运用——图像
生物特征识别技术通常按照,扫描、数字化处理、分析、 特征提取、存储、匹配分类几个步骤处理。目前扫描数字化 处理已经相对成熟,主要的研究集中在分析和特征提取方面 。
计算机辅助诊断技术:医学CAD
1、图像预处理:灰度直方图、去噪、图像增强
2、图像特征提取:边缘分割、灰度共生矩阵
大数据处理工具
5 、 2011年初微软发布的SQL Server R2 Parallel Data Warehouse(PDW,并行数据仓库),PDW使用了大规模并 行处理来支持高扩展性,它可以帮助客户扩展部署数百TB 级别数据的分析解决方案。 微软目前已经开始提供Hadoop Connector for SQL Server Parallel Data Warehouse和Hadoop Connector for SQL Server社区技术预览版本的连接器。 该连接器 是双向的,你可以在Hadoop和微软数据库服务器之间向前 或者向后迁移数据。
1、信息安全保障
2、病人唯一标识建立(MPI) 3、标准术语系统
(1、2对于结构化数据依然需要)
大数据时代的非结构化数据处理在医疗中的 运用——文字分析
1、语言处理技术: 建立标准术语系统→医学知识模型→信息提取→文本模块 化 2、数据挖掘技术: 机器学习 统计学习 规则归纳 3、应用:电子病历数据挖掘支持临床决策、建立临床路 径、临床指南,诊疗过程追踪
• • • • • • • • •
• • • •
• • • • •
1、不是井里没有水,而是你挖的不够深。不是成功来得慢,而是你努力的不够多。 2、孤单一人的时间使自己变得优秀,给来的人一个惊喜,也给自己一个好的交代。 3、命运给你一个比别人低的起点是想告诉你,让你用你的一生去奋斗出一个绝地反击的故事,所以有什么理由不努力! 4、心中没有过分的贪求,自然苦就少。口里不说多余的话,自然祸就少。腹内的食物能减少,自然病就少。思绪中没有过分欲,自然忧就少。大悲是无泪的,同样大悟 无言。缘来尽量要惜,缘尽就放。人生本来就空,对人家笑笑,对自己笑笑,笑着看天下,看日出日落,花谢花开,岂不自在,哪里来的尘埃! 5、心情就像衣服,脏了就拿去洗洗,晒晒,阳光自然就会蔓延开来。阳光那么好,何必自寻烦恼,过好每一个当下,一万个美丽的未来抵不过一个温暖的现在。 6、无论你正遭遇着什么,你都要从落魄中站起来重振旗鼓,要继续保持热忱,要继续保持微笑,就像从未受伤过一样。 7、生命的美丽,永远展现在她的进取之中;就像大树的美丽,是展现在它负势向上高耸入云的蓬勃生机中;像雄鹰的美丽,是展现在它搏风击雨如苍天之魂的翱翔中;像江 河的美丽,是展现在它波涛汹涌一泻千里的奔流中。 8、有些事,不可避免地发生,阴晴圆缺皆有规律,我们只能坦然地接受;有些事,只要你愿意努力,矢志不渝地付出,就能慢慢改变它的轨迹。 9、与其埋怨世界,不如改变自己。管好自己的心,做好自己的事,比什么都强。人生无完美,曲折亦风景。别把失去看得过重,放弃是另一种拥有;不要经常艳羡他人, 人做到了,心悟到了,相信属于你的风景就在下一个拐弯处。 10、有些事想开了,你就会明白,在世上,你就是你,你痛痛你自己,你累累你自己,就算有人同情你,那又怎样,最后收拾残局的还是要靠你自己。 11、人生的某些障碍,你是逃不掉的。与其费尽周折绕过去,不如勇敢地攀登,或许这会铸就你人生的高点。 12、有些压力总是得自己扛过去,说出来就成了充满负能量的抱怨。寻求安慰也无济于事,还徒增了别人的烦恼。 13、认识到我们的所见所闻都是假象,认识到此生都是虚幻,我们才能真正认识到佛法的真相。钱多了会压死你,你承受得了吗?带,带不走,放,放不下。时时刻刻发 悲心,饶益众生为他人。 14、梦想总是跑在我的前面。努力追寻它们,为了那一瞬间的同步,这就是动人的生命奇迹。 15、懒惰不会让你一下子跌倒,但会在不知不觉中减少你的收获;勤奋也不会让你一夜成功,但会在不知不觉中积累你的成果。人生需要挑战,更需要坚持和勤奋! 16、人生在世:可以缺钱,但不能缺德;可以失言,但不能失信;可以倒下,但不能跪下;可以求名,但不能盗名;可以低落,但不能堕落;可以放松,但不能放纵;可以虚荣, 但不能虚伪;可以平凡,但不能平庸;可以浪漫,但不能浪荡;可以生气,但不能生事。 17、人生没有笔直路,当你感到迷茫、失落时,找几部这种充满正能量的电影,坐下来静静欣赏,去发现生命中真正重要的东西。 18、在人生的舞台上,当有人愿意在台下陪你度过无数个没有未来的夜时,你就更想展现精彩绝伦的自己。但愿每个被努力支撑的灵魂能吸引更多的人同行。
穿戴设备 生命体征监测床
如何用软件来实现这些大数据分析工作呢?以下讲一种机 器学习的方法。
大数据分析手段 ——机器学习
机器学习:机器学习是近20多年兴起的一门多领域交叉学 科,涉及概率论、统计学、逼近论、凸分析、算法复杂度 理论等多门学科。
机器学习理论主要是设计和分析一些让计算机可以自动 “学习”的算法。 机器学习算法是一类从数据中自动分析获得规律,并利用 规律对未知数据进行预测的算法。 机器学习是人工智能的基础。
《大数据时代》作者抛出了大数据时代处理数据理念上的 三大转变:要全体不要抽样,要效率不要绝对精确,要相 关不要因果;万事万物数据化,数据交叉复用。 努力在可以应用、可以拓展的地方,应用它、拓展它;在 不能应用、不能拓展的地方,就停下来。 《大数据云图》:对多个行业未来的展望,用计算机模拟 来找到最优化解决方法。
大数据+医疗
目录
关于大数据的各种书籍简介
云计算和物联网 大数据在医疗行业的运用:文字、图像、视频、物联网 非结构化大数据分析手段:聚类分析、机器学习 计算机大数据算法
大数据算法工具
关于大数据的各种书籍简介
关于亚马逊:贝佐斯创建的一个小书店发展成亚马逊,数 据驱动型公司,建立了遍布全美的云存储器。优于淘宝之 处在于控制产品质量,先行赔付,用户体验好。
它承诺会推出与Windows兼容的基于Hadoop的大数据解决 方案(Big Data Solution),这是微软SQL Server 2012 版本的一部分。
参考来源
wk.baidu.com
1、非结构化病例文档结构转换方法研究——李伟
2、电子病历辅助临床决策 3、基于特征提取和机器学习的医学图像分析——张旭亚 4、大数据算法——中国大学mooc 5、Defining digital medicine;Eric Elenko, Lindsay Underwood & Daphne Zohar;Nature Biotechnology 33, 456–461 6、机器学习——网易公开课之斯坦福大学公开课
云计算
云计算(cloud computing)是一种基于因特网的 超级计算模式,在远程的数据中心里,成千上万 台电脑和服务器连接成一片电脑云。因此,云计 算甚至可以让你体验每秒 10万亿次的运算能力, 拥有这么强大的计算能力可以模拟核爆炸、预测 气候变化和市场发展趋势。用户通过电脑、笔记 本、手机等方式接入数据中心,按自己的需求进 行运算。 IBM的创立者托马斯·沃森曾表示,全世界只需要 5台电脑就足够了。比尔·盖茨则在一次演讲中称, 个人用户的内存只需 640K足矣。李开复打了一个 很形象的比喻:钱庄。
大数据处理工具
3、2011年甲骨文正式推出了Oracle大数据机。 Oracle大数据机集成了硬件、存储和软件,包括 Apache Hadoop软件的开源代码分发、新的甲骨文 NoSQL数据库和用于统计分析的R语言开源代码分 发。 该产品被设计为能够与甲骨文Database 11g、 Oracle Exadata数据库云服务器,以及针对商业 智能应用的新的Oracle Exalytics商业智能云服 务器一起协同工作。
聚类分析又称群分析,它是研究 (样品或指标 )分 类问题的一种统计分析方法。 聚类分析起源于分类学,但是聚类不等于分类。 聚类与分类的不同在于,聚类所要求划分的类是 未知的。 聚类分析内容非常丰富,有系统聚类法、有序样 品聚类法、动态聚类法、模糊聚类法、图论聚类 法、聚类预报法等。
大数据分析手段 ——聚类分析举例
关于谷歌:敏锐的聚焦网络搜索,搜索问题组成了非结构 化数据库,以此为基础进行预测算法。Google Fit 关于苹果: HealthKit
关于大数据的各种书籍简介
《大数据营销:定位客户》商业营销中大数据的使用,例 如在广告中找到人们最关注的部分,扩大这个部分;分析 客户构成等;精准营销,定位到人。 《爆发》大数据对历史发展的预测。 《工业4.0 》大数据驱动工业发展,开启产品全生命周期 管理模式——物联网。