大数据中心建设的再认识
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据中心的三种职能定位
全功能的 大数据中心
数据分析
+
数据加工
+
数据管理
CHIMA 2019
(一)建设什么样的大数据中心
观点认识: “大数据中心”是数据服务中心而不是系统建设中心,“服
务”有不同的内涵,不同的职能定位对应不同的技术平台与人才 团队建设内容。在提出建设大数据中心规划时,首先要明确大数 据中心的职能定位。
CHIMA 2019
(三)临床数据研究的两种路径
建立专病库
选择 特征
原始 数据
预先
分析时
数据 分析
抽取数据/特征 提取
分析时
专病数据库路径:按病种设置特征,建立数据模型,预先整理加工 随机特征提取路径:按照研究问题抽取和处理特征,在分析时进行
建立科研病种数据库是临床数据研究的必然选择吗?
CHIMA 2019
数据 存储
数据整合平台
虚拟 桌面
数据 管理 授权 提取
CHIMA 2019
之二:数据加工中心
职责
• 根据用户需求,从原始数据加 工生成特征数据
工作平台
• 自然语言处理工具 • 专病数据库平台 • 组学等专业数据处理平台 • SQL
所需人才
• IT工程师
专病数据库平台
特征数 据
特征数 据
特征数 据
CHIMA 2019
(二)数据是否要做整体预处理
病历结构化不能完整反映文本语义,如症状之间的顺序关系
CHIMA 2019
(二)数据是否要做整体预处理
如,判断不同肿瘤分期的结构化处理方法不同
肺癌N分期判定
N0:无区域淋巴结转移 N1:同侧支气管或肺门淋巴结转移 N2:同侧纵隔和/隆突下淋巴结转移
CHIMA 2019
(二)数据是否要做整体预处理
大数据中心数据处理的两种流程
分析 … 分析
清洗后数据 归一化 结构化 数据整合
分析
分析
归一化
归一化
VS
结构化 … 结构化
原始数据 数据整合
整百度文库预处理
针对应用的预处理
数据治理可以一次性完成吗?
CHIMA 2019
(二)数据是否要做整体预处理
信息的损失
信
大
息
信息系统建设
数据
中
与运维
应用
心
系统
大
数
数据服务
据
中
心
CHIMA 2019
之一:数据管理中心
职责
• 数据采集、整合 • 数据存储管理 • 数据访问授权
工作平台
• 数据整合平台(ETL) • 数据检索系统 • 数据浏览系统 • 数据在线使用(虚拟桌面)
所需人才
• IT工程师
数据 检索
数据 浏览
(一)建设什么样的大数据中心
大数据利用是个性化的数据研究服务,简单例子:
• 数据检索: • 数据分析:
化疗后白细胞数下降的患者 30天内二次住院的患者 65岁以上老年人患两种以上疾病的排名前三的共病组合 老年下肢关节手术麻醉方式与术后肺部感染的相关性
大数据中心的职责是服务,与传统的信息中心有所不同
CHIMA 2019
科研数据库的局限性
单一研究目的的科研病种数据库
• 以特定问题为导向收集病种数据 • 数据库涉及数据少,人工加工工作量小 • 难以满足特定问题以外的研究需求
例:肺癌患者生存研究数据库
性别、年龄、吸烟史、是否戒烟、家族史、ABO血型、RhD血型、基础疾病、合并症、病理类型、 分化程度、基因检测方法、基因突变状态、PD-L1(阳性/阴性)、MMR/MSI、TNMG分期、手术、 辅助治疗(化疗、放疗)、一线治疗、疗效评估、副反应、PFS、二线治疗…、生存状态、随访 时间、总生存时间、最后一次随访时间、是否存活、是否复发/进展、复发/进展位置、复发/进 展时间
结构化处理、SQL、组学数据平台
原始 数据
CHIMA 2019
之三:数据分析中心
职责
• 为用户提供数据分析服务
工作平台
• 各类建模工具 • 数据可视化工具 • 深度学习平台
所需人才
• IT工程师 • 数据分析工程师
人工服务
SAS、SPSS、R、深度学习
数据 存储
CHIMA 2019
大数据中心的职能定位
胃癌N分期判定
N0:无区域淋巴结转移 N1:区域淋巴结转移1~2个 N2:区域淋巴结转移3~6个 N3:区域淋巴结转移7~15个 N4:区域淋巴结转移16个以上
格式:阳性个数/送检个数
CHIMA 2019
(二)数据是否要做整体预处理
观点认识: 在大数据中心数据资源建设中,预先将数据整体进行预处理
的过程会带来信息丢失,技术上也存在较大困难,一次性的数据 治理难以满足数据后续利用需求。采用“数据湖”概念,保留数 据的原始性,针对特定研究问题开展数据预处理是更好的选择。
• 病历文本结构化的结果不能完整表达原病历文本的语义 • 标准化(归一化)可能导致特定信息丢失,如药品名称转换:
诺欣、铂龙、顺铂→顺铂
技术上的困难
• 历史数据的不一致,如疾病编码 ICD-9与ICD-10由于编码原则可能不同导致转 换难以自动对照完成
• 整体结构化的困难,如不同病种的病历文本有不同的特点,目前尚难以做到泛病 种的结构化处理
科研数据库的局限性
泛研究目的的科研病种数据库
• 以收集准备病种数据为目的,用以支持本病种不同目的的研究 • 数据库涉及数据项多,结构复杂,人工加工工作量巨大,持续难度大 • 针对问题分析时需要二次加工 • 难以满足所有研究需求
例:糖尿病视网膜病变专病数据库(片段)
是是否否降接血受压过药降物糖、治服疗用、降降血糖压治药疗物类种型类、数胰量岛、素开注始射日、期目、前服规用律时口长服(降月糖)药、、目一前年规内律服服用用降降糖血药压物 或注射胰岛素; 药磺物脲;类促泌剂是否使用、磺脲类促泌剂药物剂量、开始日期、服用时程(月); 钙非双离磺胍子脲类拮类是抗促否剂泌使降剂用压是、药否双是使胍否用类使、名用非称、磺、药脲剂物类量名促、称泌开、剂始剂药日量物期、剂、开量服始用、日开时期始程、日(服期月用)、时;服长用(时月程)(;月); β糖受苷体酶阻抑滞制剂降是压否药使是用否、使糖用苷、酶药抑物制名剂称名、称剂、量剂、量开、始开日始期日、期服、用服时用长时(程月()月;); 血噻目管前唑扩烷是张否二药类规是律酮否是使使否用用胰使、岛用药素、物、噻名普唑称通烷、二胰剂类岛量素酮、名名开称称始、 、日剂剂期量量、、、服开开用始始时日 日长期 期(、 、月服服)用用;时 时长程((月月));; A长ng效Ⅱ胰受岛体素阻是滞否剂使是用否、使长用效、胰药岛物素名名称称、、剂剂量量、、开开始始日日期期、、服服用用时时长长((月月));
全功能的 大数据中心
数据分析
+
数据加工
+
数据管理
CHIMA 2019
(一)建设什么样的大数据中心
观点认识: “大数据中心”是数据服务中心而不是系统建设中心,“服
务”有不同的内涵,不同的职能定位对应不同的技术平台与人才 团队建设内容。在提出建设大数据中心规划时,首先要明确大数 据中心的职能定位。
CHIMA 2019
(三)临床数据研究的两种路径
建立专病库
选择 特征
原始 数据
预先
分析时
数据 分析
抽取数据/特征 提取
分析时
专病数据库路径:按病种设置特征,建立数据模型,预先整理加工 随机特征提取路径:按照研究问题抽取和处理特征,在分析时进行
建立科研病种数据库是临床数据研究的必然选择吗?
CHIMA 2019
数据 存储
数据整合平台
虚拟 桌面
数据 管理 授权 提取
CHIMA 2019
之二:数据加工中心
职责
• 根据用户需求,从原始数据加 工生成特征数据
工作平台
• 自然语言处理工具 • 专病数据库平台 • 组学等专业数据处理平台 • SQL
所需人才
• IT工程师
专病数据库平台
特征数 据
特征数 据
特征数 据
CHIMA 2019
(二)数据是否要做整体预处理
病历结构化不能完整反映文本语义,如症状之间的顺序关系
CHIMA 2019
(二)数据是否要做整体预处理
如,判断不同肿瘤分期的结构化处理方法不同
肺癌N分期判定
N0:无区域淋巴结转移 N1:同侧支气管或肺门淋巴结转移 N2:同侧纵隔和/隆突下淋巴结转移
CHIMA 2019
(二)数据是否要做整体预处理
大数据中心数据处理的两种流程
分析 … 分析
清洗后数据 归一化 结构化 数据整合
分析
分析
归一化
归一化
VS
结构化 … 结构化
原始数据 数据整合
整百度文库预处理
针对应用的预处理
数据治理可以一次性完成吗?
CHIMA 2019
(二)数据是否要做整体预处理
信息的损失
信
大
息
信息系统建设
数据
中
与运维
应用
心
系统
大
数
数据服务
据
中
心
CHIMA 2019
之一:数据管理中心
职责
• 数据采集、整合 • 数据存储管理 • 数据访问授权
工作平台
• 数据整合平台(ETL) • 数据检索系统 • 数据浏览系统 • 数据在线使用(虚拟桌面)
所需人才
• IT工程师
数据 检索
数据 浏览
(一)建设什么样的大数据中心
大数据利用是个性化的数据研究服务,简单例子:
• 数据检索: • 数据分析:
化疗后白细胞数下降的患者 30天内二次住院的患者 65岁以上老年人患两种以上疾病的排名前三的共病组合 老年下肢关节手术麻醉方式与术后肺部感染的相关性
大数据中心的职责是服务,与传统的信息中心有所不同
CHIMA 2019
科研数据库的局限性
单一研究目的的科研病种数据库
• 以特定问题为导向收集病种数据 • 数据库涉及数据少,人工加工工作量小 • 难以满足特定问题以外的研究需求
例:肺癌患者生存研究数据库
性别、年龄、吸烟史、是否戒烟、家族史、ABO血型、RhD血型、基础疾病、合并症、病理类型、 分化程度、基因检测方法、基因突变状态、PD-L1(阳性/阴性)、MMR/MSI、TNMG分期、手术、 辅助治疗(化疗、放疗)、一线治疗、疗效评估、副反应、PFS、二线治疗…、生存状态、随访 时间、总生存时间、最后一次随访时间、是否存活、是否复发/进展、复发/进展位置、复发/进 展时间
结构化处理、SQL、组学数据平台
原始 数据
CHIMA 2019
之三:数据分析中心
职责
• 为用户提供数据分析服务
工作平台
• 各类建模工具 • 数据可视化工具 • 深度学习平台
所需人才
• IT工程师 • 数据分析工程师
人工服务
SAS、SPSS、R、深度学习
数据 存储
CHIMA 2019
大数据中心的职能定位
胃癌N分期判定
N0:无区域淋巴结转移 N1:区域淋巴结转移1~2个 N2:区域淋巴结转移3~6个 N3:区域淋巴结转移7~15个 N4:区域淋巴结转移16个以上
格式:阳性个数/送检个数
CHIMA 2019
(二)数据是否要做整体预处理
观点认识: 在大数据中心数据资源建设中,预先将数据整体进行预处理
的过程会带来信息丢失,技术上也存在较大困难,一次性的数据 治理难以满足数据后续利用需求。采用“数据湖”概念,保留数 据的原始性,针对特定研究问题开展数据预处理是更好的选择。
• 病历文本结构化的结果不能完整表达原病历文本的语义 • 标准化(归一化)可能导致特定信息丢失,如药品名称转换:
诺欣、铂龙、顺铂→顺铂
技术上的困难
• 历史数据的不一致,如疾病编码 ICD-9与ICD-10由于编码原则可能不同导致转 换难以自动对照完成
• 整体结构化的困难,如不同病种的病历文本有不同的特点,目前尚难以做到泛病 种的结构化处理
科研数据库的局限性
泛研究目的的科研病种数据库
• 以收集准备病种数据为目的,用以支持本病种不同目的的研究 • 数据库涉及数据项多,结构复杂,人工加工工作量巨大,持续难度大 • 针对问题分析时需要二次加工 • 难以满足所有研究需求
例:糖尿病视网膜病变专病数据库(片段)
是是否否降接血受压过药降物糖、治服疗用、降降血糖压治药疗物类种型类、数胰量岛、素开注始射日、期目、前服规用律时口长服(降月糖)药、、目一前年规内律服服用用降降糖血药压物 或注射胰岛素; 药磺物脲;类促泌剂是否使用、磺脲类促泌剂药物剂量、开始日期、服用时程(月); 钙非双离磺胍子脲类拮类是抗促否剂泌使降剂用压是、药否双是使胍否用类使、名用非称、磺、药脲剂物类量名促、称泌开、剂始剂药日量物期、剂、开量服始用、日开时期始程、日(服期月用)、时;服长用(时月程)(;月); β糖受苷体酶阻抑滞制剂降是压否药使是用否、使糖用苷、酶药抑物制名剂称名、称剂、量剂、量开、始开日始期日、期服、用服时用长时(程月()月;); 血噻目管前唑扩烷是张否二药类规是律酮否是使使否用用胰使、岛用药素、物、噻名普唑称通烷、二胰剂类岛量素酮、名名开称称始、 、日剂剂期量量、、、服开开用始始时日 日长期 期(、 、月服服)用用;时 时长程((月月));; A长ng效Ⅱ胰受岛体素阻是滞否剂使是用否、使长用效、胰药岛物素名名称称、、剂剂量量、、开开始始日日期期、、服服用用时时长长((月月));