大数据中心建设的再认识

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

大数据中心的三种职能定位
全功能的大数据中心
数据分析
+
数据加工
+
数据管理
CHIMA 2019
（一）建设什么样的大数据中心
观点认识： “大数据中心”是数据服务中心而不是系统建设中心，“服
务”有不同的内涵，不同的职能定位对应不同的技术平台与人才团队建设内容。在提出建设大数据中心规划时，首先要明确大数据中心的职能定位。
CHIMA 2019
（三）临床数据研究的两种路径
建立专病库
选择特征
原始数据
预先
分析时
数据分析
抽取数据/特征提取
分析时
专病数据库路径：按病种设置特征，建立数据模型，预先整理加工随机特征提取路径：按照研究问题抽取和处理特征，在分析时进行
建立科研病种数据库是临床数据研究的必然选择吗？
CHIMA 2019
数据存储
数据整合平台
虚拟桌面
数据管理授权提取
CHIMA 2019
之二：数据加工中心
职责
• 根据用户需求，从原始数据加工生成特征数据
工作平台
• 自然语言处理工具 • 专病数据库平台 • 组学等专业数据处理平台 • SQL
所需人才
• IT工程师
专病数据库平台
特征数据
特征数据
特征数据
CHIMA 2019
（二）数据是否要做整体预处理
病历结构化不能完整反映文本语义，如症状之间的顺序关系
CHIMA 2019
（二）数据是否要做整体预处理
如，判断不同肿瘤分期的结构化处理方法不同
肺癌N分期判定
N0：无区域淋巴结转移 N1：同侧支气管或肺门淋巴结转移 N2：同侧纵隔和/隆突下淋巴结转移
CHIMA 2019
（二）数据是否要做整体预处理
大数据中心数据处理的两种流程
分析 … 分析
清洗后数据归一化结构化数据整合
分析
分析
归一化
归一化
VS
结构化 … 结构化
原始数据数据整合
整百度文库预处理
针对应用的预处理
数据治理可以一次性完成吗？
CHIMA 2019
（二）数据是否要做整体预处理
信息的损失
信
大
息
信息系统建设
数据
中
与运维
应用
心
系统
大
数
数据服务
据
中
心
CHIMA 2019
之一：数据管理中心
职责
• 数据采集、整合 • 数据存储管理 • 数据访问授权
工作平台
• 数据整合平台（ETL） • 数据检索系统 • 数据浏览系统 • 数据在线使用（虚拟桌面）
所需人才
• IT工程师
数据检索
数据浏览
（一）建设什么样的大数据中心
大数据利用是个性化的数据研究服务，简单例子：
• 数据检索： • 数据分析：
化疗后白细胞数下降的患者 30天内二次住院的患者 65岁以上老年人患两种以上疾病的排名前三的共病组合老年下肢关节手术麻醉方式与术后肺部感染的相关性
大数据中心的职责是服务，与传统的信息中心有所不同
CHIMA 2019
科研数据库的局限性
单一研究目的的科研病种数据库
• 以特定问题为导向收集病种数据 • 数据库涉及数据少，人工加工工作量小 • 难以满足特定问题以外的研究需求
例：肺癌患者生存研究数据库
性别、年龄、吸烟史、是否戒烟、家族史、ABO血型、RhD血型、基础疾病、合并症、病理类型、分化程度、基因检测方法、基因突变状态、PD-L1（阳性/阴性）、MMR/MSI、TNMG分期、手术、辅助治疗（化疗、放疗）、一线治疗、疗效评估、副反应、PFS、二线治疗…、生存状态、随访时间、总生存时间、最后一次随访时间、是否存活、是否复发/进展、复发/进展位置、复发/进展时间
结构化处理、SQL、组学数据平台
原始数据
CHIMA 2019
之三：数据分析中心
职责
• 为用户提供数据分析服务
工作平台
• 各类建模工具 • 数据可视化工具 • 深度学习平台
所需人才
• IT工程师 • 数据分析工程师
人工服务
SAS、SPSS、R、深度学习
数据存储
CHIMA 2019
大数据中心的职能定位
胃癌N分期判定
N0：无区域淋巴结转移 N1：区域淋巴结转移1~2个 N2：区域淋巴结转移3~6个 N3：区域淋巴结转移7~15个 N4：区域淋巴结转移16个以上
格式：阳性个数/送检个数
CHIMA 2019
（二）数据是否要做整体预处理
观点认识：在大数据中心数据资源建设中，预先将数据整体进行预处理
的过程会带来信息丢失，技术上也存在较大困难，一次性的数据治理难以满足数据后续利用需求。采用“数据湖”概念，保留数据的原始性，针对特定研究问题开展数据预处理是更好的选择。
• 病历文本结构化的结果不能完整表达原病历文本的语义 • 标准化（归一化）可能导致特定信息丢失，如药品名称转换：
诺欣、铂龙、顺铂→顺铂
技术上的困难
• 历史数据的不一致，如疾病编码 ICD-9与ICD-10由于编码原则可能不同导致转换难以自动对照完成
• 整体结构化的困难，如不同病种的病历文本有不同的特点，目前尚难以做到泛病种的结构化处理
科研数据库的局限性
泛研究目的的科研病种数据库
• 以收集准备病种数据为目的，用以支持本病种不同目的的研究 • 数据库涉及数据项多，结构复杂，人工加工工作量巨大，持续难度大 • 针对问题分析时需要二次加工 • 难以满足所有研究需求
例：糖尿病视网膜病变专病数据库（片段）
是是否否降接血受压过药降物糖、治服疗用、降降血糖压治药疗物类种型类、数胰量岛、素开注始射日、期目、前服规用律时口长服（降月糖）药、、目一前年规内律服服用用降降糖血药压物或注射胰岛素；药磺物脲；类促泌剂是否使用、磺脲类促泌剂药物剂量、开始日期、服用时程（月）；钙非双离磺胍子脲类拮类是抗促否剂泌使降剂用压是、药否双是使胍否用类使、名用非称、磺、药脲剂物类量名促、称泌开、剂始剂药日量物期、剂、开量服始用、日开时期始程、日（服期月用）、时；服长用（时月程）（；月）； β糖受苷体酶阻抑滞制剂降是压否药使是用否、使糖用苷、酶药抑物制名剂称名、称剂、量剂、量开、始开日始期日、期服、用服时用长时（程月（）月；）；血噻目管前唑扩烷是张否二药类规是律酮否是使使否用用胰使、岛用药素、物、噻名普唑称通烷、二胰剂类岛量素酮、名名开称称始、、日剂剂期量量、、、服开开用始始时日日长期期（、、月服服）用用；时时长程（（月月））；； A长ng效Ⅱ胰受岛体素阻是滞否剂使是用否、使长用效、胰药岛物素名名称称、、剂剂量量、、开开始始日日期期、、服服用用时时长长（（月月））；