最新SDTMIG学习总结 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

CDISC SDTM IG学习笔记

学习心得：

SDTM数据集与一般数据集的区别：

1.数据集个数不同

按照数据变量的不同来源分为不同的域，而一般的临床试验只有一个或少量几个数据集。

也就是数据不是按照在CRF表中的位置来收集的，而是按不同topic。

2.个人记录与事件记录

一般数据集每个人一条记录，SDTM数据集每个人的每个事件、每次用药或每次不良反应一条记录。变量的数量减少，记录的条数增多。也就意味着每个受试者每次访视每个时间点可能有许多条观测记录。

3.由于变量之间存在关联，所以SDTM有关联数据集

4.CDISC的重点是如何确定记录的唯一性，比如多阶段多时间多剂量的试验，

就需要有三个变量来区别。

5.元数据：关于数据的数据，按照一定的标准，从信息资源中抽取出相应的特

征，组成一个特征元素集合。包括描述一个具体对象所需要的数据项集合、各项数据语义定义、规则和语法定义。元数据标准的制定为提高数据库建库质量，使诗句加工达到规范化、标准化，促进科学数据标准化，加强数据交流。

6.作用：变量名标准化，变量取值标准化

7.并不是所有的域和变量都要使用，根据研究内容来选择

This model describes the contents and structure of data collected during a clinical trial

The purpose is to provide regulatory authority reviewers (FDA) a clear description of the structure, attributes and contents of each dataset and variables submitted as part of a product application

1.域

1.1 定义：一组具有共同主题并在逻辑上相关的观测结果集合。A domain is defined as a collection of observations that share a common topic.

每个域采用唯一的两字符（英文缩写）代码加以区别，如不良时间域（AE，Adverse Event）

域是SDTM的核心，所有变量按不同的来源被分类到相关的域。比如下图中展示提交的SAS数据集。CM（concomitant and prior medication）伴随用药域、DA（Drug Accountability）药物发放回收记录域和DM（DEMOGRAPHICS）人口学资料域等。

●域名和变量名是固定不能变的。在所有域中使用SDTM规定的变量标签

●研究中只需提交实际采集的域，具体采集哪些数据由研究内容决定，而

不是基于SDTM。

●扩展内容：如果现有的域不能满足要求，可以创建自定义域（相关内容

未包括）

1.2域模型

1.2.1域可以分为五类

Special-Purpose Domains

General Observation Class(3种Interventions,Events, Findings),

Finding about,

Trial Design

Relationship Datasets。

下图是SDTM vesion3.2中包括的所有域。

1.2.2域模型假设

变量名最长为8个字符

变量筛选：每个域中有各种变量，研究者应按需要选择合适的变量。域中的变量

按照需求的不同可分为必需变量（域中必须有且值不能为空）、预期变量（域中必须有但可以为空值）和许可变量（有数据才提交）

变量顺序：对于General Observation Class中的变量顺序，应先按标识变量、主题变量、修饰语变量到时间变量依次排列，每种变量类型内按照SDTM表中变量描述排序。

扩展内容：域可以被分割，如将调查量表QS域分为临床整体印象（QSCG）、痴呆易于康奈尔量表（QSCS）和细微精神状况检查（QSMM），操作方法不详述。受试者：在标签或注释中将“病人”或“志愿者”统称为“受试者”。在所有的域数据集中都应该包含唯一的标示符（USUBJID）。一般可用：研究编号、临床中心编号和受试者编号联接起来作为USUBJID。

文本数据大小写：建议大写文字形式递交文本数据（如果是英文的话），长文本或标签文本及已经是大小写的受控术语除外。

缺失值：单个数据项缺失以空来表示，如果有—STAT变量和—REASND变量则还需在—STAT中录入NOT DONE，在—REASND中录入原因。

分类变量：——CAT、——SCAT、——GRPID、——SPID、——REFID

——CAT与——SCAT在采集之前就已知，是固有属性，用于受试者之间分组——GRPID通常在数据采集之后由申办者指定，受试者之内分组数据

对各受试者之间具有相同值的数据用——CAT与——SCAT，而对受试者之间具有不同值时用——GRPID

自由文本：其他，请说明。P36页

一个变量的多个取值

受控术语：一个星号*或两个星号**代表相应的变量应该被填入意义明确的一组数值（受控术语）。一个星号表示受控术语来自申办者自定义的值，两个星号表示来自外部已出版的数据源。

●建议受控术语应大写，除了本来就是小写的或计量单位

●放入define.xml

●不能用数字代码

每个通用观察域必须要有一个主题变量，一个时间变量

主题变量：事件类——TERM，干预类——TRT，发现类——TEST；必须有受控术语