DICOM数据集与DCM文件格式

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

作者简介:全海英(1971-),讲师,博士研究生,主要研究方向:医学信号与图像处理、小波分析; 杨源(1976-),硕士研究生,主要研究方向:数字图像处理; 张歆东(1970-),硕士,主要研究方向:多媒体、信号处理; 郭树旭(1959-),教授,博士研究生,主要研究方向:多媒体、数

字图像处理与传输、小波分析、微波通讯; 刘景鑫(1967-),工程师,主要研究方向:医学影像设备学.

文章编号:1001-9081(2001)08-0145-02

DICOM 数据集与DC M 文件格式

全海英1,3,杨 源1,张歆东1,郭树旭1,刘景鑫2

(1.吉林大学电子工程系,吉林长春130023; 2.长春市中日联谊医院,吉林长春130031;

3.中国科学院长春光学精密机械与物理研究所,吉林长春130021)摘 要:该文在介绍医学信息领域的一种通用的图像及数据通讯标准DIC OM3.0的基础上,对DIC OM 数据集和DC M 文件的组织形式进行了分析,并且提出了在实际应用中对DIC OM 数据集的编解码接口的实施方案。

关键词:DIC OM3.0;医学图像;文件格式中图分类号:TP311.52 文献标识码:A

1 前言

随着信息技术的发展和计算机应用水平的不断提高,新一代医疗信息系统已逐步发展成为面向医疗服务,集成医疗信息、医学影象信息和医疗管理信息的综合化多媒体医院管理信息系统[3]。

为了便于影象信息的共享和交流,美国放射学会

(American C ollege of Radiology ,ACR )和美国国家电器制造商协会(National E lectrical Manu factures Ass ociation ,NE M A )联合制定了医学数字图像通讯标准ACR/NE M A DIC OM 3.0(Digital Imaging and C ommunications in Medicine )[1],其主要目的是为了在各种医疗影象产品之间提供一致性接口,以便更有效地在医学影象设备之间传输交换数字影象[2,3]。目前,世界上主要的医疗设备生产厂家都采用此标准作为医学影象设备的互操作接口及医学影象数字接口[4]。

2 DICOM 数据集

2.1 实体-联系(Entity -Relationship ,简称E -R )模型

概念模型是现实世界事物及其在信息世界的反映,

DIC OM 表达概念模型最常用的方法是实体-联系方法。2.2 数据集(Data Set )

一个数据集描述了现实世界信息对象的一个实例。数据集由数据元素(Data E lements )构成。数据元素是对对象属性值的编码。

1)数据元素结构

数据元素是由数据元素标签(Data E lement T ag )唯一定义的。数据元素在一个数据集中按标签值逐渐增大的顺序存放,且除了嵌套数据集外,任何一个数据元素在一个数据集中只出现一次。一个数据元素必为三种结构之一。其中两种结构包含了数据元素的VR (Value Representation ,值类型表述)即显式VR (Explicit VR )],但是它们的值长度的表达是不一样的。另外一种结构不包含数据元素的VR 即隐式VR (Im plicit VR )。这三种结构都包含了数据元素标签、数据值长度(Value

Length )、数据值体(Value Field )。

2)

数据元素字段

图1 DICOM 数据集与数据元素结构

一个数据元素由若干字段组成,如图1所示。它至少包含

三项内容:数据元素标签、数据值长度、数据值体。VR 字段仅出现于两类显式VR 数据元素结构中。各字段的定义如下:

数据元素标签 一个16bits 无符号整数对,按顺序排列包括群号码和元素号码。

值类型表述(VR ) 是2Bytes 的字符串,是数据元素的VR 值。已给定数据元素标签的VR 在数据词典中有详细定义。这两字节的VR 用DIC OM 的默认字符集编码。

数据值长度 一个16或32bits (取决于显式或隐式VR )无符号整数,表明了准确的数据值体的长度,按字节数目(为偶数)记录。此长度不包含数据元素标签、VR 、值长度字段。一个32bit 的长度字段(FFFFFFFFH )表示未定义的数据值体长度。未定义长度可能被用于VR 为项目序列(Sequence of I tems ,S Q )类型的数据元素。对于值类型为OW (Other W ord S tring )或OB (Other Byte S tring )的数据元素,未定义长度则依赖于传输句法协议。

数据值体 其长度为偶数字节,表明了数据元素的值。该字段的数据类型是由数据元素的VR 所明确定义。值多重性(Value Multiplicity ,VM )指定了该类型的数据值体中可包括的取值的数目。如果VM 大于1,表明元素是多重取值的。未定义长度的数据值体通过序列定界项目界定。

3 DC M 文件

符合DIC OM 标准的文件通常后缀为.dcm ,大多数的图像

处理软件中都不支持这种图像格式。因此,了解.dcm 文件格式的详细内容对于读写及其它处理都是十分必要的。

DIC OM 文件格式提供了一种在一个文件中封装数据集的方法。这个数据集体现了一个与DIC OM I OD 相联系的S OP 实例,它被放置在DIC OM 文件元信息之后。每一个文件包括

第21卷第8期2001年8月

计算机应用C om puter Applications V ol.21,N o.8Aug.,2001

一个单独的S OP实例。

文件元信息包含了被封装数据集的标识信息。这个文件头顺次包括了128Bytes的文件序言,4Bytes的DIC OM前缀和文件元元素。

文件序言是用于应用简介或详细说明的固定长度数据段,它不象DIC OM数据元素那样有标签和值长度字段,无内容时,所有的字节为00H。前缀包含了字符串“DIC M”,一般用这4Bytes判别是否是一个DIC OM文档。文件元元素是一些具备数据元素结构的元素体,包括了文件元信息版本、媒体存储S OP类UI D、传输句法UI D等等。

文件元信息后是一个数据集(其中可以含括其它嵌套的数据集)。在读写时应遵循DIC OM数据集的相关定义。由于隐式VR的数据元素结构在实际应用中较为常见,我们以此为例。

例如从一个DC M文件中提取出三段原始数据(均以十六进制数表示)。

从文件中第1284Byte到第1295Byte:

2800000004000000E4000000;

从文件中第1326Byte到第1335Byte:

28001000020000000002;

从文件中第1336Byte到第1345Byte:

28001100020000000002。

查阅有关数据字典的DIC OM文档,从第1284Byte开始前四字节对应T ag:(0028,0000),代表群长度(该群内包含若干同一类别的从属数据元素);下面四字节对应双字的值为4,即该数据值体的长度为4(为一个双字);数据值体表明该群的长度为E4,即十进制的228。从第1326Byte始前四字节对应T ag:(0028,0010),代表影象图形的行象素数;下面四字节对应双字的值为2,即该数据值体的长度为2;数据值体指明了该图像每行有512个象素。类似地,从第二段数据,我们可以了解到该图像每列有512个象素。

数据元素(可划分为若干个数据群)按照这种模式组织在一起,加上文件元信息就形成了DIC OM文件。DIC OM的这种标签式结构,特点是可灵活组织,兼容性强,便于记录与查询。

表1 隐式VR的数据元素

元素标签数据值长度数据值体

群号码为

16-bit 无符号整数元素号码为

16-bit

无符号整数

32-bit

无符号整数

包含数据值的偶比特

长度,类型依据数据

词典中指定的VR

2bytes2bytes4bytes “值长度”指定长度或未定义

4 DC M文件的存取与图形图像数据编码在实际应用中,根据DIC OM标准对某种特定的设备作DC M数据集的编解码接口,不但可以简化接口,还能提高执行效率。

考虑到数据流的组成,我们在具体实施中,构造了基类C DataE lement和C DataSet分别涵括了数据元素、数据集的基本特征属性,然后针对不同的情形作派生类。具体地说,每一个DC M文件可以看作一个C DataSet类(或其派生类)的对象来处理。

基于数据词典,建立一个包含数据元素标签、名称、VR、VM的表,以便完成必要的查询。例如通过标签查找数据元素的名称(含义)、VR、VM。

在解析一个文件(或是一个数据集)时,可以以标签为标识,读出感兴趣的数据元素,并将该数据元素作为C DataE lement(或其某一派生类)的一个对象来处理,必要时改写数据元素的值体,再由C DataSet类完成对文件的数据组织和写操作。

象素数据元素(7FE0,0010)应用于图形图像数据编码和数据交换中。这个元素与其它一些数据元素相关,例如图像的行数(0028,0010)、列数(0028,0011)、帧数(0028,0008)等等。多种位深的象素数据编码情况不同。象素的结构包括位分配(Bits Allocated)(0028,0100)、位存储(Bits S tored)(0028,0101)、最高位(High Bit)(0028,0102)。每一个象素单元(Pixel Cell)的值代表了一个象素的抽样值。象素单元的大小由位分配(0028,0100)指明。位存储(0028,0101)确定了象素抽样值的实际位深。最高位(0028,0102)指明了位存储(0028,0101)的最高顺序位在位分配(0028,0100)指定的有关存储空间中的位置。它用于描述象素数据编码方法并能被解析。例如,在一个分配了16bits(2Bytes)的一个象素数据中,位存储为12bits,第15位被指定为最高位,那么每一个象素抽样用一个16位的字来编码,其中有4bits不用作象素数据。

象素数据元素(7EE0,0010)中的象素数据可以以自然(未压缩)格式或DIC OM标准之外定义的封装(例如压缩)格式来传输。对于自然格式,对影像图像的存储一般采用位图格式,对图像从左上到右下按行进行存贮。DIC OM提供了通过封装格式支持J PEG图像压缩格式和R LE图像压缩格式的机制。

如前对数据集读取的方法,可以获得图像的相关信息和象素数据。在此基础上,构造图像模块基类CImgM odule,然后针对不同的图像类型,派生不同的模块类,例如CT模块类、MR模块类等。这样,就可以通过对基类虚成员函数的过载来完成一定的功能。例如,基类提供公有的图像信息解析虚函数,完成对通用属性的加载和对象素数据元素编解码多种机制的支持;派生类通过过载这个函数,添加特有的模块属性和对一些已有属性的赋值。当然还应提供其它成员函数,完成诸如图像处理、显示等功能。

5 结语

自DIC OM3.0标准发布以来,很多数字医学成像设备具备了DIC OM接口,为PACS、远程医疗以及图像的后处理、三维可视化等提供了良好的支持。本文简要分析了DC M格式的医学影象文件中关键的图像信息及其读取方法,文件中的其它信息,如病人姓名等信息的获取采用同样的方法即可,不再赘述。

参考文献

[1] Digital Imaging and C ommunications in M edicine(DICOM)Based

S tandard-1999[E B/O L].National E lectrical M anu facturers

Ass ociation,ftp:///medical/dicom.

[2] 童明杰,胡大可.认知医学数字图像通讯标准-DICOM[J].国

外医学生物医学工程分册,1999,22(5):303-307.

[3] 贾克斌,沈波.实现医学影象存档和传输系统中的若干关键技

术[J].中国图象图形学报,2000,5(A)(7):539-544.

[4] 戴星辉.浅谈DICOM3.0标准[J].世界医疗器械,1997,3(2):

21-23.

641

计算机应用2001年

相关文档
最新文档