JPEG文件雕复技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
JPEG文件是以段加上压缩数据的方式存储[9],每个段包含三 个部分:第一部分为段标示符,它由两个字节组成,前一个字 节固定为OxFF;第二个字节相对于不同的段,值也不相同。第 二部分为段长度,它紧接着段的标示符,也由两个字节组成, 表示该段的长度值。第三部分为段内容,相对于各个段所存储 的内容都不相百度文库。JPEG文件以SOI标记开始,中间包含了 APP0段、DQT段、SOF0段、DHT段、SOS段,紧接着SOS段的 便是压缩数据信息了,最后以EOI标记意味着整个JPEG文件的 结束。
SOS段的标志符为0xDA,该段中的内容是关于YUV每个分 量的直流和交流各使用那个哈夫曼表来编码。Y代表亮度, UV代表色差。
2 JPEG文件智能雕复技术 2.1 基于结构特征的JPEG文件头提取 通过实验我们发现,不同的文件可能并不会包含表1的所有 标记。而JPEG文件在设计之初保留了一些段标记以便于后面对
SOF段的标志符为0xCO,该段中的内容是图像的长和宽等 大小信息,每个像素的位数信息,以及对YCbCr每个分量进行采 样的信息。这个信息保存在SOS段结束后。
DHT段的标志符为0xC4,在该段中,其从内部定义了哈夫 曼编码表。为了提高存储效率,JPEG不直接保存数值,而是按 照哈夫曼编码方式将数值按位数分成16组。
技术创新 39
该类型文件进行扩展。这样增加了文件头的复杂度。首先我们 先找出所有JPEG文件都含有的段标记,结果如下所示。
从文件头到数据段结束分别有:FFD8-FFDB-FFC4-FFDA -FFD9 。
同时,我们发现有一些随机的标记段会出现在其中某些位 置,但是有一定的规律性,如在FFD8段和FFDB段可能有随机出 现的多个范围在E0到EE的段标记,见表1。
据研究表明[1],随着科技的普及,计算机犯罪已愈演愈烈, 为了能逃避法律的制裁,犯罪嫌疑人将电子证据删除、格式 化,甚至物理破坏。在数据取证中,JPEG图像文件是最常用的 一种文件类型之一,为了提高取证技术[2],恢复遭到破坏的电子 证据,本文将对磁盘中的JPEG文件的雕复进行研究。
关于JPEG文件雕复的方法已经有很多。最早出现的文件雕 复技术是简单雕复技术,根据文件头和文件尾,将中间数据全 部收集起来,恢复成文件。Garfinkel[4]提出了一种快速验证技术 的文件雕复技术,虽然此方法为文件的雕复提高了精度,但无 法解决数据的不连续存储问题。为了有效的解决文件的分片问 题,MichaelCohen[5]提出了文件映射雕复技术,该方法的前提假 设是:距离文件头较近的族上分布的数据属于该文件的可能性 比距离文件头较远的簇上分布的数据属于该文件的可能性大。 而这样的假设在传统的存储设备上是合理的。之后邱卫东[6]提出 了一种新的多媒体文件雕复技术;周溪[7]提出了基于关键信息检 索的数据恢复技术。李默[8]等人又主要针对无文件头的JPEG文件 图像的雕复进行研究,提出了NIST随机性检测特征和bigram频 数特征的特征选择方法,采用SVM对无文件头的碎片进行分 类,而针对无文件签名的JPEG文件头信息缺失问题,它们通过 图像内容的突然变化定位引起视觉错误的MCU像素块确定文件 碎片块间边界的方法,解决了无文件签名的JPEG文件重组过 程。对高熵文件的误分率很高,但对碎片边界检测的准确度不 是很高。
38
2019 年 第 9 期
JPEG文件雕复技术
◇内江师范学院数学与信息科学学院 程清霞 袁玲凤 侯国强 谭兴财
大数据时代,数据安全受到人们广泛重视。数据雕复技术是保护数据的最后一道防 线。为解决如何高效地从底层磁盘中恢复出JPEG文件,我们首先基于文件结构恢复出完 整文件头,然后采用支持向量机对文件头周围数据进行分割和分类,最后采用文件头信 息解码数据段和碎片数据来计算碎片间相似度,以此得到最优匹配块,最终恢复出完整 文件。实验表明,我们的算法对文件的恢复率达到了85.7%,比Foremost和PhotoRec两个 软件的恢复率分别高17.86%和14.29%。
本文基于JPEG文件结构特征,先提取出JPEG图像文件头碎 片,利用支持向量机和距离计算对碎片进行分类重组。较传统 方法而言,本文能有效的解决文件在存储设备上的不连续存 放,数据分片等问题。基于JPEG图像文件头碎片,通过SVM算 法实现对JPEG图像文件碎片的分类,利用距离计算对已分类的 碎片进行重组,能大大提高了JPEG文件雕复技术的使用范围和 精确度。
表1 JPEG段标记表 由于每个段标记都包含有该段的长度信息,由此可以判断 各段之间是否相连。通过实验我们发现各段标记的长度并没有 很长,一般只有十几个字节的长度,而文件头总长度一般在 512字节左右,因此很少在此处发生分片,偶尔只发现一两个分 片的头文件。另一方面,在数据段中,并不会出现所有的段标 记。因此,我们设计出查找文件头的算法过程。 (1)获取DRFWS2006镜像文件数据[10]。 (2)读取文件数据,根据JPEG特有标记判断FF后面的字 节是否在C0到FE之间。若是则保留,若不是,则判断其为其他 类型文件。 (3)若已经到达文件末尾,则结束,否则继续。 (4)判断段标记之间是否相连,若不相连,则排除该段数 据;若相连,则判定其为JPEG文件头数据t。 (5)判断FFD8到FFD9段之间各段是否都是连续的,若 是,则(6),否则(7)。 (6)默认其为完整文件,结束。 (7)判断D8到DA段是否连续,若是,则判定其为完整文 件头,否则,将其放入待重组文件头集合S中。 (8)根据t的长度信息和JPEG各段的存储顺序查找S中是否 有与其相连的t1;若是,则将数据块按段顺序拼接t和t1,返回 (5)。 文件雕复过程的流程图如图1所示。
1 JPEG文件介绍 JPEG(联合图像专家组)的缩写,是由国际标准组成和国 际电话电报咨询委员会为静态图像所建立的第一个国际数字图 像压缩标准。其文件后缀名为.jpg、.jpeg、.bmp、.png、.gif等格
式。JPEG是一种有损的图像压缩格式,是指文件经过压缩,再 解压到原来的的文件,其中的信息会有丢失。但是这种丢失是 人眼几乎分辨不出来的。JPEG可以将图片压缩为原大小的十分 之一而看不出与原图有什么差异,这也是它在压缩方面的优越 性,使它便于储存,传输方便,得到了广泛的应用。
APP0段的标志符为0xE0,标记符后有9个具体的字段:但 不是所有的图像都含有APP0段,也可能含有APPn段(n取 1~15)。
DQT段的标志符为0xDB,该段中主要存储了量化表的信 息。量化表就是存储了8*8量化系数的一个矩阵。量化就是离散 余弦变换的光强数据进行按比例的压缩(将8*8的光强数据除以 相对应的量化系数),并取最接近的整数值的这个过程。
SOS段的标志符为0xDA,该段中的内容是关于YUV每个分 量的直流和交流各使用那个哈夫曼表来编码。Y代表亮度, UV代表色差。
2 JPEG文件智能雕复技术 2.1 基于结构特征的JPEG文件头提取 通过实验我们发现,不同的文件可能并不会包含表1的所有 标记。而JPEG文件在设计之初保留了一些段标记以便于后面对
SOF段的标志符为0xCO,该段中的内容是图像的长和宽等 大小信息,每个像素的位数信息,以及对YCbCr每个分量进行采 样的信息。这个信息保存在SOS段结束后。
DHT段的标志符为0xC4,在该段中,其从内部定义了哈夫 曼编码表。为了提高存储效率,JPEG不直接保存数值,而是按 照哈夫曼编码方式将数值按位数分成16组。
技术创新 39
该类型文件进行扩展。这样增加了文件头的复杂度。首先我们 先找出所有JPEG文件都含有的段标记,结果如下所示。
从文件头到数据段结束分别有:FFD8-FFDB-FFC4-FFDA -FFD9 。
同时,我们发现有一些随机的标记段会出现在其中某些位 置,但是有一定的规律性,如在FFD8段和FFDB段可能有随机出 现的多个范围在E0到EE的段标记,见表1。
据研究表明[1],随着科技的普及,计算机犯罪已愈演愈烈, 为了能逃避法律的制裁,犯罪嫌疑人将电子证据删除、格式 化,甚至物理破坏。在数据取证中,JPEG图像文件是最常用的 一种文件类型之一,为了提高取证技术[2],恢复遭到破坏的电子 证据,本文将对磁盘中的JPEG文件的雕复进行研究。
关于JPEG文件雕复的方法已经有很多。最早出现的文件雕 复技术是简单雕复技术,根据文件头和文件尾,将中间数据全 部收集起来,恢复成文件。Garfinkel[4]提出了一种快速验证技术 的文件雕复技术,虽然此方法为文件的雕复提高了精度,但无 法解决数据的不连续存储问题。为了有效的解决文件的分片问 题,MichaelCohen[5]提出了文件映射雕复技术,该方法的前提假 设是:距离文件头较近的族上分布的数据属于该文件的可能性 比距离文件头较远的簇上分布的数据属于该文件的可能性大。 而这样的假设在传统的存储设备上是合理的。之后邱卫东[6]提出 了一种新的多媒体文件雕复技术;周溪[7]提出了基于关键信息检 索的数据恢复技术。李默[8]等人又主要针对无文件头的JPEG文件 图像的雕复进行研究,提出了NIST随机性检测特征和bigram频 数特征的特征选择方法,采用SVM对无文件头的碎片进行分 类,而针对无文件签名的JPEG文件头信息缺失问题,它们通过 图像内容的突然变化定位引起视觉错误的MCU像素块确定文件 碎片块间边界的方法,解决了无文件签名的JPEG文件重组过 程。对高熵文件的误分率很高,但对碎片边界检测的准确度不 是很高。
38
2019 年 第 9 期
JPEG文件雕复技术
◇内江师范学院数学与信息科学学院 程清霞 袁玲凤 侯国强 谭兴财
大数据时代,数据安全受到人们广泛重视。数据雕复技术是保护数据的最后一道防 线。为解决如何高效地从底层磁盘中恢复出JPEG文件,我们首先基于文件结构恢复出完 整文件头,然后采用支持向量机对文件头周围数据进行分割和分类,最后采用文件头信 息解码数据段和碎片数据来计算碎片间相似度,以此得到最优匹配块,最终恢复出完整 文件。实验表明,我们的算法对文件的恢复率达到了85.7%,比Foremost和PhotoRec两个 软件的恢复率分别高17.86%和14.29%。
本文基于JPEG文件结构特征,先提取出JPEG图像文件头碎 片,利用支持向量机和距离计算对碎片进行分类重组。较传统 方法而言,本文能有效的解决文件在存储设备上的不连续存 放,数据分片等问题。基于JPEG图像文件头碎片,通过SVM算 法实现对JPEG图像文件碎片的分类,利用距离计算对已分类的 碎片进行重组,能大大提高了JPEG文件雕复技术的使用范围和 精确度。
表1 JPEG段标记表 由于每个段标记都包含有该段的长度信息,由此可以判断 各段之间是否相连。通过实验我们发现各段标记的长度并没有 很长,一般只有十几个字节的长度,而文件头总长度一般在 512字节左右,因此很少在此处发生分片,偶尔只发现一两个分 片的头文件。另一方面,在数据段中,并不会出现所有的段标 记。因此,我们设计出查找文件头的算法过程。 (1)获取DRFWS2006镜像文件数据[10]。 (2)读取文件数据,根据JPEG特有标记判断FF后面的字 节是否在C0到FE之间。若是则保留,若不是,则判断其为其他 类型文件。 (3)若已经到达文件末尾,则结束,否则继续。 (4)判断段标记之间是否相连,若不相连,则排除该段数 据;若相连,则判定其为JPEG文件头数据t。 (5)判断FFD8到FFD9段之间各段是否都是连续的,若 是,则(6),否则(7)。 (6)默认其为完整文件,结束。 (7)判断D8到DA段是否连续,若是,则判定其为完整文 件头,否则,将其放入待重组文件头集合S中。 (8)根据t的长度信息和JPEG各段的存储顺序查找S中是否 有与其相连的t1;若是,则将数据块按段顺序拼接t和t1,返回 (5)。 文件雕复过程的流程图如图1所示。
1 JPEG文件介绍 JPEG(联合图像专家组)的缩写,是由国际标准组成和国 际电话电报咨询委员会为静态图像所建立的第一个国际数字图 像压缩标准。其文件后缀名为.jpg、.jpeg、.bmp、.png、.gif等格
式。JPEG是一种有损的图像压缩格式,是指文件经过压缩,再 解压到原来的的文件,其中的信息会有丢失。但是这种丢失是 人眼几乎分辨不出来的。JPEG可以将图片压缩为原大小的十分 之一而看不出与原图有什么差异,这也是它在压缩方面的优越 性,使它便于储存,传输方便,得到了广泛的应用。
APP0段的标志符为0xE0,标记符后有9个具体的字段:但 不是所有的图像都含有APP0段,也可能含有APPn段(n取 1~15)。
DQT段的标志符为0xDB,该段中主要存储了量化表的信 息。量化表就是存储了8*8量化系数的一个矩阵。量化就是离散 余弦变换的光强数据进行按比例的压缩(将8*8的光强数据除以 相对应的量化系数),并取最接近的整数值的这个过程。