JPEG解码——(3)文件头解析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
JPEG解码——(3)⽂件头解析
与具体的编码数据空间相⽐,jpeg⽂件头占据⾮常⼩乃⾄可以忽略不计的⼤⼩。
仍然拿中的《animal park》这张图⽚来举例,从跳过SOS(FF DA)的TAG开始——offset=0x153,
就真正进⼊了编码数据区域,如下图所⽰:
其占据的⽐例为:0x153/0x9721 = 339/38689 = 0.876%,还不到1%,其他jpeg图⽚也是类似情况。
但是,就是这么⼩的数据区域,却是⾄关重要的地⽅,某些关键的地⽅⼀个字节出错了的话,解码就会出错(例如huffman table
中数据),或者重建出的yuv图像异常(例如quantization table中数据)!
本篇是该系列的第三篇,主要介绍jpeg头信息解析,其中除了huffman table重建较复杂外,其他TAG的解析都⽐较容易。
1. APP0——FF EO
先贴出这段区域:
从ASCII值可以看出,保存了JFIF——JPEG File Interchange Format(JPEG⽂件交换格式),后⾯的⼏个字节应该是version信
息吧,没深究。
2. DQT——FF DB
量化表有两个,上⾯贴图只⾼亮了其中⼀个表。
从offset=0x16开始的两个字节(0x00 43)为这段区域的size=67,后⾯的⼀个字节为表的ID——0x00=0(可以看到第⼆张表中对应位置offset=0x5D处为0x1)。
跳过前⾯三字节从offset=0x19处开始的64字节,即为量化表中量化值。
其中需要说明的是,量化值是固定为64字节的,因为按8X8进⾏DCT变换的。
⼯具解析的结果如下:
需要补充两点:
A.亮度信号的Y分量使⽤DQT表⼀,UV分量使⽤表⼆。
B.亮度信号通常采⽤细量化(量化值较⼩),对应位置处,表⼀通常⽐表⼆值要⼩。
此量化原因是⼈眼对亮度信号⽐较敏感,采⽤颗粒度较细来量化,细量化引⼊的⼀个问题会消耗更多的数据空间。
3. SOF——FF C0
在该JPEG解码系列中第⼀篇已经详细介绍过了,不再赘述。
⼯具解析如下:
4. DHT——FF C4
共有四张表,上⾯只贴出第⼀张表。
DHT表的重建有些复杂,涉及底层更多关于数据压缩领域的知识,可以参考“范式霍夫曼编码”相关材料,本博⽂不再做介绍该编码原理。
但会针对具体个例进⾏说明,如果重建霍夫曼表。
这是⾄关重要的⼀环,因为关系着后⾯霍夫曼解码,如果表有误,后⾯会解码异常。
4.1 表分类
重建霍夫曼表。
⼀般分为四个表:DC0,DC1,AC0,AC1,因为Y分量使⽤两个表:DC0+AC0,⽽UV分量也使⽤两个表:
DC1+AC1。
4.2 ⼏个名词及解释
这个⼏个名词是个⼈按照⾃⼰的理解来定义的,读者需按照这个来解读,因为我的解码⼯具就是按照这个来使⽤的。
例如,parseDHT显⽰的下图:
⼏个名词:序号(SequenceNum)、码字长度(CodeWidth)、码字(Code)、信源值/权值(CodeVal)。
SequenceNum:序号,依次递增,从0到totalCodeCnt-1。
totalCodeCnt值不确定,取决于编码端编码出的数量。
上⾯图⽰的第⼀列数字,是依次递增的,多⼀个编码数据就多⼀⾏。
CodeWidth: 编码数据的宽度(码字宽度——⼆进制数据的bit位宽),宽度都是从2开始,最⼤为16。
当某个码字Code的宽度为16时,表⽰⽤16位的
编码数据来表⽰某个像素值(确切讲并不是像素值,⽽是RLE的值!),当然,其出现的概率⾮常低,否则会出现编码数据量⼤于信源数据量了。
另外,码字宽度必须是依次递增的,中间不可能有跳变,因为霍夫曼编码理论上会尽量⽤较窄的码字来表⽰信源。
-->也有可能产⽣跳变!
但⼀般概率较低,曾经遇到过。
相同码字宽度的若⼲码字,其码字依次递增。
例如,图⽰第3-5⾏,码字宽度为3,其对应的码字为0x4,0x5,0x6,即⼆进制:100,101,110。
Question:每当码字宽度加⼀时,码字如何变化?
上⼀个码字值加1后,末尾再补⼀个零(即——加1右移)。
当宽度增加⼆时,先将上⼀个码字值加1后再补两个零。
增加三时类似,但出现
概率极低。
例如上图中,从CodeWidth中2->3过渡,Code值变化为:01 -> 100;从CodeWidth的3 -> 4过渡,Code值变化为:110 ->1110。
值得注意的⼀点:码字宽度,不⼀定都是依次递增,有可能产⽣跳变,⽬的是使后⾯的码字不溢出,也就是补两个或多个零的情况。
Code: 码字,全部码字要求各不相等。
因其是编码数据,⽽霍夫曼编码要求读取的完整的n位⽐特位的码字Code,不能与其他码字Code的前n位相等,
因此宽度值从2位的00开始。
例如,上⾯码字Code中间的四⾏分别为:0x5,0x6,0xe,0x1e,(⼆进制表⽰:101,110,1110,11110)的编码数据,其真正代表的CodeVal信源
值为4,3,5,6。
由此也可以看出,信源值4出现的频率/概率最⾼(如果仅仅这四个做⽐较的话是这样(再极端情况是:
P4=P3>P5>P6),如果通盘⽐较,
当然是第⼀⾏0x1出现的概率最⼤),因为要⽤最⼩(最窄)的编码数据来表⽰频率最⾼的信源值。
这是huffman编码理论中的⼀个核⼼概念——出现概率最⼤
的值的编码宽度最窄,这样最利于压缩数据。
CodeVal:信源值(应该是接近信源的值,不是量化后的值,其值是RLE⾏程编码值,由两部分组成,⾼四位和低四位)。
即编码内容,也是霍夫曼树叶⼦节点权值,在解码时需要⽤Code来恢复出这种值。
该值的宽度由量化精度决定,通常为8位,代表yuv图形单个像素值采样精度为8位,该值是唯⼀的,不能重复。
——》描述错误,不是这种情况,后⾯再解释。
4.3 重建步骤
以例⼦来展⽰,不使⽤《animal park》,使⽤如下这⼀串值(红⾊ 号分割不同意义的值,我⾃⼰添加的):
FF C4 00 1D 00 00 03 01 01 01 01 01 01 01 00 00 00 00 00 00 00 +04 05 06 03 02 01 00 09 07 08
step1. 剔除掉表⽰size的00 1D以及表⽰table_id的00,剩余:00 03 01 01 01 01 01 01 01 00 00 00 00 00 00 00+04 05 06 03 02 01 00 09 07 08
其中,前16个数值表⽰含义————码字宽度(CodeWidth)为n的码字(Code)的数量,其中n从1递增到16(可以表⽰为该位置的index,但是其是从1开始递增),
因为最⼩宽度为1,最⼤宽度为16。
通常,宽度为1的码字不会使⽤,⽽编码是从2位开始,例如第⼀个码字通常为0b00,来表⽰出现频率最⾼的那个信源值。
有些位置上的值为0,表⽰该码字宽度⽆
对应的码字,像第⼀个位置和最后7个位置的0,就没有对应的码字。
从上⾯分析,可以得到结论:总共使⽤码字的数量————16个位置上的数值之和,也即是
totalCodeCnt=10(3+1+1+1+1+1+1+1),也是霍夫曼树中叶⼦节点的个数。
step2. 前16个字节后⾯的若⼲个字节数据:04 05 06 03 02 01 00 09 07 08
其表⽰码字宽度依次递增时所对应的信源值(CodeVal),其数量必然等于totalCodeCnt,因为⼀个有效码字(前16Byte不为0的)对应⼀个信源值。
step3. 对应关系⽣成
前16Bytes的第2个位置的03,代表码字宽度为2的码字数量为3,那么其分别为:0b00,0b01,0b10,其对应的信源值分别为后⾯的0x04,0x05,0x06。
3。
01。
3。
1 。
0b110。
0x03
。
4。
01。
4。
1。
0b1110。
0x02
以此类推,直到最后⼀个码字宽度为9的码字0x1fe,以及其代表的信源值0x08。
4.4 重建算法
本⼈⼯具提供了⼀个重建huffman表的算法,感兴趣的可以参考。
写的不是太简洁,但能正常重建DHT。
1//rebuild huffman table
2int parseDHT(ABitReader* abr, struct jpegParam* param)
3 {
4 printf("(%s : %d), DHT offset:%#x\n", __func__, __LINE__, abr->getOffset());
5int len = abr->getBits(16);
6 len -= 2;
7while (len>0)
8 {
9 uint8_t idx = abr->getBits(8);
10 uint8_t idx_high = idx>>4;
11 uint8_t idx_low = idx & 0x0f;
12
13//idx_hight represent DC or AC: 0-DC, 1-AC
14//idx_low represent color id: 0-Y, 1-uv
15//[0][x] -- DC table, [0][0]:DC0, [0][1]:DC1
16//[1][x] -- AC table, [1][0]:AC0, [1][1]:AC1
17//generate pHTCodeCnt[idx_high][idx_low]
18 uint8_t *pCodeCnt = (uint8_t*)malloc(16);
19int i, j;
20int total_code_cnt = 0;
21 printf("\ttable id: [%d][%d]--[%s%d], dump more detail info...\n", idx_high, idx_low, idx_high==0?"DC":"AC", idx_low);
22 printf("\tCodeCntOfNBits:\t");
23for (i=0; i<16; i++) {
24int code_cnt = abr->getBits(8);
25 pCodeCnt[i] = code_cnt;
26 total_code_cnt += code_cnt;
27 printf("%2d ", code_cnt);
28 }
29 printf("\n\ttotal code cnt: %d\n", total_code_cnt);
30 param->HTCodeRealCnt[idx_high][idx_low] = total_code_cnt;
31 param->pHTCodeCnt[idx_high][idx_low] = pCodeCnt;
32
33 uint8_t *pWidth = (uint8_t *)malloc(total_code_cnt);
34 param->pHTCodeWidth[idx_high][idx_low] = pWidth;
35 printf("\tValidCodeWidth:\t");
36for (i=0, j=0; i<16; i++, j=0) {
37while (j++ < pCodeCnt[i]) {
38 uint8_t tmp = *pWidth++ = i+1;
39 printf("%2d ", tmp);
40 }
41 }
42 puts("");
43
44 pWidth = param->pHTCodeWidth[idx_high][idx_low];
45
46//generate pHTCode[idx_high][idx_low]
47 uint16_t *pCode = (uint16_t*)malloc(2*total_code_cnt); //huffman code width: 2~16 bits -> may 1 bits! but HuffmanDecode3 can not handle this!
48 param->pHTCode[idx_high][idx_low] = pCode;
49bool init_flag = false;
50for (i=0; i<16; i++) {
51int j = 0;
52 uint16_t tmp;
53while (j++ < pCodeCnt[i]) {
54if ((i==1 || i==0) && (j==1) && (init_flag==false)) {
55 *pCode = 0; //init val
56 init_flag = true;
57 } else if (j == 1) { //first add x bits
58int k = i;
59int shift_bits = 1;
60while(pCodeCnt[--k] == 0) {
61 shift_bits++;
62 }
63 tmp = (*pCode+1)<<shift_bits;
64 *++pCode = tmp;
65 } else {
66 tmp = *pCode + 1;
67 *++pCode = tmp;
68 }
69//printf("i:%d, j:%d, (%d , %d) => %#x\n", i, j, pCodeCnt[i], pWidth[i], *pCode);
70 }
71 }
72
73//generate pHTCodeVal[idx_high][idx_low]
74 uint8_t *pCodeVal = (uint8_t*)malloc(total_code_cnt); //huffman code width: 2~16 bits
75 param->pHTCodeVal[idx_high][idx_low] = pCodeVal;
76for (i=0; i<total_code_cnt; i++) {
77 *pCodeVal++ = abr->getBits(8);
78 }
79
80 printf("\t-----------------huffman table: [%d][%d]---------------------\n", idx_high, idx_low);
81
82 pWidth = param->pHTCodeWidth[idx_high][idx_low];
83 pCode = param->pHTCode[idx_high][idx_low];
84 pCodeVal = param->pHTCodeVal[idx_high][idx_low];
85 puts("\t[SequenceNum] (CodeWidth, Code) -> CodeVal");
86for (i=0; i<total_code_cnt; i++) {
87 printf("\t[%11d] (%9d, %#6x) -> %#7x\n", i, *pWidth++, *pCode++, *pCodeVal++);
88 }
89 len -= (17+total_code_cnt);
90 puts("\t---------------------------------------------------------------------------------------------");
91 }
92return0;
93 }
View Code
5. SOS——FF DA
SOS主要描述了分量号与⼏个DHT表的对应关系,以及编码profile。
其含义如代码所⽰:
1//map comp_id to huffman_table
2int parseSOS(ABitReader* abr, struct jpegParam* param)
3 {
4 printf("(%s : %d), SOS offset:%#x\n", __func__, __LINE__, abr->getOffset());
5int len = abr->getBits(16);
6int comp_cnt = abr->getBits(8);
7int i;
8for (i=0; i<comp_cnt; i++) {
9 param->ht_comp_id[i] = abr->getBits(8);
10 CHECK_EQ(param->ht_comp_id[i], i+1);
11int ht_idx = abr->getBits(8);
12 param->ht_idx[i] = ht_idx;
13int dc_idx = ht_idx>>4;
14int ac_idx = ht_idx & 0x0f;
15 printf("\tcolor_id[%d] use DC_table[%d], AC_table[%d]\n", param->ht_comp_id[i], dc_idx, ac_idx);
16 }
17 uint32_t baseline_flag = abr->getBits(24);
18 puts("\tonly support baseline profile! should pass for most cases!");
19 CHECK_EQ(baseline_flag, 0x003f00);
20
21return0;
22 }
需要注意的是,最后3Bytes是描述所⽤的profile,但是基本上都是使⽤的baseline,这个值是固定的。
⼯具解析结果如下:
6. 其他补充
有些图⽚带缩略图——thumbnail,其存在的⽬的是解码⼤图太耗费时间,⽽如果jpeg图⽚中还嵌套着另外⼀份⼩图(缩略图),则利⽤该⼩图解码可以缩短解码⼤图时间,
来达到尽快展⽰给⽤户看的⽬的。
jpeg⽂件格式⽀持这种⽅式,该⼩图其实也是⼀幅分辨率较⼩的jpeg图⽚,其⼀般会放在APP1下的Exif段。
带thumbnail的图⽚,thumbnail的部分,其完整保留了前⾯⼏个⼩节介绍的各个TAG段。
⽂件中,如果搜索"FF E0",会发现找到两个,⼀个是主图的,另外⼀个是缩略图的。