《Learning Scalable -constrained Near-lossless Image Compression via Joint Lossy Image and Residual Compression》
大师兄CVPR力作:)
绪论
本文提出了一种联合有损图像压缩与残差的压缩框架,学习以为限制的近无损图像压缩。具体而言,通过有损图像压缩框架获得重建图像,并均匀量化相应的残差以满足的误差界限。当误差界限为0时,即无损压缩,使用VAE公式化有损图像和残差的压缩问题并用端到端训练求解。为了实现误差大于0的可扩展压缩,我们通过量化学习到的原始残差的概率模型来获得量化残差的概率模型,而非训练多个网络。我们进一步纠正了由于训练、推理上下文不一致所导致的概率模型的偏差。最终,量化残差根据偏差校正概率模型来压缩。实验显示,近无损压缩和无损压缩达到SOTA,与有损图像压缩相比有竞争力。是第一个基于深度学习的近无损压缩方法。
可扩展近无损图像压缩
压缩框架概览
给定一个严格界限,近无损图像压缩满足:
其中,分别代表原始图像,重建图像,第i个空间位置,第c个通道。
为实现近无损压缩框架,结合有损图像压缩与残差压缩。首先,通过有损图像压缩获得原始图像的重建,计算残差,假设是的量化。让,则重建损失和量化损失相等。因此,使用宽度为的均匀残差量化器如下:
其中sgn是符号函数。根据上式,则满足近无损图像压缩要求:。
同时压缩和量化残差引出了一个具有挑战性的优化问题。
有损图像与残差的联合压缩
首先解决无损压缩的特例,此时。
1)公式化:假设原始图像采样于未知分布,近无损压缩的性能取决于模型估计的有多好。采用隐变量模型,则可化为计算边缘分布:。其中y是隐变量,是模型参数。
因为直接学习边缘分布通常不可行,一种方法是使用VAE优化evidence lower bound(ELBO)。通过引入推理模型来估计后验概率,则有:
其中是KL散度,因为,,所以ELBO是的下界。
于是,可以最小化负ELBO的期望代理优化编码长度期望(负ELBO是的上界)在我们的编码框架中,首先应用基于变换编码的有损图像压缩,负ELBO的期望重写为:
(4)
是的量化,由变化所得。同超先验模型,通过添加均匀噪声松弛的量化,从而有因此,。(4)中的第一、二项被视为失真损失和压缩率损失,其中只有需要被压缩。
除了有损图像压缩,进一步考虑残差压缩。对于满足的,有。因此,用替代,得到(4)负ELBO的上界,令,则有:
(5)
有损重建图像由反变换得到。因为量化添加了均匀噪声,所以第一项是0,第二项和第三项分别代表编码的比特率。
注意到(5)中没有出现失真损失,因此,我们可以嵌入任意的有损图像压缩,优化(5)以实现无损图像压缩。
2)网络设计与优化
为了实现(5)设计网络如图1(a),有损图像压缩框架使用超先验模型,边信息被提取出来建模的分布,在encoder和decoder中使用残差和注意力块,具体结构在A.1。被拓展为编码和的代价:
从中提取特征:,对进行反变换得到有损重构:,和共享decoder,只有最后一层卷积层不同。把看做给定和的特征(和有着相同的长宽,通道数为64),因为,我们可以计算,在编码时进一步考虑因果上下文,可以拓展为:
其中因果上下文被所有通道的共享,使用掩码卷积从中提取,有64条通道。代表在之前编码的残差。对于3通道RGB图像:
(8)
进一步将残差的PMF建模成为离散逻辑混合似然,使用通道自回归,重写:
(9)
如图2所示,使用子网络估计熵模型参数,包括混合权重,均值,方差,混合系数,代表第个逻辑分布,设置,t代表通道序号。的通道自回归通过修改均值实现:
为离散考虑,计算如下:
其中代表sigmoid函数,。
除了,添加一个失真项,像超先验中讨论的那样,最小化MSE loss相当于学习一个有损图像压缩器,对应残差拟合到均值0可分解高斯分布(在超先验中,如果假设则KL散度中的失真项可以看做的MSE,。然而残差真实分布与高斯分布之间可能相差甚远,因此,需要一个更复杂的熵模型以编码。当为0时的近无损压缩损失函数如下:
(13)
其中权衡失真与压缩率,当的时候,是一个无约束的隐层变量,产生最好的无损压缩效果,但不适合我们的时的近无损压缩模型。
量化残差的概率推理
接下来提出一种的可拓展近无损图像压缩的方法。对于,保持有损重建不变,量化残差为:。利用时学习到的概率模型,编码的花费随着的增加大大减少。
给定和学习到的PMF(时概率模型),量化残差的可以用如下PMF量化计算:
(14)
如图3所示,给定,(14)结合(8)和(9)可以获得。
然而,使用编码会得到不可解码的比特流,因为编码端不知道原来的残差。在不知道和因果上下文的情况下不可求。相反,我们只能使用量化残差计算PMF,因为训练(使用)和推理(使用)时的不一致,在解码的时候只能使用,如(1)b所示。
偏差校正
因为和实际的区别,压缩的效果会有所下降。
偏差校正模块如图1(a)所示,偏差校正器与残差压缩共享掩码卷积。条件熵模型与图2中的熵模型有相同结构,但是将其中的卷积层替换为条件卷积层,如图4所示。
在训练过程中,生成随机量化残差为,本论文中N=5。给定和提取的上下文,使用条件熵模型以不同的为条件来估计,并最小化:
(15)
其中代表条件熵模型的参数,被残差压缩器中的熵模型估计,可以看做和的KL散度或是相对熵的估计。因为熵模型训练时使用,,能比更好地估计真实分布。因此平均上是的下界。
使用偏差校正模块进行概率推理如图1(c)所示。对于,选择熵模型估计以编码,对于,选择条件熵模型估计并使用(14)获得以编码,
因为比有偏差的估计更准确,所以压缩性能有提升。因为计算与无关,所以最终比特流是可以解码的。
训练策略:偏差校正和有损图像压缩器、残差压缩器一起训练,但是最小化(15)只更新条件熵模型的参数,共享的掩码卷积层可以通过最小化(13)更新。这样做有三个好处:1)实现了想要的条件熵模型 2)规避松弛残差量化3)避免混合训练导致估计效果下降。
实验
性能表现
性能表现
压缩性能比较:
RD曲线比较:
消融实验
可扩展性:
偏差校正:
的讨论:
当时,选择,然而当的时候,并不合适。因为的平均PSNR时24.00dB,的范围很大,为了使用大的量化大的残差导致近无损重建图像中出现块效应,如图(8)b所示,时很模糊,如果5, 量化区间很大为11,会导致(8)d中的块效应。如(8)i=0.01,当很大时依然可以观察到小的块效应。在我们的编码中选择0.03,可以在压缩性能和视觉效果之间达到最好的trade off。
A.有损压缩网络结构
B.均匀量化可以减少熵值的证明
命题1.设,和是两个整数,有PMF ,量化如下:
(16)
其中是符号函数,是整数,量化的PMF计算如下:
(17)
则有熵值换言之,使用(16)均匀量化可以减少熵值
证明:基于熵值定义与(17)有:
其中不等式成立是因为。
命题1是残差量化可扩展压缩方法的理论基础。