PSCC-Net

PSCC-Net: Progressive Spatio-Channel Correlation Network for Image Manipulation Detection and Localization

X. Liu, Y. Liu, J. Chen, and X. Liu, “PSCC-Net: Progressive Spatio-Channel Correlation Network for Image Manipulation Detection and Localization,” Ieee T Circ Syst Vid, vol. PP, no. 99, pp. 1–1, 2022, doi: 10.1109/tcsvt.2022.3189545.

文章提出了一个渐进式的空间频道相关网络，主要分为两个部分，一个是从上到下的路径，使用HRNet用来提取输入图片的局部和全局特征；以及一个从下到上的路径用来检测输入的图片是否有被操纵，并从不同的尺度估计篡改的掩码图，每个掩码都会作为一个下一个估计的先验，同时一个空间通道相关模块（spatial-channel correlation module, SCCM）聚合了局部特征之间的全局上下文，用来捕获空间和通道相关性，来服务特征整体线索，使得网络能够应对广泛的篡改攻击。

介绍

通常来说，图像篡改内容独立和内容不独立两种过程，前面的包括想image splicing，copy move，removal；而后面的包括全局的修改，像是光照，对比对，锐化，噪声，图像压缩，它们不怎么创造新的误解的信息，但是可以很好的隐藏一些篡改区域和原始图片之间的差异。一些提出的方法也从针对单一的篡改类型到更通用的多种篡改的类型。但是这些方法依然存在以下三个问题：

尺度的多变：当检测不同大小的篡改区域的时候往往会遇到苦难，也忽视了尺度变化的重要性。
图像的相关性：以前的方法忽视了图像空间的相关性，只是天真的学习从篡改图像到篡改掩码的映射容易造成对某种特定篡改类型的过拟合。
检测：大部分的工作都会假设图片是存在篡改的，这样很容易导致一些误报，让检测结果不可信。

方法

网络结构

自上而下的路径
为了解决常见的之前的使用传统encoder decoder结构或者非池化的结构来提取特征，导致的对不同尺度特征的忽略，所以选用了HRNet。用HRNet有两方面的好处，首先就是，从不同尺度提取道德特征计算是并行的，不同尺度之间的紧密联系可以实现有效的信息交换，有利于处理尺度变化；其次，由于每个尺度都进行了局部和全局特征融合，因此每个特征都包含足够的信息来预测相应尺度上的篡改掩码。

自下而上的路径

将前面得到的四个特征和对应的mask，从上到下得到的是Feature1 F1, F2, F3, F4, 然后对应的Mask1 M1, M2, M3, M4, M4就会直接等于把F4丢到SCCM里面得到的，而自下而上，M3就需要先和之前尺度的上采样的mask做一个关联，用于特征调制，然后再丢到sccm里面得到mask。

mask4, z4 = self.getmask4(s4)
mask4U = F.interpolate(mask4, size=s3.size()[2:], mode='bilinear', align_corners=True)

s3 = s3 * mask4U
mask3, z3 = self.getmask3(s3)
mask3U = F.interpolate(mask3, size=s2.size()[2:], mode='bilinear', align_corners=True)

s2 = s2 * mask3U
mask2, z2 = self.getmask2(s2)
mask2U = F.interpolate(mask2, size=s1.size()[2:], mode='bilinear', align_corners=True)

s1 = s1 * mask2U
mask1, z1 = self.getmask1(s1)

return mask1, mask2, mask3, mask4

空间通道相关模块

损失函数

BCE: binary cross entropy

训练数据合成

实验

测试集和微调

四个标准的测试集，Columbia，Coverage，CASIA，NIST16；以及一个真实世界的数据集IMD20.
大概都是依照之前的方法，对测试用的数据集，再进一步划分为用来微调的训练集，和测试。
例如，Coverage有100张图片，其中75张用来训练，25张用来测试；CASIA，则是5123张来自V2.0的图片用来训练，921张来自V1.0的用来测试。NIST16有564张图片，404张用来训练，160张用来测试；IMD20有2010张图片。

评价指标

Pixel-level的AUC(Area Under Curve)以及F1-score。

细节

自上而下的网络有2百万参数，自下而上的网络有1.6百万个参数。（相比MantraNet, SPAN的参数还是少了很多）
在1080Ti上训练的，backbone是ImageNet的预训练模型。
优化过程使用Adam，初始的学习率是0.0002 2e-4, batch-size是10；学习率是每5个epochs减半，总共训练25个epochs。

在定位上的比较

比较的方法，J-LSTM，H-LSTM，RGB-N，ManTra-Net，and SPAN.
用了两个模型来比较，一个是pre-trained model，这个预训练模型在合成数据集上进行训练，然后在完整的测试数据集上进行评估，这主要是要体现泛化能力强。而另一个是fine-tuned模型，微调模型是进一步对测试数据集进行分割出一部分的训练集来进行微调训练，再用剩下的测试集来进行评估，这就是研究当domain差异缓解的时候的定位表现。
pre-trained model的结果
Fine-tuned model的结果

在检测上的比较

GitHub

https://github.com/proteus1991/PSCC-Net

PreviousIF-OSN NextSATFL

Last updated 2 years ago

hashtag介绍

hashtag相关工作

hashtag方法

hashtag网络结构

hashtag空间通道相关模块

hashtag损失函数

hashtag训练数据合成

hashtag实验

hashtag测试集和微调

hashtag评价指标

hashtag细节

hashtag在定位上的比较

hashtag在检测上的比较

hashtagGitHub

介绍

相关工作

方法