突破性融合:传统与深度学习结合,人脸检测精度飙升(论文下载)

mysmile 5个月前 (12-25) 产品中心 120 0
突破性融合:传统与深度学习结合,人脸检测精度飙升(论文下载)

传统和深度学习进行结合,较大程度提高人脸检测精度(附论文下载)

关注并星标

从此不迷路

计算机视觉研究院

突破性融合:传统与深度学习结合,人脸检测精度飙升(论文下载)突破性融合:传统与深度学习结合,人脸检测精度飙升(论文下载)

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

突破性融合:传统与深度学习结合,人脸检测精度飙升(论文下载)

论文地址:https://arxiv.org/pdf/2007.09355.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

你是否曾为人脸检测在复杂场景下的精度问题而困扰?今天,我们将带你深入探索一项经典而创新的技术,它通过巧妙融合传统方法与深度学习,实现了人脸检测精度的显著跃升,尤其在高压缩、低质量媒体中表现卓越!

01

简介

随着人脸伪造技术日益精进,社会对其恶意滥用的担忧催生了人脸伪造检测的新兴研究。当前技术生成的伪造人脸往往逼真到人眼难以辨识,尤其在压缩图像和视频中,伪造伪像与压缩误差交织,挑战巨大。我们发现,从频率视角挖掘伪造模式或许是一剂良药——频率提供了互补的洞察,能精准捕捉细微的伪造痕迹或压缩失真。为此,我们推出全新的人脸伪造检测网络F3-Net,它整合两种互补的频率感知线索:频率感知分解图像分量和局部频率统计,通过双流协同学习框架深度挖掘伪造模式。基于DCT频域变换,F3-Net在FaceForensics++数据集中全面领先,尤其在低质量媒体上优势明显,为检测领域开辟新路径。

02

背景

当前主流人脸操作算法(如DeepFake、FaceSwap等)已能隐藏多数伪造伪像,使得缺陷检测极为困难,如下图(a)所示。

突破性融合:传统与深度学习结合,人脸检测精度飙升(论文下载)

更棘手的是,当伪造人脸经过高强度压缩(如JPEG或H.264),伪造痕迹会被压缩误差掩盖,在RGB域中难以捕捉。幸运的是,频域分析揭示:与真实人脸相比,伪造人脸常呈现异常的频率分布。但如何将频率线索融入深度学习CNN模型?传统频域方法(如FFT和DCT)与CNN的移位不变性不兼容,因此需开发CNN友好的频率表示。我们引入两种频率感知伪造线索,完美适配深度卷积网络的学习机制。

一方面,通过分解图像频率信号,每个分量对应特定频带。我们发现,细微伪造伪像在高频分量中更突出(见上图b中列),这条线索对压缩伪像鲁棒,且与CNN结构兼容。

另一方面,局部频率统计作为第二线索,通过对每个局部空间补丁的频率响应进行统计,重组成多通道空间图。伪造人脸与真实人脸在局部频率统计上差异显著(见上图b右列),尽管RGB域中几乎无异。此线索同样遵循空间布局,利于CNN特征学习。由于分解分量与局部统计互补且语义相似,它们可在学习中逐步融合。

03 新框架详细分析

我们提出F3-Net框架,包含两个频率感知分支:频率感知分解(FAD)分支学习细微伪造模式,局部频率统计(LFS)分支提取高阶语义差异。两者通过交叉注意力模块(MixBlock)深度融合,促进交互。整个模型以端到端方式训练,使用交叉熵损失。

实验表明,F3-Net在低质量伪造媒体中性能大幅提升。在FaceForensics++数据集上,它全面超越现有技术。上图(c)的ROC曲线清晰证明F3-Net的优越性,尤其在压缩场景下。

突破性融合:传统与深度学习结合,人脸检测精度飙升(论文下载)

F3-Net架构涵盖三大创新:FAD用于频率感知图像分解,LFS提取局部频率统计,MixBlock实现协同特征交互。

FAD: Frequency-Aware Decomposition

突破性融合:传统与深度学习结合,人脸检测精度飙升(论文下载)

传统方法依赖手工滤波器组,难以覆盖全频域且缺乏自适应性。FAD创新地使用可学习频率滤波器,在频域自适应分割图像,逆变换后生成频率感知图像分量。这些分量经通道堆叠,输入CNN主干(如Xception),全面挖掘伪造模式。

LFS: Local Frequency Statistics

突破性融合:传统与深度学习结合,人脸检测精度飙升(论文下载)

(a)LFS提取局部频域统计:应用滑动窗口DCT,自适应收集网格统计。(b)从DCT功率谱图中提取数据。

突破性融合:传统与深度学习结合,人脸检测精度飙升(论文下载)

提出的MixBlock模块

04 实验及可视化

下表对比显示,F3-Net在低质量图片中表现卓越,验证频域检测的抗压缩优势。

突破性融合:传统与深度学习结合,人脸检测精度飙升(论文下载)突破性融合:传统与深度学习结合,人脸检测精度飙升(论文下载)

FaceForensics++低质量任务上基线(a)和F3-Net(b)的t-SNE可视化。红色为真实视频,其余颜色为不同生成数据。

突破性融合:传统与深度学习结合,人脸检测精度飙升(论文下载)

© THE END

转载请联系本公众号获得授权

突破性融合:传统与深度学习结合,人脸检测精度飙升(论文下载)

计算机视觉研究院学习群等你加入!立即扫码入群,与行业专家零距离交流,获取最新论文、实战项目与独家资源,共同探索AI视觉前沿!

ABOUT

计算机视觉研究院

计算机视觉研究院深耕深度学习领域,聚焦目标检测、跟踪、图像分割、OCR、模型量化与部署等核心方向。我们每日推送前沿算法框架,提供论文一键下载,并分享实战项目案例,致力打通技术研究与落地应用。在这里,你将体验真实场景编程,培养动手动脑习惯,加速成为AI视觉高手!

🔗

Sparse R-CNN:稀疏框架,端到端的目标检测(附源码)

相关问答

投期刊论文中使用他人人脸图像是否侵权-找法网

肖像是通过影像、雕塑、绘画等方式在一定载体上所反映的特定自然人可以被识别的外部形象。【法律分析】:若非以盈利为目的,使用他人照片制作表情通常不构成侵权。但需注意隐私与肖像权界限。

DNA转人脸,深度学习可行吗-ZOL问答

表面看,此任务旨在通过基因数据推测面部特征,计算条件概率P(人脸|DNA)。现实中极为复杂,几乎不可行。但可转换思路,利用数学工具与深度学习模型进行近似模拟,虽精度有限,却为跨领域研究提供新视角。

人脸识别真比人脑更智能吗?-ZOL问答

当前人脸识别技术虽在某些任务上超越人类,但缺乏人脑的泛化与解释能力。人类识别面孔的机制尚未完全阐明,而AI模型依赖数据驱动,在复杂场景下仍面临挑战。

对抗样本研究前景如何?-ZOL问答

高质量论文发表难度增加,顶会要求创新与实验完整性。工业界应用处于初步阶段,就业前景谨慎乐观,需结合安全与鲁棒性需求拓展。

vivoOriginOS4搭载自研大模型有何特色?-ZOL问答

今年大模型成为技术风口,其“大”特征显著。深度学习推动AI更类人,从单一人脸识别、语义处理迈向多功能整合。vivo自研模型有望提升系统智能化,优化用户体验。

有哪些常用的网站或App可以提高工作效率和学习效果?-ZOL问答

推荐GPT类工具辅助新媒体运营与论文润色;图像增强软件利用放大技术恢复细节;专业平台如GitHub、arXiv促进学习。合理利用这些资源,可大幅提升产出效率。

【肖战ao3事件】社会心理学如何看待饭圈文化?-壹心理

九零后成为饭圈文化中坚,网络时代放大追星现象。社会心理学视角下,饭圈涉及群体认同、情感投射等机制,需引导健康发展,避免极端行为。

电子信息工程对数学要求高吗?申请方

高数是理工科必修,与专业紧密相关。高考数学分数非绝对门槛,但扎实数学基础助力信号处理、算法设计等核心课程,建议提前强化。

可以撤除中国银行转账刷脸功能嘛?-ZOL问答

登录手机银行,进入安全设置—登录选项,可关闭人脸识别功能。自主管理账户安全时,需平衡便捷与风险,并确保完成必要学业任务(如论文、设计)以顺利毕业。

搜集关于各种类型的机器人资料-ZOL问答

历史悠长:1662年日本竹田近江发明自动玩偶;1738年法国瓦克逊创造机器鸭。现代机器人涵盖工业、服务、医疗等类型,资料可通过学术数据库与行业报告获取。

扫描二维码

手机扫一扫添加微信