基于视觉变压器的人脸识别框架

基于视觉变压器的人脸识别框架 万万没想到 2023-01-19 00:00:00 1164

人脸识别工具是计算模型,可以识别图像中的特定人物,以及闭路电视或视频片段。这些工具已经在广泛的现实环境中使用,例如协助执法和边境管制人员进行刑事调查和监视工作,以及用于身份验证和生物识别应用。虽然大多数现有模型的表现都非常好,但仍有很大的改进空间。

伦敦玛丽皇后大学的研究人员最近创建了一个新的、有前景的人脸识别架构。这种架构在arXiv上预先发表的一篇论文中提出,它基于一种从图像中提取面部特征的策略,该策略与迄今为止提出的大多数图像不同。

“使用卷积神经网络(CNN)和基于利润的损失的整体方法主导了面部识别的研究,”进行这项研究的两位研究人员Zhonglin Sun和Georgios Tzimiropoulos表示。

“在这项工作中,我们从两个方面出发:(a)我们使用Vision Transformer作为训练非常强大的人脸识别基线的架构,简称为fViT,它已经超越了大多数最先进的人脸识别方法。(b)其次,我们利用变压器的固有属性来处理从不规则网格中提取的信息(视觉标记),以设计一种让人联想到基于部分的人脸识别方法的人脸识别管道。

最普遍的人脸识别方法基于CNN,这是一类人工神经网络(CNN),可以自主学习在图像中查找模式,例如识别特定的物体或人。虽然其中一些方法取得了非常好的性能,但最近的工作突出了另一类人脸识别算法的潜力,称为视觉变压器(ViTs)。

与通常分析整个图像的CNN相比,ViT将图像拆分为特定大小的块,然后向这些补丁添加嵌入。然后将生成的向量序列馈送到标准转换器,这是一种深度学习模型,可以对正在分析的数据的不同部分进行差异加权。

“与CNN相反,ViT实际上可以在从不规则网格中提取的补丁上运行,并且不需要用于卷积的均匀间隔的采样网格,”研究人员在他们的论文中解释说。“由于人脸是由部分(例如,眼睛,鼻子,嘴唇)组成的结构化对象,并且受到深度学习之前基于部分的面部识别的开创性工作的启发,我们建议将ViT应用于代表面部部位的贴片。

由Sun和Tzimiropoulos创建的视觉变压器架构,被称为fViT部分,由轻量级网络和视觉变压器组成。网络预测面部特征点(例如,鼻子、嘴巴等)的坐标,而转换器分析包含预测地标的斑块。

研究人员使用两个众所周知的数据集训练了不同的人脸变压器,即包含 93,431 人图像的 MS1MV3 和包含 310 万张图像和 8,600 个身份的 VGGFace2。随后,他们进行了一系列测试来评估他们的模型,还改变了他们的一些特征来测试这对他们的性能有何影响。

他们的架构在其测试的所有数据集上都实现了惊人的准确性,可与许多其他最先进的人脸识别模型相媲美。此外,他们的模型似乎在没有经过专门训练的情况下成功地描绘了面部特征。

未来,这项最近的研究可能会激发其他基于视觉转换器的人脸识别模型的开发。此外,研究人员的架构可以在应用程序或软件工具中实现,这些应用程序或软件工具可以从对不同人脸特征的选择性分析中受益。

声明:本文内容由易百纳平台入驻作者撰写,文章观点仅代表作者本人,不代表易百纳立场。如有内容侵权或者其他问题,请联系本站进行删除。
红包 点赞 收藏 评论 打赏
评论
0个
内容存在敏感词
手气红包
    易百纳技术社区暂无数据
相关专栏
置顶时间设置
结束时间
删除原因
  • 广告/SPAM
  • 恶意灌水
  • 违规内容
  • 文不对题
  • 重复发帖
打赏作者
易百纳技术社区
万万没想到
您的支持将鼓励我继续创作!
打赏金额:
¥1易百纳技术社区
¥5易百纳技术社区
¥10易百纳技术社区
¥50易百纳技术社区
¥100易百纳技术社区
支付方式:
微信支付
支付宝支付
易百纳技术社区微信支付
易百纳技术社区
打赏成功!

感谢您的打赏,如若您也想被打赏,可前往 发表专栏 哦~

举报反馈

举报类型

  • 内容涉黄/赌/毒
  • 内容侵权/抄袭
  • 政治相关
  • 涉嫌广告
  • 侮辱谩骂
  • 其他

详细说明

审核成功

发布时间设置
发布时间:
是否关联周任务-专栏模块

审核失败

失败原因
备注
拼手气红包 红包规则
祝福语
恭喜发财,大吉大利!
红包金额
红包最小金额不能低于5元
红包数量
红包数量范围10~50个
余额支付
当前余额:
可前往问答、专栏板块获取收益 去获取
取 消 确 定

小包子的红包

恭喜发财,大吉大利

已领取20/40,共1.6元 红包规则

    易百纳技术社区