研究人员找到了从静止图像和无声视频中获取音频的方法

研究人员找到了从静止图像和无声视频中获取音频的方法 Ocean 2023-09-26 10:46:28 501

易百纳社区

随着视频通话在远程和混合工作场所的时代变得越来越普遍,“静音”和“我认为你静音了”已经成为我们日常词汇的一部分。但事实证明,让自己沉默可能并不像你想象的那么安全。

东北大学电气、计算机工程和计算机科学教授Kevin Fu已经找到了一种从图片甚至静音视频中获取音频的方法。Kevin Fu教授和他的研究团队开发了一种机器学习辅助工具“Side Eye”,通过这种工具,他可以确定在拍照的房间里说话的人的性别,甚至可以确定他们说的话的确切含义。

这听起来像是科幻小说里的情节——事实也确实如此。Side Eye的灵感来自科幻剧“Fringe”的一集,剧中的主角是一群为FBI工作的边缘科学调查人员,他们从一块融化的玻璃中提取音频。

当这一集播出时,《极客之穴》的一位评论家称其为“荒谬的伪科学技术”。Kevin Fu不同意。

“我当时想,‘我打赌我们能做到,’”Kevin Fu说。“我的实验室专门研究不可能的事情。我们通常期望别人对我们所做的任何事情的第一反应都是‘你不能这么做’,然后我们会说,‘好吧,我们已经做到了。’”

Side Eye利用了图像稳定技术,该技术现在几乎是大多数手机摄像头的标准配置。为了确保抖动的手不会造成模糊的照片,相机有小弹簧,可以将镜头悬浮在液体中。然后,电磁铁和传感器向相等和相反的方向推动镜头,以减少相机抖动。

然而,Kevin Fu说,每当有人在镜头附近说话时,就会引起弹簧的微小振动,并使光线稍微弯曲。光线的角度变化几乎难以察觉——“除非你在寻找它,”Kevin Fu说。

通常情况下,很难从这些微观振动中提取出声波频率。但Kevin Fu说,如今大多数手机相机使用的一种摄影方法——滚动快门,实际上让实现不可能的事情变得更容易。

Kevin Fu说:“如今,相机降低成本的基本方式是,它们不会同时扫描图像的所有像素,而是一次扫描一行。(这种情况)在一张照片中发生了数十万次。这基本上意味着你能够将你能获得的频率信息放大一千倍以上,基本上就是音频的粒度。”

只要有一点点光线,Side Eye就会工作,尽管它能获得的图像越多越好。Kevin Fu说,即使是一张指向天花板的照片也能让Side Eye发挥作用。

Kevin Fu说:“如果你想知道我是说是还是不说,你可以训练“Side Eye”观察人们说是和否,然后观察图案,当我稍后得到图像时,你会非常自信地知道有人说是还是不是。”

“侧目”甚至可以识别出确切的说话人,如果它是根据那个人的声音训练的话,尽管Kevin Fu说现在还不那么准确。

从网络安全的角度来看,Side Eye是具有威胁性的,人们和网络安全专家都应该意识到这一点。然而,Kevin Fu表示,Side Eye最有趣的应用可能是为律师和其他刑事法律系统工作人员提供一种新的数字证据形式。

Kevin Fu说:“也许有不在场证明,有人想证明有人在场或不在场。如果你有一个经过验证的视频,带有已知的时间戳,你可以使用这种技术来确认。如果你听到了这个人的声音,他们很可能就在那里。”

声明:本文内容由易百纳平台入驻作者撰写,文章观点仅代表作者本人,不代表易百纳立场。如有内容侵权或者其他问题,请联系本站进行删除。
Ocean
红包 点赞 收藏 评论 打赏
评论
0个
内容存在敏感词
手气红包
    易百纳技术社区暂无数据
相关专栏
置顶时间设置
结束时间
删除原因
  • 广告/SPAM
  • 恶意灌水
  • 违规内容
  • 文不对题
  • 重复发帖
打赏作者
易百纳技术社区
Ocean
您的支持将鼓励我继续创作!
打赏金额:
¥1易百纳技术社区
¥5易百纳技术社区
¥10易百纳技术社区
¥50易百纳技术社区
¥100易百纳技术社区
支付方式:
微信支付
支付宝支付
易百纳技术社区微信支付
易百纳技术社区
打赏成功!

感谢您的打赏,如若您也想被打赏,可前往 发表专栏 哦~

举报反馈

举报类型

  • 内容涉黄/赌/毒
  • 内容侵权/抄袭
  • 政治相关
  • 涉嫌广告
  • 侮辱谩骂
  • 其他

详细说明

审核成功

发布时间设置
发布时间:
是否关联周任务-专栏模块

审核失败

失败原因
备注
拼手气红包 红包规则
祝福语
恭喜发财,大吉大利!
红包金额
红包最小金额不能低于5元
红包数量
红包数量范围10~50个
余额支付
当前余额:
可前往问答、专栏板块获取收益 去获取
取 消 确 定

小包子的红包

恭喜发财,大吉大利

已领取20/40,共1.6元 红包规则

    易百纳技术社区