谷歌用AI从嘈杂环境中提取独立音轨:或存隐私担忧

谷歌AI从嘈杂环境中提取独立音轨:脱口秀测试

北京时间4月16日早间消息,谷歌研究人员开发了一种深度学习系统,可以帮助电脑在嘈杂环境中更好地识别和区分一个人的声音。

本周在谷歌研究博客中发布的文章显示,该公司的一个内部团队试图让人工智能(AI)像人类的大脑一样,可以主动关注一个声源,同时过滤其他声源——就像你在聚会上跟朋友对话时的做法。

谷歌的方法使用了一个视听模型,使之可以集中精力区分一段视频中的声音。该公司还发布了多段YouTube视频,演示这项技术的实际效果。

谷歌表示,这项技术可以适用于单音轨视频,而且可以通过算法分离出视频中不同人的音频内容,也可以让用户手动选取视频中的人脸,专门收听此人的声音。

谷歌表示,视觉元素是关键,因为这项技术会关注一个人的嘴唇运动,从而更好地判断某个时点应该关注哪段声音,并为一段较长的视频创造更精确的独立音轨。

谷歌研究人员通过收集10万段YouTube“演讲视频”开发了这个模型,总共提取了大约2000小时的内容,然后将这些音轨混合后,添加上人工背景噪音。

谷歌之后训练该技术通过观察每一格视频中的人脸和视频音轨的频谱图,把混合后的音频进行分割。这套系统可以区分哪个声源在特定时间内属于哪张脸,并为每个人制作一段独立的音轨。

谷歌认为,隐藏式字幕系统会成为该系统的一大应用领域,他们还在设想更广泛的应用方向,而且还在探索更多的机会,希望将其整合到各种谷歌产品中。例如,如果把它加入到Google Home智能音箱中,便可区分出不同用户发出的指令。

不过,这个模型需要配合视频才能更好地发挥作用,所以可能更适合亚马逊Echo Show。谷歌今年早些时候面向Echo Show这样的智能显示器开放了谷歌助手,但该公司本身尚未推出这样的产品。

但这项技术可能也会引发隐私担忧。虽然该技术的实际效果远没有视频演示得那么好,但经过一些细微调整,的确有可能成为强大的监听和监视工具。

(责任编辑:冬天的宇)

分享到:

更多
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
  • 微笑/wx
  • 撇嘴/pz
  • 抓狂/zk
  • 流汗/lh
  • 大兵/db
  • 奋斗/fd
  • 疑问/yw
  • 晕/y
  • 偷笑/wx
  • 可爱/ka
  • 傲慢/am
  • 惊恐/jk
用户名: 验证码:点击我更换图片
资料下载专区
图文资讯

英国官员:让华为参与英国5G建设风险可控

英国官员:让华为参与英国5G建设风险可控

2月21日,英国金融时报报道称,在布鲁塞尔发表的一次演讲中,英国信号情报机构政府通...[详细]

西媒:以色列打造网络安全“硅谷”

西媒:以色列打造网络安全“硅谷”

2月13日报道 西媒称,凭借每年超过10亿美元的企业投资,以色列已经成为全球网络安全领...[详细]

俄罗斯力推脱离互联网计划 确保应急状态下

俄罗斯力推脱离互联网计划 确保应急状态下网络安全

俄罗斯新闻机构 RosBiznesKonsalting(RBK)上周报道称:作为计划实验的一部分,当局正...[详细]

GSMA呼吁欧洲守住网络安全和网络基建供应竞

GSMA呼吁欧洲守住网络安全和网络基建供应竞争力

5G将改变欧洲公民的生活和工作方式。5G作为现有4G网络的补充,与之协同工作将比以往更...[详细]

涉嫌窃取近千政界人士信息 德国20岁黑客遭

涉嫌窃取近千政界人士信息 德国20岁黑客遭逮捕

涉嫌窃取德国近千政界人士信息的黑客落网 政府拟修法加强网络安全 德国当局8日宣布,...[详细]

返回首页 返回顶部