来源:环球网
【环球网科技综合报道】4月21日消息,微软亚洲研究院近日发布了一款名为的实验性人工智能工具,它拥有将静态图像或绘画与音频文件结合,最终生成动态面孔的能力。这一技术能够根据提供的静态图像生成相应的面部表情、头部动作,甚至能匹配语音或歌曲的嘴唇动作。
图片来源:微软
研究人员在项目页面上展示了多个示例,这些视频的逼真程度足以让人误以为是真实的。然而,仔细观察后可以发现,示例中的嘴唇和头部动作略显机械化,且存在轻微的同步问题。
值得注意的是,这项技术有可能被滥用,用于轻松快速地创建镇仁的深度伪造视频。微软研究人员已经认识到这种潜在的风险,并决定在确认该技术“将被负责任地使用并符合适当规定”之前,不发布任何在线演示、API、产品或相关实施细节。
尽管研究人员强调他们的技术可以带来诸多好处,如增强教育公平、改善沟通障碍者的可及性,甚至为有需要的人提供陪伴和治疗支持,但该技术的潜在滥用风险不容忽视。目前,研究人员并未透露是否已计划采取保护措施,以防止不良行为者将其用于不正当目的,例如制作深度伪造不良内容或进行错误信息活动。
据公告中发布的论文显示,VASA-1是在VoxCeleb2数据集上进行训练的,该数据集包含从YouTube视频中提取的超过100万条名人话语。这一工具不仅适用于真实面孔的训练,还可以应用于艺术照片,如《蒙娜丽莎》等。
研究人员已将这一技术与安妮·海瑟薇病毒式传播的李尔·韦恩《狗仔队》的音频文件进行了有趣地结合,展示了其独特的魅力。然而,对于这项技术究竟能做什么,仍存在诸多疑问和关注。