在我们的最新文章中,我们在Rask AI 的机器学习主管Dima Vypirailenko 的指导下,深入了解了令人兴奋的唇部同步技术。我们将带您走进技术卓越中心 Brask ML 实验室的幕后,亲眼目睹这一创新的人工智能工具如何在内容创作和发行领域掀起波澜。我们的团队包括世界一流的 ML 工程师和视觉特效合成艺术家,他们不仅在适应未来,我们还在创造未来。
与我们一起探索这项技术如何改变创意产业、降低成本并帮助创作者接触世界各地的受众。
什么是唇音同步技术?
视频本地化的主要挑战之一是嘴唇的不自然运动。唇部同步技术旨在帮助唇部动作与多语言音轨有效同步。
正如我们在最新文章中了解到的那样,唇语同步技术要复杂得多,不仅要掌握好时间,还需要掌握好嘴部动作。所有说出的单词都会对说话者的面部产生影响,比如 "O "显然会使嘴部呈现椭圆形,因此不会是 "M",这就给配音过程增加了更多的复杂性。
推出质量更好的新型唇语同步模式!
我们的 ML 团队决定增强现有的唇部同步模型。做出这一决定的原因是什么?与测试版相比,这个版本有哪些新内容?
为加强该模型做出了重大努力,包括
- 提高准确性:我们改进了人工智能算法,以更好地分析和匹配口语中的语音细节,从而使唇部动作更加准确,并与多种语言的音频紧密同步。
- 增强自然度: 通过整合更先进的动作捕捉数据和改进机器学习技术,我们大大提高了唇部动作的自然度,使角色的语言显得更加流畅和逼真。
- 提高速度和效率:我们对模型进行了优化,在不影响质量的前提下加快了视频处理速度,从而缩短了需要大规模本地化的项目的周转时间。
- 纳入用户反馈:我们积极收集测试版用户的反馈意见,并将他们的见解纳入开发流程,以解决具体问题,提高整体用户满意度。
我们的人工智能模型究竟是如何将唇部动作与翻译音频同步的?
迪马"我们的人工智能模型的工作原理是将翻译音频信息与画面中人物的面部信息相结合,然后将这些信息合并到最终输出中。这种整合可确保唇部动作与翻译语音准确同步,从而提供无缝的观看体验。
哪些独特功能使 Premium Lip-Sync 成为高品质内容的理想选择?
迪马"Premium Lip-sync 是专为处理高质量内容而设计的,具有多扬声器功能和高分辨率支持等独特功能。它可以处理高达2K 分辨率的视频,确保视觉质量不受影响。此外,多扬声器功能还能在同一视频中的不同扬声器之间实现精确的唇语同步,对于涉及多个角色或扬声器的复杂制作非常有效。这些功能使 Premium Lipsync 成为旨在制作专业级内容的创作者的首选。
什么是多扬声器唇语同步功能?
多发言人唇语同步功能旨在准确同步多人视频中的唇部动作和口语音频。这项先进的技术能识别和区分单帧画面中的多张面孔,确保每个人的唇部动作都能根据他们的口语正确动画化。
多扬声器唇语同步的工作原理
- 帧内人脸识别: 该功能可初步识别视频帧中的所有人脸,无论其数量多少。它能识别每个人,这对准确的唇语同步至关重要。
- 音频匹配: 在视频播放过程中,该技术会将音轨与说话的人进行特定匹配。这种精确的匹配过程可确保语音和嘴唇动作同步。
- 唇部动作同步: 一旦识别出说话的人,唇部同步功能就会只为说话的人重新绘制唇部动作。画面中不说话的人的唇部动作不会改变,在整个视频中保持自然状态。这种同步只适用于正在说话的人,因此即使在屏幕外有声音或场景中有多张面孔的情况下也能有效实现同步。
- 处理嘴唇的静态图像: 有趣的是,如果视频画面中出现嘴唇的静态图像,这项技术还能在这些图像上重新绘制嘴唇的动作,显示了它的多功能性。
在有多个发言人或复杂视频设置的场景中,这种多发言人唇部同步功能可确保只有说话者的嘴唇根据音频移动,从而增强真实感和观众的参与度。这种有针对性的方法有助于将注意力集中在积极发言的人身上,并保持视频中群体互动的自然动态。
您可以用任何语言制作一个视频,也可以用多种语言制作数百个个性化视频,介绍各种优惠活动。这种多功能性彻底改变了营销人员与全球不同受众接触的方式,增强了宣传内容的影响力和覆盖面。
在新的高级唇语同步中,如何在质量和处理速度之间取得平衡?
迪马"在 Premium Lipsync 中平衡高质量与快速处理速度是一项挑战,但我们在优化模型推理方面取得了长足进步。这种优化使我们能够以适当的速度输出最佳质量。
在训练模型的过程中,有没有遇到什么有趣的缺陷或意外?
此外,处理嘴部周围的咬合也被证明是相当困难的。这些元素要求我们在唇部同步技术中仔细关注细节和复杂的建模,以实现逼真和准确的表现。
在处理视频资料时,ML 团队如何确保用户数据的隐私和保护?
迪玛 我们的人工智能团队非常重视用户数据隐私和保护。对于 Lipsync 模型,我们不使用客户数据进行训练,从而消除了任何身份盗用的风险。我们完全依赖带有适当许可证的开源数据来训练我们的模型。此外,该模型对每个用户都以独立实例的形式运行,确保最终视频只传送给特定用户,防止任何数据纠缠。
我们的核心是致力于增强创作者的能力,确保在内容创作中负责任地使用人工智能,并注重法律权利和道德透明度。我们保证,未经明确许可,绝不会使用您的视频、照片、声音和肖像,确保您的个人数据和创意资产得到保护。
我们是内容出处和真实性联盟 (C2PA) 和内容真实性倡议 (The Content Authenticity Initiative) 的成员,这体现了我们在数字时代对内容完整性和真实性的承诺。此外,我们的创始人兼首席执行官玛丽亚-奇米尔(Maria Chmir)被列入人工智能道德女性(Women in AI Ethics™)名录,彰显了我们在人工智能道德实践方面的领导地位。
唇语同步技术的未来发展前景如何?是否有特别令您兴奋的领域?
迪马 我们相信,我们的唇语同步技术可以作为进一步开发数字头像的基础。在我们的设想中,未来任何人都可以创建和本地化内容,而无需承担视频制作成本。
在短期内,即在未来两个月内,我们将致力于提高模型的性能和质量。我们的目标是确保 4K 视频的流畅运行,并改进翻译成亚洲语言的视频的功能。这些进步至关重要,因为我们的目标是扩大我们技术的可访问性和可用性,为数字内容创作中的创新应用铺平道路!请试用我们增强的唇音同步功能,并将您对该功能的反馈意见发送给我们。
常见问题
Lip-sync 适用于 Creator Pro、Archive Pro、Business 和 Enterprise 计划。
生成一分钟的 Lip-sync 相当于从您的总分钟数余额中扣除一分钟。
和为视频配音一样,也会扣除 Lip-sync 分钟。Lip-sync 与配音分开收费。例如,将 1 分钟的视频翻译成 1 种语言并进行唇音同步,需要 2 分钟。 在生成唇音同步之前,您可以免费测试 1 分钟,以评估技术质量。
唇语同步生成的速度取决于视频中发言人的数量、视频的持续时间、质量和大小。
例如,以下是不同视频的大致唇音同步生成速度:
只有一名发言者的视频
- 4 分钟视频 1080p ≈ 29 分钟
- 10 分钟 1080p ≈ 2 小时 10 分钟
- 10 分钟 4K 视频 ≈ 8 小时
有 3 位发言人的视频:
- 10 分钟 1080p ≈ 5 小时 20 分钟
- 通过 YouTube、Google Drive 的链接上传视频,或直接从设备上传文件。选择目标语言并点击翻译按钮。
- 在Rask AI 中通过 "配音视频 "按钮为视频添加配音。
- 要检查视频是否与 Lip-sync 兼容,请单击 "Lip-sync 检查 "按钮。
- 如果兼容,请点击 "唇语同步 "按钮。
- 接下来,选择视频中需要的面孔数量--"1 "或 "2+",然后点击 "开始唇语同步"。需要注意的是,这是关于面孔的数量,而不是扬声器的数量。