幕后花絮我们的 ML 实验室

玛丽亚-茹科娃

布拉斯克文案主管

已发布

2024 年 4 月 30 日

,

16

分钟阅读

,

内部内容

在我们的最新文章中，我们在Rask AI 的机器学习主管Dima Vypirailenko 的指导下，深入了解了令人兴奋的唇部同步技术。我们将带您走进技术卓越中心 Brask ML 实验室的幕后，亲眼目睹这一创新的人工智能工具如何在内容创作和发行领域掀起波澜。我们的团队包括世界一流的 ML 工程师和视觉特效合成艺术家，他们不仅在适应未来，我们还在创造未来。

与我们一起探索这项技术如何改变创意产业、降低成本并帮助创作者接触世界各地的受众。

什么是唇音同步技术？

视频本地化的主要挑战之一是嘴唇的不自然运动。唇部同步技术旨在帮助唇部动作与多语言音轨有效同步。

正如我们在最新文章中了解到的那样，唇语同步技术要复杂得多，不仅要掌握好时间，还需要掌握好嘴部动作。所有说出的单词都会对说话者的面部产生影响，比如 "O "显然会使嘴部呈现椭圆形，因此不会是 "M"，这就给配音过程增加了更多的复杂性。

推出质量更好的新型唇语同步模式！

我们的 ML 团队决定增强现有的唇部同步模型。做出这一决定的原因是什么？与测试版相比，这个版本有哪些新内容？

迪马-维皮拉连科

Rask AI 机器学习主管

尽管我们的唇音同步效果非常出色，并赢得了媒体的广泛关注，包括电视播出和关于我们技术的采访，但当我们发布测试版唇音同步模型时，我们认识到它并不能满足所有用户群体对质量的期望。我们的主要目标是缩小这一差距，确保用户不仅能有效地本地化内容的音频部分，还能本地化视频部分。

为加强该模型做出了重大努力，包括

提高准确性：我们改进了人工智能算法，以更好地分析和匹配口语中的语音细节，从而使唇部动作更加准确，并与多种语言的音频紧密同步。
增强自然度： 通过整合更先进的动作捕捉数据和改进机器学习技术，我们大大提高了唇部动作的自然度，使角色的语言显得更加流畅和逼真。
提高速度和效率：我们对模型进行了优化，在不影响质量的前提下加快了视频处理速度，从而缩短了需要大规模本地化的项目的周转时间。
‍纳入用户反馈：我们积极收集测试版用户的反馈意见，并将他们的见解纳入开发流程，以解决具体问题，提高整体用户满意度。

我们的人工智能模型究竟是如何将唇部动作与翻译音频同步的？

迪马"我们的人工智能模型的工作原理是将翻译音频信息与画面中人物的面部信息相结合，然后将这些信息合并到最终输出中。这种整合可确保唇部动作与翻译语音准确同步，从而提供无缝的观看体验。

哪些独特功能使 Premium Lip-Sync 成为高品质内容的理想选择？

迪马"Premium Lip-sync 是专为处理高质量内容而设计的，具有多扬声器功能和高分辨率支持等独特功能。它可以处理高达2K 分辨率的视频，确保视觉质量不受影响。此外，多扬声器功能还能在同一视频中的不同扬声器之间实现精确的唇语同步，对于涉及多个角色或扬声器的复杂制作非常有效。这些功能使 Premium Lipsync 成为旨在制作专业级内容的创作者的首选。

什么是多扬声器唇语同步功能？

多发言人唇语同步功能旨在准确同步多人视频中的唇部动作和口语音频。这项先进的技术能识别和区分单帧画面中的多张面孔，确保每个人的唇部动作都能根据他们的口语正确动画化。

多扬声器唇语同步的工作原理

帧内人脸识别： 该功能可初步识别视频帧中的所有人脸，无论其数量多少。它能识别每个人，这对准确的唇语同步至关重要。
‍音频匹配： 在视频播放过程中，该技术会将音轨与说话的人进行特定匹配。这种精确的匹配过程可确保语音和嘴唇动作同步。
唇部动作同步： 一旦识别出说话的人，唇部同步功能就会只为说话的人重新绘制唇部动作。画面中不说话的人的唇部动作不会改变，在整个视频中保持自然状态。这种同步只适用于正在说话的人，因此即使在屏幕外有声音或场景中有多张面孔的情况下也能有效实现同步。
处理嘴唇的静态图像： 有趣的是，如果视频画面中出现嘴唇的静态图像，这项技术还能在这些图像上重新绘制嘴唇的动作，显示了它的多功能性。

在有多个发言人或复杂视频设置的场景中，这种多发言人唇部同步功能可确保只有说话者的嘴唇根据音频移动，从而增强真实感和观众的参与度。这种有针对性的方法有助于将注意力集中在积极发言的人身上，并保持视频中群体互动的自然动态。

您可以用任何语言制作一个视频，也可以用多种语言制作数百个个性化视频，介绍各种优惠活动。这种多功能性彻底改变了营销人员与全球不同受众接触的方式，增强了宣传内容的影响力和覆盖面。

在新的高级唇语同步中，如何在质量和处理速度之间取得平衡？

迪马"在 Premium Lipsync 中平衡高质量与快速处理速度是一项挑战，但我们在优化模型推理方面取得了长足进步。这种优化使我们能够以适当的速度输出最佳质量。

迪马-维皮拉连科

Rask AI 机器学习主管

我们只处理用户视频中的必要信息，这大大加快了模型的处理时间。通过精简模型需要分析的数据，我们既能确保效率，又能保持高质量的输出，满足专业内容创作者的需求。

在训练模型的过程中，有没有遇到什么有趣的缺陷或意外？

迪马-维皮拉连科

Rask AI 机器学习主管

是的，我们面临着一些有趣的挑战，尤其是不仅要确保嘴唇，还要确保面部毛发和牙齿看起来正确无误。就好像我们都曾获得过牙科学位一样！

此外，处理嘴部周围的咬合也被证明是相当困难的。这些元素要求我们在唇部同步技术中仔细关注细节和复杂的建模，以实现逼真和准确的表现。

在处理视频资料时，ML 团队如何确保用户数据的隐私和保护？

迪玛我们的人工智能团队非常重视用户数据隐私和保护。对于 Lipsync 模型，我们不使用客户数据进行训练，从而消除了任何身份盗用的风险。我们完全依赖带有适当许可证的开源数据来训练我们的模型。此外，该模型对每个用户都以独立实例的形式运行，确保最终视频只传送给特定用户，防止任何数据纠缠。

我们的核心是致力于增强创作者的能力，确保在内容创作中负责任地使用人工智能，并注重法律权利和道德透明度。我们保证，未经明确许可，绝不会使用您的视频、照片、声音和肖像，确保您的个人数据和创意资产得到保护。

我们是内容出处和真实性联盟 (C2PA) 和内容真实性倡议 (The Content Authenticity Initiative) 的成员，这体现了我们在数字时代对内容完整性和真实性的承诺。此外，我们的创始人兼首席执行官玛丽亚-奇米尔（Maria Chmir）被列入人工智能道德女性（Women in AI Ethics™）名录，彰显了我们在人工智能道德实践方面的领导地位。

唇语同步技术的未来发展前景如何？是否有特别令您兴奋的领域？

迪马我们相信，我们的唇语同步技术可以作为进一步开发数字头像的基础。在我们的设想中，未来任何人都可以创建和本地化内容，而无需承担视频制作成本。

在短期内，即在未来两个月内，我们将致力于提高模型的性能和质量。我们的目标是确保 4K 视频的流畅运行，并改进翻译成亚洲语言的视频的功能。这些进步至关重要，因为我们的目标是扩大我们技术的可访问性和可用性，为数字内容创作中的创新应用铺平道路！请试用我们增强的唇音同步功能，并将您对该功能的反馈意见发送给我们。

常见问题

必读