ACTalker:港科大联合腾讯清华推出,多模态驱动的说话人视频生成神器

本文涉及的产品
视觉智能开放平台,视频通用资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像通用资源包5000点
简介: ACTalker是由香港科技大学联合腾讯、清华大学研发的端到端视频扩散框架,采用并行Mamba结构和多信号控制技术,能生成高度逼真的说话人头部视频。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎬 "虚拟主播要失业?港科大开源视频核弹:音频+表情双控,嘴型同步误差碾压SOTA"

大家好,我是蚝油菜花。当同行还在为AI口型不同步焦头烂额时,这个中国团队已经让视频生成进入「声情并茂」的新纪元!

你是否经历过这些AI翻车现场:

  • 👄 虚拟主播的嘴型永远慢半拍,像在看劣质译制片
  • 🎭 表情驱动像恐怖谷实验,微笑时嘴角抽搐
  • 🎮 游戏NPC说话时,面部肌肉群各自为政...

今天要解剖的 ACTalker ,正在重写视频生成规则!这个由港科大×腾讯×清华打造的多模态引擎,用三大黑科技炸穿次元壁:

  • 并行Mamba架构:音频/表情信号分控不同面部区域,互不打架
  • 门控魔术师:训练时随机开关信号通道,推理时自由组合
  • 时空协调大师:状态空间建模确保每个微表情都自然流畅

已有团队用它1小时生成虚拟主播全季度素材,文末附《多模态控制极简手册》——你的摄像头准备好被AI接管了吗?

🚀 快速阅读

ACTalker是一个基于视频扩散模型的端到端说话人视频生成框架。

  1. 功能:支持音频/表情等多信号独立或组合控制,生成高度同步的说话人视频
  2. 技术:采用并行Mamba结构+门控机制,实现多模态信号的无冲突融合

ACTalker 是什么

ACTalker.jpg

ACTalker是由香港科技大学联合腾讯和清华大学研发的端到端视频扩散框架,专门用于生成逼真的说话人头部视频。该框架创新性地采用并行Mamba结构,通过多分支处理不同驱动信号,实现了对面部区域的精准控制。

在技术指标方面,ACTalker在CelebV-HQ数据集上取得了Sync-C分数5.317、Sync-D分数7.869的优秀表现,FVD-Inc分数为232.374,证明了其在音频同步和视频质量方面的卓越性能。这些成绩使其成为当前说话人视频生成领域的标杆性解决方案。

ACTalker 的主要功能

  • 多信号控制:支持音频、表情等多种驱动信号的独立或组合使用,灵活适应不同应用场景
  • 高质量生成:通过Mamba结构实现跨时空维度的特征标记操控,确保视频自然流畅
  • 动态门控:训练时采用随机门控策略,推理时可手动调整各信号通道的开启状态

ACTalker 的技术原理

ACTalker-framework.png

  • 并行Mamba结构:多个分支分别处理不同驱动信号,实现面部区域的独立控制
  • 门控机制:动态调整各模态信号的影响权重,支持单/多信号灵活切换
  • 掩码丢弃策略:训练时随机丢弃无关特征标记,增强信号控制的有效性
  • 状态空间建模:确保视频在时间和空间维度上的动作自然协调

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
2月前
|
存储 编解码 监控
针对3-15分钟视频的抽帧策略:让Qwen2.5 VL 32B理解视频内容
针对3-15分钟视频,提出高效抽帧策略:通过每5-10秒定间隔或关键帧检测方法,提取30-100帧关键图像,结合时间均匀采样与运动变化捕捉,降低冗余,提升Qwen2.5 VL 32B对视频内容的理解效率与准确性。
|
4月前
|
人工智能 弹性计算 API
再不玩通义 VACE 模型你就过时了!一个模型搞定所有视频任务
介绍通义的开源模型在 ecs 或 acs 场景如何一键部署和使用,如何解决不同视频生成场景的问题。
|
4月前
|
人工智能 弹性计算 JSON
再不玩通义VACE模型你就过时了!一个模型搞定所有视频任务
阿里巴巴开源通义万相Wan2.1-VACE,业界功能最全的视频生成与编辑模型,支持文生视频、图像参考生成、视频重绘、局部编辑、背景延展等,统一模型实现多任务自由组合,轻量版本消费级显卡即可运行。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
414 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
6月前
|
人工智能 自然语言处理 算法
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
524 0
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
|
7月前
|
人工智能 算法 API
多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!
上海人工智能实验室开源的InternVL3系列多模态大语言模型,通过原生多模态预训练方法实现文本、图像、视频的统一处理,支持从1B到78B共7种参数规模。
1034 6
多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!
|
3月前
|
编解码 自然语言处理
通义万相开源14B数字人Wan2.2-S2V!影视级音频驱动视频生成,助力专业内容创作
今天,通义万相的视频生成模型又开源了!本次开源Wan2.2-S2V-14B,是一款音频驱动的视频生成模型,可生成影视级质感的高质量视频。
789 29
|
5月前
|
机器学习/深度学习 人工智能 算法
通义OmniAudio大模型,让 AI 看懂 360° 视频,并“听”出对应的空间音频
OmniAudio 是一项突破性的空间音频生成技术,能够直接从 360° 视频生成 FOA(First-order Ambisonics)空间音频,为虚拟现实和沉浸式娱乐带来全新可能。通过自监督 coarse-to-fine 预训练和双分支视频表示微调,OmniAudio 在非空间音频质量和空间定位准确性上显著优于现有方法。项目包含超过 103,000 个视频片段的 Sphere360 数据集,支持高质量的模型训练与评估。代码、数据及论文均已开源,助力沉浸式体验技术发展。
638 62
|
6月前
|
人工智能 API 开发者
用Qwen3+MCPs实现AI自动发布小红书笔记!支持图文和视频
魔搭自动发布小红书MCP,是魔搭开发者小伙伴实现的小红书笔记自动发布器,可以通过这个MCP自动完成小红书标题、内容和图片的发布。
2119 41
|
6月前
|
人工智能 编解码 搜索推荐
通义万相新模型开源,首尾帧图一键生成特效视频!
通义万相首尾帧生视频14B模型正式开源,作为首个百亿级参数规模的开源模型,可依据用户提供的开始与结束图片生成720p高清衔接视频,满足延时摄影、变身等定制化需求。用户上传两张图片或输入提示词即可完成复杂视频生成任务,支持运镜控制和特效变化。该模型基于Wan2.1架构改进,训练数据专门构建,确保高分辨率和流畅性。
535 21

热门文章

最新文章