魔搭中文开源模型社区:模型即服务-GLM-130B:让每个人都能用上千亿模型(下)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 魔搭中文开源模型社区:模型即服务

除此之外,在训练初期embedding的梯度和其余层有数量级的差异,可能对损失函数缩放不利。清华大学可以通过手动调小梯度的方式平衡embedding层梯度,对稳定训练非常有帮助,对loss几乎不影响。

 

image.png

 

如上图所示,清华大学对GLM-130B的英文语言模型能力进行了评估。其中,LAMBADA是一个广泛采用的通过预测句子末尾单词,评估达模型语言能力的数据集。GLM-130B取得了80.2的优异成绩,超过了GPT-3以及SOTA PaLM 540B。

 

image.png

 

在文语言理解能力上,清华大学在大规模多任务语言理解MMLU上进行了测试,发现GLM-130B的表现与GPT-3相当,并大幅超越BLOOM-176B。随着持续训练,水平尚未收敛,并将持续提高。

 

image.png

 

在中文方面,清华大学选取了CLUE和FewCLUE两个常用数据集进行了测试,可以发现GLM-130B全面超越了ERNIE TITAN 3.0260B,并在生成式阅读理解任务上取得了巨大的提升。

 

image.png

 

除此之外,清华大学近期探索了GLM-130B的模型量化。在保留中间结果度为FP16的情况下,GLM-130B的权重可以量化到INT8而没有任何损失,甚至以非常小的精度损失可以量化到INT4。

 

在无损性能的INT8量化下,GLM-130B支持8张V100以及8张3090服务器高效。在一点点的精度损失下,用户可以在4张3090甚至8张2080 Ti上进行高效推理。

 

image.png

 

如上图所示,在T4量化在8张RTX 3090时,GLM-130B仅需5秒生成128 Token。

 

image.png

 

目前,GLM-130B已开源模型代码,大家可以免费下载。GLM-130B在英文的语言建模和少样本语言理解任务上的表现基本和GPT-3持平,且优于目前开源的OPT和BLOOM。

 

GLM-130B在中文CLUE和FewCLUE数据集上的零样本能力明显优于,具有2600亿参数的ERINE Titan 3.0。

 

除此之外,GLM-130B适配了英伟达的Faster Transformer推理库。相比于常用的Megatron框架,用户可以在一台A100上实现最高2.5倍的推理加速性能。

相关文章
|
SQL 分布式计算 大数据
大数据Hive DML-Load加载数据
大数据Hive DML-Load加载数据
288 0
|
人工智能 测试技术 API
ChatGLM3-6B:新一代开源双语对话语言模型,流畅对话与低部署门槛再升级
ChatGLM3-6B:新一代开源双语对话语言模型,流畅对话与低部署门槛再升级
ChatGLM3-6B:新一代开源双语对话语言模型,流畅对话与低部署门槛再升级
|
存储 安全 数据库
阿里云服务器计算型、通用型、内存型主要实例规格性能特点和适用场景汇总
阿里云服务器ECS计算型、通用型、内存型规格族属于独享型云服务器,在高负载不会出现计算资源争夺现象,因为每一个vCPU都对应一个Intel ® Xeon ®处理器核心的超线程,具有性能稳定且资源独享的特点。本文为大家整理汇总了阿里云服务器ECS计算型、通用型、内存型主要实例规格族具体实例规格有哪些,各个实例规格的性能特点和主要适用场景。
阿里云服务器计算型、通用型、内存型主要实例规格性能特点和适用场景汇总
|
Dubbo Java 应用服务中间件
IntelliJ IDEA & Apache Dubbo,IDEA 官方插件正式发布!
IntelliJ IDEA & Apache Dubbo,IDEA 官方插件正式发布!
1468 101
|
11月前
|
监控 前端开发 Java
Java SpringBoot –性能分析与调优
Java SpringBoot –性能分析与调优
|
算法 调度 决策智能
基于自适应遗传算法的车间调度matlab仿真,可以任意调整工件数和机器数,输出甘特图
这是一个使用MATLAB2022a实现的自适应遗传算法解决车间调度问题的程序,能调整工件数和机器数,输出甘特图和适应度收敛曲线。程序通过编码初始化、适应度函数、遗传操作(选择、交叉、变异)及自适应机制进行优化,目标如最小化完工时间。算法在迭代过程中动态调整参数,以提升搜索效率和全局优化。
|
11月前
|
人工智能 自然语言处理 定位技术
基于qwen max 的知识图谱 指令对比分析 结构 指令 领域 指令差异分析
感谢阿里开发者社区通义千问Qwen技术应用实践征文活动赠予的Qwen Max Token。本文介绍了三种知识图谱抽取模式:只给结构、给结构和领域引导、给结构、领域引导和领域few-shot样本。通过对比“只给结构”和“给结构和领域引导”两种方法,分析了它们在准确性、推理能力、数据覆盖范围和构建成本等方面的优劣。结果显示,领域引导显著提升了知识图谱的准确性和推理能力,但构建成本较高;而只给结构的方法适用于大规模通用文本的快速抽取,但精度较低。选择合适的方法应根据具体应用需求。
453 1
|
Kubernetes 负载均衡 网络协议
在K8S中,svc底层是如何实现的?
在K8S中,svc底层是如何实现的?
|
SQL 关系型数据库 数据库连接
ClickHouse(20)ClickHouse集成PostgreSQL表引擎详细解析
ClickHouse的PostgreSQL引擎允许直接查询和插入远程PostgreSQL服务器的数据。`CREATE TABLE`语句示例展示了如何定义这样的表,包括服务器信息和权限。查询在只读事务中执行,简单筛选在PostgreSQL端处理,复杂操作在ClickHouse端完成。`INSERT`通过`COPY`命令在PostgreSQL事务中进行。注意,数组类型的处理和Nullable列的行为。示例展示了如何从PostgreSQL到ClickHouse同步数据。一系列的文章详细解释了ClickHouse的各种特性和表引擎。
445 0
社区供稿 | XTuner发布LLaVA-Llama-3-8B,支持单卡推理,评测和微调
日前,XTuner 团队基于 meta 最新发布的 Llama-3-8B-Instruct 模型训练并发布了最新版多模态大模型 LLaVA-Llama-3-8B, 在多个评测数据集上取得显著提升。