SF
探索云原生
探索云原生
注册登录
关注博客
注册登录
主页
关于
RSS
大模型微调基本概念指北
探索云原生
1 月 16 日
阅读 10 分钟
253
本文主要分享一下大模型微调相关的基本概念,包括大模型(GPT)训练流程、微调(SFT)方法&分类&框架&最佳实践、强化学习(RLHF),最后则是分享了如何训练垂直领域大模型。
基于 Admission Webhook 实现 Pod DNSConfig 自动注入
探索云原生
1 月 9 日
阅读 12 分钟
392
本文主要分享如何使用 基于 Admission Webhook 实现自动修改 Pod DNSConfig,使其优先使用 NodeLocalDNS 。
使用 NodeLocalDNS 提升集群 DNS 性能和可靠性
探索云原生
1 月 6 日
阅读 15 分钟
258
本文主要分享如何使用 NodeLocal DNSCache 来提升集群中的 DNS 性能以及可靠性,包括部署、使用配置以及原理分析,最终通过压测表明使用后带来了高达 50% 的性能提升。
在 K8S 中创建 Pod 是如何使用到 GPU 的: nvidia device plugin 源码分析
探索云原生
2024-12-19
阅读 29 分钟
295
本文主要分析了在 K8s 中创建一个 Pod 并申请 GPU 资源,最终该 Pod 时怎么能够使用 GPU 的,具体的实现原理,以及 device plugin、nvidia-container-toolkit 相关源码分析。<!--more-->
自定义资源支持:K8s Device Plugin 从原理到实现
探索云原生
2024-12-13
阅读 20 分钟
332
随着 AI 热度越来越高,更多的业务 Pod 需要申请 GPU 资源,GPU 环境搭建指南:如何在裸机、Docker、K8s 等环境中使用 GPU 中我们分析了如何在 k8s 环境中使用 GPU,就是靠 Device Plugin 机制,通过该机制使得 k8s 能感知到节点上的 GPU 资源,就像原生的 CPU 和 Memory 资源一样使用。
大模型推理指南:使用 vLLM 实现高效推理
探索云原生
2024-11-21
阅读 9 分钟
335
本文主要分享如何使用 vLLM 实现大模型推理服务。<!--more-->1. 概述大模型推理有多种方式比如最基础的 HuggingFace TransformersTGIvLLMTriton + TensorRT-LLM...其中,热度最高的应该就是 vLLM,性能好的同时使用也非常简单,本文就分享一下如何使用 vLLM 来启动大模型推理服务。根据 vLLM 官方博客 vLLM: Easy,...
GPU 环境搭建指南:使用 GPU Operator 加速 Kubernetes GPU 环境搭建
探索云原生
2024-11-14
阅读 28 分钟
234
本文主要分享如何使用 GPU Operator 快速搭建 Kubernetes GPU 环境。<!--more-->1. 概述上一篇文章 GPU 使用指南:如何在裸机、Docker、K8s 等环境中使用 GPU 分享了裸机、Docker 环境以及 K8s 环境中如何使用 GPU。整个流程还算比较简单,但是因为需要在节点上安装 GPU Driver、Container Toolkit 等组件,当集群...
GPU 环境搭建指南:如何在裸机、Docker、K8s 等环境中使用 GPU
探索云原生
2024-11-07
阅读 11 分钟
380
本文主要分享在不同环境,例如裸机、Docker 和 Kubernetes 等环境中如何使用 GPU。跳转阅读原文:GPU 环境搭建指南:如何在裸机、Docker、K8s 等环境中使用 GPU<!--more-->1. 概述仅以比较常见的 NVIDIA GPU 举例,系统为 Linux,对于其他厂家的 GPU 设备理论上流程都是一样的。省流:对于裸机环境,只需要安装对...
ArgoWorkflow教程(八)---基于 LifecycleHook 实现流水线通知提醒
探索云原生
2024-10-29
阅读 14 分钟
268
本篇介绍一下 ArgoWorkflow 中的 ExitHandler 和 LifecycleHook 功能,可以根据流水线每一步的不同状态,执行不同操作,一般用于发送通知。
ArgoWorkflow教程(七)---高效的步骤间文件共享策略
探索云原生
2024-10-22
阅读 7 分钟
251
之前我们分析了使用 artifact 实现步骤间文件共享,今天分享一下如何使用 PVC 实现高效的步骤间文件共享。<!--more-->1. 概述之前在 artifact 篇我们演示了如何使用 artifact 实现步骤间文件传递,今天介绍一种更为简单的文件传递方式:PVC 共享。artifact 毕竟是借助 S3 实现中转,效率上肯定是低于直接共享 PVC ...
ArgoWorkflow教程(六)---无缝实现步骤间参数传递
探索云原生
2024-10-10
阅读 4 分钟
348
本文主要分析同一个 Workflow 中的不同 step 之间实现参数传递,比如将上一个步骤的输出作为下一个步骤的结果进行使用(而非以文件方式传递)。
ArgoWorkflow教程(五)---Workflow 的多种触发模式:手动、定时任务与事件触发
探索云原生
2024-09-25
阅读 13 分钟
262
上一篇我们分析了argo-workflow 中的 archive,包括 流水线GC、流水线归档、日志归档等功能。本篇主要分析 Workflow 中的几种触发方式,包括手动触发、定时触发、Event 事件触发等。
ArgoWorkflow教程(四)---Workflow & 日志归档
探索云原生
2024-09-13
阅读 12 分钟
611
上一篇我们分析了argo-workflow 中的 artifact,包括 artifact-repository 配置以及 Workflow 中如何使用 artifact。本篇主要分析流水线 GC 以及归档,防止无限占用集群中 etcd 的空间。
ArgoWorkflow教程(三)---使用 Artifacts 实现步骤间文件共享
探索云原生
2024-08-29
阅读 14 分钟
377
上一篇我们分析了 Workflow、WorkflowTemplate、template 之间的关系。本篇主要分析如何在 argo-workflow 中使用 S3 存储 artifact 实现步骤之间的文件共享。
ArgoWorkflow教程(二)---快速构建流水线:Workflow & Template 概念
探索云原生
2024-08-20
阅读 19 分钟
500
上一篇我们部署了 ArgoWorkflow,并创建了一个简单的流水线做了个 Demo。本篇主要分析 ArgoWorkflow 中流水线相关的概念,了解概念后才能更好使用 ArgoWorkflow。
ArgoWorkflow 教程(一)--DevOps 另一选择?云原生 CICD 初体验
探索云原生
2024-08-06
阅读 4 分钟
7.3k
本文主要记录了如何在 k8s 上快速部署云原生的工作流引擎 ArgoWorkflow。<!--more-->ArgoWorkflow 是什么Argo Workflows 是一个开源的云原生工作流引擎,用于在 Kubernetes 上编排并行作业。Argo 工作流作为Kubernetes CRD 实现。定义工作流,其中工作流中的每个步骤都是一个容器。将多步骤工作流建模为一系列任务...
从零开始写 Docker(十九)---增加 cgroup v2 支持
探索云原生
2024-07-24
阅读 9 分钟
345
本文为从零开始写 Docker 系列第十九篇,添加对 cgroup v2 的支持。<!--more-->完整代码见:[链接] 欢迎 Star推荐阅读以下文章对 docker 基本实现有一个大致认识:核心原理:深入理解 Docker 核心原理:Namespace、Cgroups 和 Rootfs基于 namespace 的视图隔离:探索 Linux Namespace:Docker 隔离的神奇背后基于 ...
Linux-Cgroup V2 初体验
探索云原生
2024-07-11
阅读 6 分钟
804
本文主要记录 Linux Cgroup V2 版本基本使用操作,包括 cpu、memory 子系统演示。<!--more-->1. 开启 Cgroup V2版本检查通过下面这条命令来查看当前系统使用的 Cgroups V1 还是 V2 {代码...} 如果输出是cgroup2fs 那就是 V2,就像这样 {代码...} 如果输出是tmpfs 那就是 V1,就像这样 {代码...} 启用 cgroup v2如...
基于 Cloudflare Workers 和 cloudflare-docker-proxy 搭建镜像加速服务
探索云原生
2024-06-24
阅读 9 分钟
3.4k
本文主要介绍了如何基于 Cloudflare Workers 和 cloudflare-docker-proxy 搭建 dockerhub、gcr、quay 等镜像加速服务。
从零开始写 Docker(十八)---容器网络实现(下):为容器插上”网线“
探索云原生
2024-06-13
阅读 19 分钟
607
本文为从零开始写 Docker 系列第十八篇,利用 linux 下的 Veth、Bridge、iptables 等等相关技术,构建容器网络模型,为容器插上”网线“。
从零开始写 Docker(十七)---容器网络实现(中):为容器插上”网线“
探索云原生
2024-06-05
阅读 21 分钟
580
本文为从零开始写 Docker 系列第十七篇,利用 linux 下的 Veth、Bridge、iptables 等等相关技术,构建容器网络模型,为容器插上”网线“。
从零开始写 Docker(十六)---容器网络实现(上):为容器插上”网线”
探索云原生
2024-05-28
阅读 20 分钟
549
本文为从零开始写 Docker 系列第十六篇,利用 linux 下的 Veth、Bridge、iptables 等等相关技术,构建容器网络模型,为容器插上”网线“。
从零开始写 Docker(十五)---实现 mydocker run -e 支持环境变量传递
探索云原生
2024-05-24
阅读 5 分钟
678
本文为从零开始写 Docker 系列第十五篇,实现 mydocker run -e, 支持在启动容器时指定环境变量,让容器内运行的程序可以使用外部传递的环境变量。
从零开始写 Docker(十四)---重构:实现容器间 rootfs 隔离
探索云原生
2024-05-10
阅读 14 分钟
361
本文为从零开始写 Docker 系列第十四篇,实现容器间的 rootfs 隔离,使得多个容器间互不影响。<!--more-->完整代码见:[链接] 欢迎 Star推荐阅读以下文章对 docker 基本实现有一个大致认识:核心原理:深入理解 Docker 核心原理:Namespace、Cgroups 和 Rootfs基于 namespace 的视图隔离:探索 Linux Namespace:D...
从零开始写 Docker(十三)---实现 mydocker rm 删除容器
探索云原生
2024-05-09
阅读 8 分钟
620
本文为从零开始写 Docker 系列第十三篇,实现类似 docker rm 的功能,使得我们能够删除容器。<!--more-->完整代码见:[链接] 欢迎 Star推荐阅读以下文章对 docker 基本实现有一个大致认识:核心原理:深入理解 Docker 核心原理:Namespace、Cgroups 和 Rootfs基于 namespace 的视图隔离:探索 Linux Namespace:Do...
从零开始写 Docker(十二)---实现 mydocker stop 停止容器
探索云原生
2024-04-25
阅读 6 分钟
247
本文为从零开始写 Docker 系列第十二篇,实现类似 docker stop 的功能,使得我们能够停止指定容器。<!--more-->完整代码见:[链接] 欢迎 Star推荐阅读以下文章对 docker 基本实现有一个大致认识:核心原理:深入理解 Docker 核心原理:Namespace、Cgroups 和 Rootfs基于 namespace 的视图隔离:探索 Linux Namespa...
从零开始写 Docker(十一)---实现 mydocker exec 进入容器内部
探索云原生
2024-04-16
阅读 11 分钟
409
本文为从零开始写 Docker 系列第十一篇,实现类似 docker exec 的功能,使得我们能够进入到指定容器内部。<!--more-->完整代码见:[链接] 欢迎 Star推荐阅读以下文章对 docker 基本实现有一个大致认识:核心原理:深入理解 Docker 核心原理:Namespace、Cgroups 和 Rootfs基于 namespace 的视图隔离:探索 Linux N...
从零开始写 Docker(十)---实现 mydocker logs 查看容器日志
探索云原生
2024-04-09
阅读 7 分钟
397
本文为从零开始写 Docker 系列第十篇,实现类似 docker logs 的功能,使得我们能够查查看容器日志。<!--more-->完整代码见:[链接] 欢迎 Star推荐阅读以下文章对 docker 基本实现有一个大致认识:核心原理:深入理解 Docker 核心原理:Namespace、Cgroups 和 Rootfs基于 namespace 的视图隔离:探索 Linux Namespa...
从零开始写 Docker(九)---实现 mydocker ps 查看运行中的容器
探索云原生
2024-03-26
阅读 13 分钟
346
本文为从零开始写 Docker 系列第九篇,实现类似 docker ps 的功能,使得我们能够查询到后台运行中的所有容器。<!--more-->完整代码见:[链接] 欢迎 Star推荐阅读以下文章对 docker 基本实现有一个大致认识:核心原理:深入理解 Docker 核心原理:Namespace、Cgroups 和 Rootfs基于 namespace 的视图隔离:探索 Lin...
从零开始写 Docker(八)---实现 mydocker run -d 支持后台运行容器
探索云原生
2024-03-21
阅读 6 分钟
457
本文为从零开始写 Docker 系列第八篇,实现类似 docker run -d 的功能,使得容器能够后台运行。<!--more-->完整代码见:[链接] 欢迎 Star推荐阅读以下文章对 docker 基本实现有一个大致认识:核心原理:深入理解 Docker 核心原理:Namespace、Cgroups 和 Rootfs基于 namespace 的视图隔离:探索 Linux Namespace:...
1
(current)
2
下一页
1
(current)
下一页