为什么 K8S 必须把 containerd 的 cgroup 驱动改成 systemd？-脚本在线

首页前沿速递服务器教程网页设计教程网络编辑教程

移动端

AI智能体脚本智能办公脚本自动化游戏脚本浏览器自动化脚本服务器脚本

为什么 K8S 必须把 containerd 的 cgroup 驱动改成 systemd？

作者：互联网

2026-03-24

AI模型库

今天分享一个比较底层的原理：为什么 Kubernetes 必须把 containerd 的 cgroup 驱动改成 systemd？

现在很多人在部署K8S集群时都会执行这样一步：

containerd config default > /etc/containerd/config.toml1.

然后修改一行配置：将默认的false改为true

SystemdCgroup = true1.

但大多数教程只告诉你：必须改，不然会出问题。

却很少有人真正解释：为什么一定要改？

甚至很多集群不改也能运行，但过一段时间就开始出现各种“玄学问题”，有经验的老手可能深有体会。

接下来就来聊聊为什么一定要改。

1. 资源管理核心：cgroup

Kubernetes 能做到：Pod 限制 CPU / Memory/资源隔离/OOM 控制/Pod 驱逐（Eviction）/HPA 自动扩缩容等

底层依赖的其实只有一个东西：Linux cgroup（Control Groups）。

简单理解：

cgroup 就是 Linux 用来控制进程资源的机制
cgroup可以用于限制 CPU/内存/ IO和统计资源

容器本质就是：

进程 + namespace + cgroup1.

所以：容器资源控制 = cgroup

2. Linux 里 cgroup 有两种管理方式

在 systemd 出现之前，Linux 的 cgroup 是这样管理的：

管理方式	说明
cgroupfs	内核直接挂载管理
systemd	systemd 接管 cgroup

在现代 Linux 系统中几乎全部由 systemd 接管 cgroup。

你可以执行：

mount | grep cgroup1.

如果看到类似：

cgroup2 on /sys/fs/cgroup type cgroup21.

说明系统使用的是：cgroup v2（统一层级）。

而 systemd 就是这棵树的管理者。

3. containerd 默认不用 systemd

containerd 默认配置是：

SystemdCgroup = false1.

也就是说：containerd 不会通过 systemd 创建 cgroup，而是自己直接在/sys/fs/cgroup下面创建目录。

这就产生了一个非常严重的问题：系统有两个“管理者”。

4. 资源管理出现“两套体系”

这时系统会变成这样：

systemd
 └── kubelet
      └── Pod cgroup1.
2.
3.

而 containerd：

containerd
 └── 自己创建 container cgroup1.
2.

于是：Pod 的 cgroup 和容器的 cgroup 不在同一体系。

这会导致 Kubernetes 的资源管理完全失效。

5. 不修改会出现哪些问题？

很多生产环境遇到的“玄学问题”，其实都来自这里。

(1) Pod 明明设置了 limit，但机器内存还是被打爆

例如：

resources:
  limits:
    memory: 512Mi1.
2.
3.

但服务器内存仍然被打满。

原因是：containerd 创建的容器 cgroup 不受 kubelet 管控。

(2) 节点频繁 OOM

系统 OOM 时：

Out Of Memory Kill1.

但 Kubernetes 看不到这些信息。

原因是：systemd 统计不到 containerd 创建的 cgroup。

(3) metrics-server 监控数据异常

例如：

CPU 使用率不准
Memory 使用率异常

因为：

metrics-server -> kubelet -> systemd cgroup1.

但容器在：

containerd 自建 cgroup1.

数据来源不同。

(4) Pod 驱逐（Eviction）失效

Kubernetes 在内存不足时会驱逐 Pod：

Eviction Manager1.

但如果 container cgroup 不在 systemd 管理下：kubelet 根本找不到对应资源信息。

(5) kubelet 日志出现奇怪错误

例如：

failed to find cgroup
failed to update stats
cgroup driver mismatch1.
2.
3.

6. 为什么 Docker 时代很少遇到这个问题？

因为从 Docker 1.12 开始：

Docker 默认使用：

systemd cgroup driver1.

所以很多人过去没有踩过这个坑。

但 containerd 的默认配置仍然是：cgroupfs。

这就导致：Kubernetes + containerd 很容易踩坑。

7. Kubernetes 官方要求

Kubernetes 官方明确建议：kubelet 和 container runtime 必须使用相同的 cgroup driver。

并且在 systemd 系统上：推荐使用 systemd driver。

修改 SystemdCgroup = true 是，让 containerd 的 cgroup 归 systemd 管理。

否则 Kubernetes 的资源管理体系就会失效一半。

读到这里，有没有那么一点理解。

相关标签:

AI 大模型资讯

上一篇：Python 代码优化指南：十个让代码更优雅的技巧下一篇：一文搞懂 gRPC：快速实现文件存储服务

相关推荐

技能收益追踪器：监控 Openclaw 技能并实现变现什么是技能收益追踪器？技能收益追踪器是一款专业级实用工具，旨在弥合 AI 开发与经济可持续性之间的鸿沟。随着开发者开始将作品变现，该工具提供了必要的基础设施，用于监控 ClawHub、EvoMap 和

2026-03-30

立即查看

信号管道：自动化营销情报工具 - Openclaw Skills 什么是信号管道？信号管道是一个复杂的数据采集和内容合成工具，旨在将碎片化的数字噪音转化为结构化的营销情报。作为 Openclaw Skills 的多功能组件，该系统坚控高价值来源，包括 RSS 订阅、X

2026-03-30

立即查看

AI 合规准备就绪度：评估与治理工具 - Openclaw Skills 什么是 AI 合规准备就绪度？此技能为组织提供了一个全面的框架，用于从八个关键维度评估其 AI 合规态势。它通过分析风险分类、偏差缓解和数据来源，弥合了技术 AI 部署与复杂监管要求之间的差距。利用这些 O

2026-03-30

立即查看

FOSMVVM ServerRequest 测试生成器：自动化 API 测试 - Openclaw Skills 什么是 FOSMVVM ServerRequest 测试生成器？ FOSMVVM ServerRequest 测试生成器是 Openclaw Skills 生态系统中的专用工具，旨在简化服务端 Swift 单元

2026-03-30

立即查看

专题

#Grok

Grok脚本资源网站，提供G

+ 收藏

#Sora2

Sora2脚本资源网站，提供S

+ 收藏

#通义万相

通义万相脚本资源网站，提供通

+ 收藏

#海螺AI

海螺AI脚本资源网站，提供海

+ 收藏

#可灵AI

可灵AI脚本资源网站，提供可

+ 收藏

#Kling3.0

Kling3.0脚本资源网站，提

+ 收藏

最新数据

让服务器自己干活：OpenClaw 正在悄悄接管开发和运维今天我们使用OpenClaw

picacg哔咔漫画官网直连入口-picacg哔咔正版官网一键直达

UartAssist：免费且功能强大的串口调试助手，IoT 串口设备调试神器

从“数据库收敛”谈后信创时代行业趋势

.NET Task.WaitAll和Task.WaitAny：一文看懂并发等待的两种姿势

趣谈网络协议栈，以太网基础MAC和PHY

针对开源漏扫的供应链攻击：Trivy 漏洞扫描器遭植入窃密后门

六步搞定 Python 爬虫！手把手爬取二手车数据

Pandas 实战九：时序数据处理，日期筛选/统计分析一看就会

刚刚，OpenAI自曝：内部如何把“最新GPT模型”改造成“长时程干活智能体”！

相关文章

NanoClaw 开源轻量级个人AI助手安全可靠的OpenClaw替代方案

MonsterClaw 采用 OpenClaw 技术打造的本地化AI运行平台

TinyClaw 由TinyAGI推出的开源轻量级多智能体协作框架

携程酒店业务借助NebulaGraph实现月均风控止损逾百万元

稀宇科技开源MiniMax Office Skills生产级办公文档引擎

ToClaw由ToDesk打造的专业定制AI智能体

TypeNo 免费开源的中文AI语音输入法无需配置直接使用

Sub2API 开源人工智能API中转网关平台具备多账户管理功能

阿里通义推出视频生成音频框架PrismAudio

Luma AI发布Uni-1模型实现图像理解与生成一体化

AI精选

更多

MCP 协议深度解析：构建 A

OpenClaw 真正的效率开

Anthropic 的 Harness 启示：当 AI Agent 开始「长跑」，架构才是真正的天花板

AI Agent 智能体 - Multi-Agent 架构入门

RAG 不一定非得靠向量库：一套更偏工程落地的“结构化推理检索”方案

一文搞懂深度学习中的池化！

一文搞懂卷积神经网络经典架构-LeNet

告别 Vibe Coding：用 SDD 让 AI 编程提效 50%，三工具实战对比

Agent 语音交互如何更稳、更快？一次高并发消息链路优化实践

# AI 终于能"干活"了——Function Calling 完全指南

脚本推荐

SeeDance 2.0 Video Creator专区

OpenClaw AI专区

cowork专区

claude code skills专区