Java应用OOM问题排查实战：从dump文件分析到内存泄漏解决方案-脚本在线

首页前沿速递服务器教程网页设计教程网络编辑教程

移动端

AI智能体脚本智能办公脚本自动化游戏脚本浏览器自动化脚本服务器脚本

一次 OOM 排查（dump文件分析）

作者：互联网

2025-11-03

Java教程

一、发现问题

近期 OOM 故障频发，一周内发生了 3 次。

但每次pod重启后，应用又一切正常；上个版本有代码发布的同学，排查了一遍新增代码，没找到可疑之处。

主要现象如下：

群里告警：Grafana 告警，Full GC 次数5分钟内超2次
群里告警：nacos、grpc 等中间件心跳连接超时
集群中对应服务：重启次数新增

Grafana 告警
Alertname: HK-5分钟内GC次数大于2次
状态： 告警
内容：  HK最近10分钟内的FullGC过多，当前值： 75.5，环境：prod，实例：10.20.56.36
应用：  xxxx
时间： 2025-10-13 19:48:51
详情： 告警详情
来源： Grafana 地址

查看 Grafana 中 JVM 问题：

可为什么会导致重启？

看看得：JVM 内部 OOM → 应用假死（线程卡死或频繁 Full GC）→ 健康检查失败 → K8s 重启 Pod

排查此问题困难之处

既然知道是 OOM，那就找对应 OOM 生成 dump 文件，分析即可。

运维侧反馈来不及 dump 文件，就重启了，导致dump文件丢失。

最后，那我又是如何得到这个 dump 文件的？

既然运维侧不给力，那就只能靠平时多观察下这个应用的情况，一有怀疑情况就找对应运维同学。

恰好，被我抓到一次，直接坐到运维同学旁边，让其帮我上容器帮我 dump 一份数据。

二、定位问题

2.1 定位问题：dump 文件分析

生成 dump 文件：找运维同学操作，进入对应 pod 容器中，执行如下命令：

# 1、找到对应 PID：
jps -l

# 2、执行，只想 dump 活跃的对象：
jcmd 12345 GC.heap_dump -all=false /tmp/heap_20240602.hprof

分析工具：使用的是 IDEA 自带的 Profiler

直接打开对应的 dump 文件，展示如下：

可以看到 byte[] 和 byte[][] 数据是 MySQL 里的结果数据：

选择 byte[]：

图中的 GC Root: Java Frame 表示：

在 Java 的垃圾回收（GC）机制中，GC Root 是一组特殊的对象引用，它们作为起点，GC 会从这些对象开始遍历引用链，找出所有可达对象。可达的对象不会被回收。
Java Frame 指的是某个线程的栈帧（方法调用栈）中的局部变量或参数引用了这个对象。

GC Root: Java Frame: com.mysql.cj.protocol.a.NativeProtocol.sendQueryPacket(NativeProtocol.java:951)

这段话意思是：

这个 byte[] 对象是被某个线程的栈上的局部变量引用着。
具体是在 com.mysql.cj.protocol.a.NativeProtocol 类的 sendQueryPacket 方法（第 951 行）中。
因为它在栈上被引用，所以 GC 无法回收它，直到这个方法执行结束并且栈帧被销毁。

找到一个具体的进入看下：

可以定位到某一个 SQL，并将这个 SQL 展示出来。

SELECT amount, currency FROM risk_message

所有的线索都指向这个 SQL 查询带出来大量的数据。

2.2 定位问题：具体代码

通过 SQL 可以缩小范围，所有涉及这个表的代码，主要是 2 个接口：

入账审核列表：getInboundList
汇总-入账成功金额：querySummary —— BUG 点

代码如下：

List list = riskMessageRepo.lambdaQuery().select(RiskMessage::getAmount, RiskMessage::getCurrency)
    .eq(StringUtils.isNotBlank(clientId), RiskMessage::getClientId, clientId)
    .in(CollectionUtils.isNotEmpty(currencyList), RiskMessage::getCurrency, currencyList)
    .ge(Objects.nonNull(orderStartTime), RiskMessage::getValueDate, orderStartTime)
    .le(Objects.nonNull(orderEndTime), RiskMessage::getValueDate, orderEndTime)
    .list();

这个功能主要汇总金额，但币种不同，得按照汇率换算出来，他这块实现步骤：

查询出所有符合条件的 <金额、币种> —— 问题点
在内存本地聚合
根据汇率进行换算，得出 USD 币种的金额

问题就在查询这块，没兜住，直接查询出百万条记录，导致内存在接下来的 30分钟逐渐被占满。

时间范围没生效：没有强制时间范围
按币种先汇总：币种只有百来个，返回也只有百来行

直接让 AI 帮我排查这 2 个接口是否有问题：

claude-4-sonnet 回答道：

AI 的回答，居然是没有问题；当再次指出问题时，AI 又站起来了。

三、小结

排查过程中发现的一些事：

HTTP 请求调用时间长，不一定造成 OOM，但一定是有问题的。
MySQL IN 数量能调节，可以 1w+
现阶段的AI编程，不能完全相信，会绕进一些BUG中，需要人工处理。

最后解决这个问题也比较简单：

强制选定范围
按照币种 SUM，返回行数最多百来行

常见 Full GC 触发原因：

触发原因	说明	典型特征	排查方法
老年代空间不足	大对象直接进入老年代，或晋升失败	GC 日志显示 `Allocation Failure`，老年代使用率接近 100%	查看 GC 日志中 Old Gen 使用率，分析对象生命周期
元空间（Metaspace）不足	类加载过多，动态生成类（如反射、CGLIB）	GC 日志显示 `Metadata GC Threshold`	`-XX:MaxMetaspaceSize` 设置过小，或类加载泄漏
显式调用 `System.gc()`	代码或第三方库调用	GC 日志显示 `System.gc()`	GC 日志会显示 `System.gc()` 触发
直接内存不足	DirectByteBuffer / Netty 堆外内存耗尽	堆外内存不足时 JVM 会频繁 Full GC 尝试释放 Cleaner	`-XX:MaxDirectMemorySize`，用 `jcmd VM.native_memory summary` 查看
大对象分配失败	超过 `PretenureSizeThreshold` 直接进老年代	GC 日志显示 `Promotion failed`	调整阈值或优化对象分配
CMS/G1 的 remark 阶段失败	并发回收失败，退化为 Full GC	GC 日志显示 `concurrent mode failure` 或 `to-space exhausted`	查看 GC 日志的 `concurrent mode failure` 或 `to-space exhausted`

上一篇：深度解析线程与线程池：从 OS 调度内核到 Java 并发架构的演进逻辑下一篇：CompletableFuture方法大全和使用详解（一步到位）

相关推荐

java2AI系列：SpringAI 通过 Function Calling 接入外部系统在做企业级的RAG时，需要投喂外部系统的数据给模型，以生成更符合需要的回答。我们都知道模型的知识是有限的，在训练完成后，它的参数就固定了。大多数的模型，目前还无法自主更新知识库，即不知道训练数据以外的

2026-04-17

立即查看

深度剖析：Java 并发三大量难题 —— 死锁、活锁、饥饿全解本文深入剖析Java并发中三大顽疾：死锁（线程永久阻塞）、活锁（线程忙等无效运行）、饥饿（低优先级线程长期得不到资源）。厘清其本质区别、触发条件、实战案例及jstack/Arthas等排查方案。

2026-04-17

立即查看

Java 通用树形结构构建与解析工具类解析后端高频场景：如何将扁平 List 转换为树形结构？本文基于 Java 实现了一套 HashMap 算法，将时间复杂度优化至 O(n)，并实现了树还原 List 的双向转换，代码简洁高效，可直接复用。

2026-04-17

立即查看

别再重复造轮子了！SpringBoot对接第三方系统模板，拿来即用通过以上步骤，实现了一个完整的第三方系统对接方案，涵盖了请求、响应、签名、回调、异常处理等所有环节。

2026-04-17

立即查看

专题

#数据可视化

数据可视化（Data Visu

+ 收藏

#自然语言处理

自然语言处理（Natural

+ 收藏

#Excel公式

Excel公式就是：用函数 +

+ 收藏

#Excel技巧

Excel是日常生活中必不可

+ 收藏

#蛋仔派对

蛋仔派对最新官方活动、关卡速

+ 收藏

#人工智能

人工智能（AI），简单说，就

+ 收藏

最新数据

【金仓数据库】ksql 指南（四） —— 创建与管理表（KingbaseES 数据存储核心）表是 KingbaseES 存

【Concept Plugin 3】轻量级插件化解决方案｜动态类加载

聊聊Spring里那个不打扰Controller就能统一改响应的“神器”

Day8 | Java 方法全解析

90% 开发者踩过的坑：事务嵌套第三方接口的风险破解与实践

Java 方法参数默认值新方案：使用DefArgs！

finally 释放的是什么资源？

刺客信条枭雄5级黑拳任务攻略

p3r人格面具合成表攻略

大千世界2出村以后需要找的地方

相关文章

java2AI系列：SpringAI 通过 Function Calling 接入外部系统

Java 通用树形结构构建与解析工具类解析

深度剖析：Java 并发三大量难题 —— 死锁、活锁、饥饿全解

别再重复造轮子了！SpringBoot对接第三方系统模板，拿来即用

Spring AI 核心原理解析：基于 1.1.4 版本拆解底层架构

华为 IODT 设备接入

自定义跨字段校验必填注解

别再System.out了！这份SpringBoot日志优雅指南，让你告别日志混乱

SpringBoot - Actuator与监控

数据库安全第一关：用户密码存储与认证机制的深度拆解

AI精选

更多

内容创作的核心变量：从选题判

OpenClaw入门【完整版

从 Prompt 到 Harness：AI 工程的三重进化，你在哪一层？

这本 LLM 应用书，我翻了 5 遍：RAG 与 Agent 开发实战指南

现在面试 AI 相关问题，不把底层原理扒得明明白白，真的分分钟被问麻 | 沸点周刊 4.16

无人机拍叶片→AI找缺陷：CEA-DETR改进RT-DETR做风电叶片表面缺陷检测，mAP50达89.4%

学习编辑自己的 Skill：如何书写一个合格的 AI 工作流指令

替你筛完70个Skills！手把手教你调教Hermes Agent！

踩坑3天后，我把公司的AI接口全换成了多模型路由——GPT-6和Claude Opus 4.7同时上线的这周

一个问题，GPT-6是否值得期待？？？

脚本推荐

SeeDance 2.0 Video Creator专区

OpenClaw AI专区

cowork专区

claude code skills专区