java defunct_神奇的Java僵尸(defunct)进程问题排查过程

java defunct_神奇的Java僵尸(defunct)进程问题排查过程现象描述大概 1 个月多以前在启动脚本中增加了 tail f 用来启动后追踪日志判断是否启动成功后发现无法执行 shutdown sh 卡住利用 curl 然后无奈使用 kill 9 但通过 ps el 发现此时进程变为 defunct 即僵尸进程当时的解决办法无奈只能找到僵尸进程的父进程 kill 当时认为可能是 tail 的问题后来启动脚本中去掉 tail 发现问题解决 But 当时一直没有来得及排查是如何引起

现象描述

大概1个月多以前 在启动脚本中增加了tail -f

用来启动后追踪日志判断是否启动成功

后发现无法执行shutdown.sh(卡住 利用curl) 然后无奈使用kill -9

但通过ps -el 发现此时进程变为defunct 即僵尸进程

当时的解决办法无奈 只能找到僵尸进程的父进程kill

当时认为可能是tail的问题 后来启动脚本中去掉tail 发现问题解决

But

当时一直没有来得及排查是如何引起僵尸进程的问题

这两天抽时间排查了一下 发现和tail没有一毛钱关系

艰难的排查过程1-尝试复现

测试代码Defunct.java

b9ebe832346694b62aa2622dffd570a7.png

启动脚本start.sh

37e87cf87759ee2f567081c37d4e2643.png

启动脚本start_tail.sh 使用了tail

b40da71532d47533105cda9d43df108f.png

关服脚本stop.sh 这里使用kill关服

45a8578d2c05edf19b9f396a97021c88.png

分别用两个脚本测试,得出下面几个结论:

所以初步结论是貌似和tail没有什么关系

此时sh和tail两个进程都结束了

而此时java进程的父进程变为了1

sh分别有两个子进程

一个是java子进程 一个是tail子进程

start.sh启动的java进程的父进程是1 即init进程

start_tail.sh启动后 java进程的父进程是sh

当启动start_tail.sh后 因为tail是前台进程 所以ctrl+c可以结束

用这个例子做各种测试 都无法复现僵尸进程的问题

艰难的排查过程2-游戏服务器尝试复现

当初出现是在游戏服务器复现的 那么应该比较复现吧

修改了一个游戏服务器的启动脚本 默认是没有加tail 现在加上了tail -f

启动游戏服务器脚本 看到日志 启动成功 ctrl+c 退出tail

调用shutdown.sh 发现服务器顺利关闭

结论:竟然无法在游戏服务器复现

艰难的排查过程3-各种思考、查阅资料

首先从僵尸进程的产生原因入手,猜测是否是sh这个父进程没有调用waitpid去回收java子进程。

查询网上类似的tomcat tail -f问题,思考当初1个多月以前的情形,其中有一个很重要的当初情形是shutdown的时候ctrl卡住了。灵光一现,难道是当初操作失误了,没有按下ctrl+c而是按下了ctrl+z。

神奇的ctrl+z 复现测试代码defunct

启动start_tail.sh 然后ctrl+z

1958799c03f6b7ac3c58b79669fda5d2.png

启动stop.sh 发现进程(3974)无法被stop

2308acf37767b36a8a46bfc297a4d2ee.png

使用kill -9 尝试杀死进程 此时发现进程已经是defunct了

cd8964a5bf4a518b8634f10f67c9de54.png

此时只要使用fg命令从后台调到前台然后按下ctrl+c 则僵尸进程自动消失

276746124b627ac3e4fbd8643f61658e.png

神奇的ctrl+z 复现游戏服务器defunct

启动脚本(有tail) 等待一段时间(将所有服务器全部开启) 并ctrl+z

bd47e91551ac1ac82fb5dd136d3365a1.png

此时执行shutdown.sh 发现没有任何反应(卡住) 无奈ctrl+c

29fb919f2db7a008edc26c735f85a339.png

此时执行jstack 也发现没有任何反应(卡住) 无奈ctrl+c

c7afdc5297f3960386d98eeee43eaacf.png

此时执行kill -9 此时java进程已经变为了僵尸进程

384978d784830d9338a5f442d187c2be.png

此时用fg将暂停的脚本恢复 然后ctrl+c 则僵尸进程消失 顺利被回收

235334472a4716694de1a3007519df7b.png

总结1

tail和造成defunct没有任何关系

根本原因是因为按下ctrl+z 将start_tail.sh切换到了后台

测试1 当start_tail.sh后 按下ctrl+z 如果直接被crt#session关闭了呢

更神奇的事情发生了 java进程直接被干掉了

!!这个在游戏服务器也测试了 一定要注意!!

测试2 执行start_tail.sh 直接关闭ctr#session 则java进程还在 因为是nohup启动

测试3 当start_tail.sh后 按下ctrl+z 再按fg 恢复执行 此时之后可以顺利shutdown

总结2

正常启动脚本 没有tail java进程的父进程是1 即init进程 使用shutdown脚本关闭java进程后 自动被init进程回收

启动脚本加了tail

此时java进程的父进程是sh进程

sh进程有两个子进程 一个是java子进程 一个是tail子进程

直接ctrl+c 则sh进程和tail进程都结束 java进程的父进程变为了1

如果不ctrl+c 直接shutdown java进程 则java进程也会正常结束,即sh父进程会回收java子进程

总结3

最终‘罪魁祸首‘是ctrl+z ,它会暂停程序的运行

如果我们启动脚本没有加tail 则执行完nohup & 自动到后台

但是我们加了tail后 因为tail是前台进程 所以要么ctrl+c结束 要么ctrl+z

如果我们按下了ctrl+z 则sh启动的所有子进程都会暂停

所以我们的java进程此时处于暂停状态 所以shutdown/jstack都卡住了一样 只能ctrl+c退出

然后错误的操作就是使用kill -9 这个会把进程给干掉 但是因为父进程sh被暂停了 所以无法waitPid 执行子进程的回收操作 从而导致java进程变为了僵尸进程

而通过fg恢复后 ctrl+c 父进程和tail都退出 java进程被init进程接管 自动回收

总结4

加tail -f 没有问题,但是一定不要忘了ctrl+c;

如果ctrl+z 那么一定要fg然后ctrl+c;

当出现shutdown.sh卡住或者操作jvm都没反应,则可以怀疑是暂停引起的;

————————————

原文链接:https://www.jianshu.com/u/21add3dce532

原文:https://www.cnblogs.com/GX1234/p/11556953.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/229839.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月16日 下午3:46
下一篇 2026年3月16日 下午3:46


相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号