游戏服务器JVM Full GC长时间暂停导致数万玩家掉线问题诊断

最近收到一个游戏服务器因为GC导致大量玩家掉线的问题，让我看看，并发给我一个JMC的飞行记录和堆内存的hprof 堆转储文件。我分别用JDK中的jmc和jvisualvm打开进行分(瞎J)析(8看)。先看看基本信息。

基本信息:
生成的日期: Tue Jul 28 19:51:09 CST 2020
文件: E:\Downloads\java_pid11875\java_pid11875.hprof.4
文件大小: 13,721.7 MB

字节总数: 12,583,316,263
类总数: 5,124
实例总数: 209,093,920
类加载器: 60
垃圾回收根节点: 4,351
等待结束的暂挂对象数: 0

环境:
操作系统: Linux (3.16.0-6-amd64)
体系结构: amd64 64bit
Java 主目录: /usr/lib/jvm/jdk1.8.0_144/jre
Java 版本: 1.8.0_144
JVM: Java HotSpot(TM) 64-Bit Server VM (25.144-b01, mixed mode)
Java 供应商: Oracle Corporation

在JMC仪表盘看到，最大GC暂停时间居然接近14秒，恐怖如斯！

看了一下，JVM参数-XX:+UnlockCommercialFeatures -Xmx40g -Xms40g ，堆内存安排了40G。既然是GC的问题，先看看堆中有哪些对象。在jvisualvm中看到，数量最多的对象都是和网络收发有关的，比如java nio、netty和nukkitx包中的类。我判断，如此大的堆内存还导致频繁Full GC，说明老年代对象肯定数量很大，应该就是这些网络有关的对象一直无法回收导致的。

在JMC中看看，热点代码也都是网络相关的类。

再看看线程都在你干些啥？果然，各个线程这时候不是忙着释放内存、就是忙着申请分配内存，而且都是netty库中的方法。说明这时候用户连接非常繁忙。

看到这些信息，再想到这是一台高并发、长连接的游戏服务器，我想问题可能在netty上。netty是一个很优秀的网络编程框架，但是netty这个库的缺点就是对象比较多，netty中一个链接是一个channel，每一个channel会有一个DefaultPipeline，然后会有一个HeadContext和TailContext以及Unsafe对象。长连接就会导致相关的这些对象一直不释放，能经历一次又一次的GC，最后进入老年代，老年代里面越来越满，Full GC一次就很久。但是，就算知道可能是这个原因，也没办法把netty去掉，代价太大，项目代码都要改写。怎么办呢，只能从调整堆内存各区大小、调整垃圾回收策略（回收器类型）方面下手优化。

先来安利一下，截止Java 8 Oracle官方虚拟机提供的垃圾回收器有哪些。

由上图可知，到Java 8为止，官方JVM提供7种垃圾回收器。Serial，ParNew，Parallel Scavenge主要负责新生代的垃圾回收，CMS，Serial Odl， Parallel Old主要负责老年代的垃圾回收，G1在新生代和老年代都可以使用。他们的特点对比：

串行收集器：Serial + Serial Old;
并行收集器: Parallel Scavenge + Parallel Old，专注于应用吞吐量；
并发收集器：CMS，G1，专注于响应时间。

什么是吞吐量呢？在JVM中是用单独的线程执行GC的，垃圾回收的线程会和应用程序的线程争抢CPU的执行时间，应用程序的线程执行时间越长，就是吞吐量越高。

什么是响应时间呢？就是GC不要导致应用程序执行停顿，让程序能尽快执行并响应用户。

用脚指头可以想出来，好的GC就是吞吐量又高、响应时间又短（快）。但是很不幸，这两者是矛盾的 —— 为了提高吞吐量，就要减少GC的运行时间，但是GC运行少，就会积累大量的垃圾对象和内存碎片，导致后来GC的时候，需要花更多时间来暂停程序的运行，反而导致了响应时间和吞吐量都下降。

回到我们这个诊断案例。先看看这台服务器的JVM用的什么垃圾回收器！用的是Oracle 1.8 HotSpot JVM server模式下默认的Parallel系列回收器。其中Parallel Scavenge使用复制算法对年轻代进行回收，Parallel Old使用标记整理算法对老年代进行回收，这两个是吞吐量优先的回收器。在这台游戏服务器大量网络连接的情况下，如果GC的策略是吞吐量优先，会导致很多本该及时回收的垃圾对象被延迟回收，最后进入老年代。而老年代的容量达到26.66GB，等到老年代积累的对象很多时，每一次的GC暂停时间就会很恐怖。当内存压力很大（比如我看到出现很多分配内存失败Allocation Failure失败）时，会导致Full GC，这时的每次Full GC就会耗时很长，产生非常明显的服务器暂停的效果，就算JVM不会OutOfMemoryError，用户连接超时、掉线也就不足为奇了。

按照这个思路，最后开发团队调整了JVM启动参数，使用G1回收器，改善了这个长时间Full GC导致用户掉线的问题。后续待观察。

微信扫码关注我的视频号：

本文地址：https://blog.csdn.net/liudun_cool/article/details/107676438

游戏服务器JVM Full GC长时间暂停导致数万玩家掉线问题诊断

相关推荐

推荐一款好用到爆的开源 Java 诊断工具

Windows Azure入门教学系列 (九)：Windows Azure 诊断功能

Python ArcPy批量拼接长时间序列栅格图像

Windows Azure入门教学系列 (九)：Windows Azure 诊断功能

深入理解JVM虚拟机9：JVM监控工具与诊断实践

2020-12-28：java中，生产环境服务器变慢，如何诊断处理？

Cocos2d-x中背景音乐播放暂停与继续

31.JS实现控制HTML5背景音乐播放暂停