不规范使用CountDownLatch引发的线程异常等待超时

项目场景:

为了优化代码的执行速度,在代码中使用了CountDownLatch对执行方法进行多线程处理,并等待线程全部结束后释放线程并继续执行主线程的操作。使用了CountDownLatch和Thread的组合,确实让接口的耗时降低了许多。但是也为我这次遇到的bug埋下了隐患。

回顾一下CountDownLatch的概念:允许一个或者多个线程去等待其他线程完成操作。构造函数允许接收一个int值,作为初始线程数量,也可以认为是倒数几个数。
线程执行完毕后,通过 countDown() 方法,对构造中的count值进行-1操作,等到count值是0后,CountDownLatch才会释放所有线程的等待。
还有 await() 方法,用这个方法让全部的线程进入等待。
这两个方法就是 CountDownLatch 的关键方法。


问题描述

这次遇到的问题表象是接口超时,而且会比一般超时接口还要时间久,一般如果在接口中访问外部接口超时了,超过了Http设置的等待时间,那么还是会被catch 捕获,最终提示出来接口超时的。但是这一次不同,经过长时间的等待后,这个接口却提示 504 Nginx Time out。那么基本上就可以确定这个是我们程序内部的异常了。

幸亏问题出在测试环境,拿到参数后在本地执行,在执行到CountDownLatch的await() 方法后,程序好像挂起了,开始不执行了,第一反应是不是有线程死锁了啊,然后通过jconsole和jvisualvm都看了下,并没有出现死锁。

首先看下问题代码。

List<OrderInfo> orderInfos = new ArrayList<>();
final CountDownLatch latch = new CountDownLatch(collect.size());
for(RouteResultDTOList t : collect){
    new Thread(() -> {
        try {
            OrderInfo info = handlerInfo(t,re,userId);
            if(null != info){
                orderInfos.add(info);
            }
            latch.countDown();
        }catch (Exception e){
            log.err("Thread Exception",e);
        }
    }).start();
}    
latch.await();

原因分析:

在这里插入图片描述


jvisualvm中查看了threaddump,但是也没有看到BLOCKED,只看到了WAITING和TIME_WAITING。那说明我之前的猜想是错的,程序并没有死锁,而是阻塞了,处于等待状态。
在这里插入图片描述

那么根据观察猜测,有可能是CountDownLatch没有释放线程,导致线程一直处于等待状态,这样的话只有一种可能了,就是程序没有执行try代码块中的countDown()。但是控制台中也没有catch中的异常日志,这是比较疑惑的一个点,于是顺着这个思路,我注释掉了线程的方式,通过主线程对 handlerInfo() 方法进行了执行,发现确实有报错,这个方法抛出了异常,也可以进入到catch中(但是没想明白的是为什么多线程是catch不打日志)。


解决方案:

知道了问题所在,就开始尝试进行修复,首先放开多线程的方式,对handlerInfo方法进行了异常处理,这时发现程序不阻塞了,程序可以正常执行了!但是就在这个时候,我发现,其实是需要在catch中也要加入countDown() 方法的调用的!或者说放在finally代码块中!这样才能保证程序正常执行,而不必导致程序异常挂起,导致超时,而且这种超时除了等待或者重启服务,一点儿办法都没得,如果发生在线上的话,想都不敢想哦。

不光这里优化了下,而且也把之前的使用 new Thread的方式修改成了线程池调用的方式,这样的话也能让执行效率更高一些。

List<OrderInfo> orderInfos = new ArrayList<>();
final CountDownLatch latch = new CountDownLatch(collect.size());
for(RouteResultDTOList t : collect){
    try {
        ThreadPoolUtils.execute(() -> {
            OrderInfo info = handlerInfo(t,re,userId);
            if(null != info){
                orderInfos.add(info);
            }
            latch.countDown();
        });
    }catch (Exception e){
        log.err("Thread Exception",e);
        latch.countDown();
    }
}    
latch.await();

总结

CountDownLatch 的 countDown() 方法一定要检查好再使用!避免出现这样有漏洞的地方,否则真出什么问题,会很致命。

虽然排查过程写的比较简单,思路比较清晰,但是在找问题的时候,还是走了好多处弯路,其中也包括从了无头绪到抽丝剥茧的梳理,不过最终结果是好的,起码问题找到了。

虽然改动量不大,但是往往复杂问题的背后,其实就是那么一两行代码在影响着。


版权声明:本文为han_shy原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。