list.parallelStream().foreach()并发问题

需求描述

数据同步:联合查询数据库A的两张表,得到新数据,然后入库数据库B的一张表。由于数据量可能较大(在定时任务下不会太大,但手动拉取可能会有几十万的数据),采用线程池来查询与插入(修改)。

问题描述

在查到新数据后,需要将其分为两部分:一部分是新增,一部分是修改。为了效率,前人采用parallelStream并发流来遍历数据,结果导致ArrayIndexOutOfBoundsException数组越界异常。

原因分析

ArrayIndexOutOfBoundsException异常说明是存放数据的list有问题,即list的索引超过了list的长度导致越界。而在代码中采用的list是ArrayList,具有自动扩容机制,但是,ArrayList是线程不安全的

深入源码

ArrayList的add方法如下:

public boolean add(E e) {
    ensureCapacityInternal(size + 1); 
    elementData[size++] = e;
    return true;
}

线程不安全问题的关键在于这行代码:elementData[size++] = e

其原子操作如下:
1. elementData[size] = e
2. 读取 size
3. size += 1

在多线程环境下,当两个线程同时执行ensureCapacityInternal(size + 1)得到了相同的size(假设此时size恰好为数组最后一位),没有触发扩容,此时线程A先一步执行完size+1,而后线程B读取到这个新的size,而后再次size+1,此时就会出现数组越界异常。

解决办法

使用线程安全的ArrayList:CopyOnWriteArrayList


版权声明:本文为weixin_50604409原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。