通过 ThreadPoolExecutor 使用线程池

线程池的处理流程

创建线程池的方法

创建线程池的方法如下：

public ThreadPoolExecutor(
    int corePoolSize,//核心线程数量
    int maximumPoolSize,//线程池最大数量
    long keepAliveTime,//线程存活时间
    TimeUnit unit,//时间单位
    BlockingQueue<Runnable> runnableTaskQueue,//任务队列
    ThreadFactory threadFactory,//线程工厂
    RejectedExecutionHandler handler//拒绝策略
);

参数详解

corePoolSize：可同时运行的最小线程数量。
maximumPoolSize：线程池允许创建的最大线程数量。
keepAliveTime：核心线程外的其他线程空闲的最大时间，超过就销毁。
unit：时间单位。
runnableTaskQueue：用于保存等待执行的任务的阻塞队列。
- ArrayBlockingQueue：基于数组结构的有界阻塞队列，按先进先出原则对元素进行排序。
- LinkedBlockingQueue：基于链表结构的阻塞队列，此队列按先进先出原则排序元素，吞吐量通常要高于ArrayBlockingQueue。
- SynchronousQueue：不存储元素的阻塞队列。每个插入操作必须等到另一个线程调用移除操作，否则插入操作一直处于阻塞状态，吞吐量通常要高于Linked-BlockingQueue。
- PriorityBlockingQueue：具有优先级的无限阻塞队列。
threadFactory：线程工厂，用于创建新线程。
handler：当线程池处于饱和状态，处理新任务的策略。
- AbortPolicy：直接抛出异常。
- CallerRunsPolicy：只用调用者所在线程来运行任务。
- DiscardOldestPolicy：丢弃队列里最近的一个任务，并执行当前任务。
- DiscardPolicy：不处理，丢弃掉。

如何合理的设置参数

合理的配置线程池需要从任务的角度来分析：

任务的性质：CPU 密集型的任务应设置核心线程数为 Ncpu+1。IO密集型任务应设置核心线程数为 2^Ncpu 。
任务的优先级：考虑使用优先级队列PriorityBlockingQueue来处理。
任务的执行时间：可以使用不同规模的线程池或者使用优先级队列，优先执行时间短任务。
任务的依赖性：如果依赖数据库连接，由于线程提交 SQL 需要等待数据库返回结果，所以线程数应该设置得大，才能更好的减少 CPU 的等待时间，从而更好的利用 CPU。

向线程池提交任务

提交不需要返回值的任务：execute()方法用于提交不需要返回值的任务，所以无法判断任务是否被线程池执行成功。
提交需要返回值的任务：submit() 方法用于提交需要返回值的任务。线程池会返回一个 future 类型的对象，可以通过 future 的 get() 方法来获取返回值，get() 方法会阻塞当前线程直到任务完成。

关闭线程池

可以通过调用线程池的 shutdown 方法来关闭线程池。原理是遍历线程池中的工作线程，然后逐个调用线程的interrupt方法来中断线程，所以无法响应中断的任务可能永远无法终止。

使用场景实例

背景

接收 kafka 中的数据并写入到数据库中。

分析

kafka 队列中的数据只有当前游标指向的数据被消费了才能消费下一个，其中监听方法会被反复调用，所以可以使用多线程来加速消费，同时考虑到线程提交 SQL 需要等待数据库响应，因此将多线程的核心线程数设置为 2 的 CPU 的个数次方。

伪代码

#yml
thread:
  corePoolSize: 16 
  maximumPoolSize: 16
  epAliveTime: 3
  pacity: 200

@Congiguration
@ConfigurationProperties(prefix = "thead")
@Data
public class ThreadConfig {
    private Integer corePoolSize;
    private Integer maximumPoolSize;
    private Long keepAliveTime;
    private Integer capacity;
}

public class ExecutorConfig {
    @Bean(name = "executor")
    public ThreadPoolExecutor executor(ThreadConfig config) {
        return new ThreadPoolExecutor(
            config.getCorePoolSize(),
            config.getMaximumPoolSize(),
            config.getKeepAliveTime(),
            TimeUnit.SECONDS,
            new LinkedBlockingDeque<>(config.getCapacity()),
            new ThreadPoolExecutor.CallerRunsPolicy()
        );
    }
}

@Autowried
private ThreadPoolExecutor excutor;

@kafaListener(topics = "", groupId = "", containerFactory = "")
public void addData(List<ConsumerRecord<String, String>> records) {
    //使用CountDownLatch控制多线程
    int countDownLatchSize = 6;
    CountDownLatch countDownLatch = new CountDownLatch(countDownLatchSize);

    //提取数据
    List<DataDTO> dtoList = parseToDTO(records);
    
    for (int i = 0; i < countDownLatchSize; i++) {
        try {
            executor.execute(()->{
                  //拆分数据并添加到数据库
                  service.saveBath(dtoList.subList(start, end));
              });
        }
        catch(Exception e) {
            log.error("");
        } finally {
            countDownLatch.countDown();
        }
    }

    countDownLatch.await();
}

效果

使用单线程插入 ClickHouse 100 万数据耗时 27 min。
使用多线程插入 ClickHouse 100 万数据耗时 4 min 33 s。

通过 ThreadPoolExecutor 使用线程池

线程池的处理流程

创建线程池的方法

参数详解

如何合理的设置参数

向线程池提交任务

关闭线程池

使用场景实例

背景

分析

伪代码

效果

浪迹天涯

引用和评论

SpringBoot 使用 Apollo

Java8的新特性

Java11的新特性

Java5的新特性

Java9的新特性

Java13的新特性

Java7的新特性