线程池的处理流程
创建线程池的方法
创建线程池的方法如下:
public ThreadPoolExecutor(
int corePoolSize,//核心线程数量
int maximumPoolSize,//线程池最大数量
long keepAliveTime,//线程存活时间
TimeUnit unit,//时间单位
BlockingQueue<Runnable> runnableTaskQueue,//任务队列
ThreadFactory threadFactory,//线程工厂
RejectedExecutionHandler handler//拒绝策略
);
参数详解
- corePoolSize:可同时运行的最小线程数量。
- maximumPoolSize:线程池允许创建的最大线程数量。
- keepAliveTime:核心线程外的其他线程空闲的最大时间,超过就销毁。
- unit:时间单位。
runnableTaskQueue:用于保存等待执行的任务的阻塞队列。
- ArrayBlockingQueue: 基于数组结构的有界阻塞队列,按先进先出原则对元素进行排序。
- LinkedBlockingQueue:基于链表结构的阻塞队列,此队列按先进先出原则排序元素,吞吐量通常要高于ArrayBlockingQueue。
- SynchronousQueue:不存储元素的阻塞队列。每个插入操作必须等到另一个线程调用移除操作,否则插入操作一直处于阻塞状态,吞吐量通常要高于Linked-BlockingQueue。
- PriorityBlockingQueue:具有优先级的无限阻塞队列。
- threadFactory:线程工厂,用于创建新线程。
handler:当线程池处于饱和状态,处理新任务的策略。
- AbortPolicy:直接抛出异常。
- CallerRunsPolicy:只用调用者所在线程来运行任务。
- DiscardOldestPolicy:丢弃队列里最近的一个任务,并执行当前任务。
- DiscardPolicy:不处理,丢弃掉。
如何合理的设置参数
合理的配置线程池需要从任务的角度来分析:
- 任务的性质:CPU 密集型的任务应设置核心线程数为 Ncpu+1。IO密集型任务应设置核心线程数为 2^Ncpu 。
- 任务的优先级:考虑使用优先级队列PriorityBlockingQueue来处理。
- 任务的执行时间:可以使用不同规模的线程池或者使用优先级队列,优先执行时间短任务。
- 任务的依赖性:如果依赖数据库连接,由于线程提交 SQL 需要等待数据库返回结果,所以线程数应该设置得大,才能更好的减少 CPU 的等待时间,从而更好的利用 CPU。
向线程池提交任务
- 提交不需要返回值的任务:execute()方法用于提交不需要返回值的任务,所以无法判断任务是否被线程池执行成功。
- 提交需要返回值的任务:submit() 方法用于提交需要返回值的任务。线程池会返回一个 future 类型的对象,可以通过 future 的 get() 方法来获取返回值,get() 方法会阻塞当前线程直到任务完成。
关闭线程池
可以通过调用线程池的 shutdown 方法来关闭线程池。原理是遍历线程池中的工作线程,然后逐个调用线程的interrupt方法来中断线程,所以无法响应中断的任务可能永远无法终止。
使用场景实例
背景
接收 kafka 中的数据并写入到数据库中。
分析
kafka 队列中的数据只有当前游标指向的数据被消费了才能消费下一个,其中监听方法会被反复调用,所以可以使用多线程来加速消费,同时考虑到线程提交 SQL 需要等待数据库响应,因此将多线程的核心线程数设置为 2 的 CPU 的个数次方。
伪代码
#yml
thread:
corePoolSize: 16
maximumPoolSize: 16
epAliveTime: 3
pacity: 200
@Congiguration
@ConfigurationProperties(prefix = "thead")
@Data
public class ThreadConfig {
private Integer corePoolSize;
private Integer maximumPoolSize;
private Long keepAliveTime;
private Integer capacity;
}
public class ExecutorConfig {
@Bean(name = "executor")
public ThreadPoolExecutor executor(ThreadConfig config) {
return new ThreadPoolExecutor(
config.getCorePoolSize(),
config.getMaximumPoolSize(),
config.getKeepAliveTime(),
TimeUnit.SECONDS,
new LinkedBlockingDeque<>(config.getCapacity()),
new ThreadPoolExecutor.CallerRunsPolicy()
);
}
}
@Autowried
private ThreadPoolExecutor excutor;
@kafaListener(topics = "", groupId = "", containerFactory = "")
public void addData(List<ConsumerRecord<String, String>> records) {
//使用CountDownLatch控制多线程
int countDownLatchSize = 6;
CountDownLatch countDownLatch = new CountDownLatch(countDownLatchSize);
//提取数据
List<DataDTO> dtoList = parseToDTO(records);
for (int i = 0; i < countDownLatchSize; i++) {
try {
executor.execute(()->{
//拆分数据并添加到数据库
service.saveBath(dtoList.subList(start, end));
});
}
catch(Exception e) {
log.error("");
} finally {
countDownLatch.countDown();
}
}
countDownLatch.await();
}
效果
使用单线程插入 ClickHouse 100 万数据耗时 27 min。
使用多线程插入 ClickHouse 100 万数据耗时 4 min 33 s。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。