PHP执行大规模任务时如果提升效率?

我有一个php,每天计划任务执行一次,逻辑如下:
1.连接数据库,从数据库中Select读取相关数据到数组
2.根据得到的数据数量进行循环,循环中间包含3个mysql操作(select、insert、update各一个)
3.循环完后关闭数据库连接

循环执行的次数根据步骤1的mysql_num_rows而定,基本上几千上万。
那么在循环过程中就会短时间内连续执行几千上万X3次数据库操作,效率非常低下。并且因为循环次数多任务重需要很长时间才能执行完,会导致nginx出现504错误。
且频繁数据库操作和长连接,占用过多资源,导致整个环境效率低下。

请问该怎么优化呢?
麻烦各位大神赐教,先谢谢了

阅读 10.4k
14 个回答

就你说的这个情况,建议不要用请求的方式解决,用 crontab 加计划任务在后台运行 php 脚本,数据库查询时分批处理,比如总共 100000 条,每次 1000 条;如果必须逐条处理且速度不是很快,建议一边 fetch_row 一边处理,避免先放入 array 再循环。记得根据执行情况 set_time_limit 和数据库连接的超时时间。

关于这种数据量稍大的长时任务说几点我的看法:
1、web环境下不适合长时任务:nginx+php-fpm这种架构是不适合执行长时任务的,中间的各种超时能折磨死人,Apache+PHP要好一些起码好控制超时,简单一个set_time_limit(0)就能搞定。
2、任务调度通过web来实现:大多数PHP框架对命令行支持并不好,或者说实现的时候并没有考虑对命令行的支持,所以一个基于web任务分发机制会容易实现一些,这样对现有框架的侵入性也会小很多,而且一个稳定的项目,保证入口的统一是极其重要的。如果任务在命令行下运行的话需要考虑很多问题,最突出的问题就是文件权限问题,一般web项目都是用apache之类的用户运行的,所产生的文件所有者也是apache,而且apache普遍是不允许登陆的,虽然可以实现用apache用户运行命令,但是比较复杂。
3、分而治之:处理长时任务的一个解决方案就是分治,将大任务拆分为小任务,将长时任务转换为多个短时的小任务,降低对资源的占用时间,减少因为长时间执行而导致的各种问题,如数据库连接超时,PHP内存泄露等问题。

附上我写的一个例子请多多指教
https://github.com/zkc226/cur...

大量数据的时候交由任务系统去执行。首先发起一个请求,由消息生产者将请求交给消费者处理,并返回,避免等待出现超时。消费者执行多线程处理。建议使用Gearman,使用起来很方便,而且支持PHP接口。其它的类似Workman,Swoole等都能实现。

所有的操作都集中在同一台服务器上的同一个时间点执行, 肯定是耗时又耗资源的.
要么像 @黄弘 说的,分批次处理.
要么就增加服务器, 把这些任务分布到其他的服务器上执行, 所谓分布式处理, 但是又会增加任务的复杂度, 因为还要保证数据的一致性

1.导出数据到文件,读文件去循环。(比如mysqldump)
2.考虑是否可以先拼语句,批量执行。而不是每个循环都执行。
3.考虑是否可以用存储过程

并且因为循环次数多任务重需要很长时间才能执行完,会导致nginx出现504错误。

难道是实时计算?计算量大的任务是否考虑后台跑任务计算好写入缓存,实时请求只读缓存。

这个问题有一点像我之前回答的那个并行执行提高效率的问题

本质就是针对读这个大数据进行分流,按ID进行取模并行执行,比如你的服务器和数据库能承受20个并发执行

那并行的最简单方式就是开20个脚本进程执行
0.php -> select * from test where id%20=0;
1.php -> select * from test where id%20=1;
2.php -> select * from test where id%20=2;
....

这个是拉的方式。

还有一种方式是推到队列,队列再调用woker进程去执行,这样更规范化好管理,比如楼上有一个提到的gearman,我之前在做短信平台的时候也有每日定时任务,就是用的这个。

逻辑大概是你开一个定时任务脚本把所有查询出来的数据通过调用gearman客户端把数据任务发到gearman调度器,然后你开20个woker(可以在同一台服务器也可以在局域网内的不同服务器),然后调度器就会分配给这20个gearman woker脚本去执行,每个worker脚本代码一样,是一条数据一个任务的执行

用cli模式的PHP脚本处理即可,不要使用WEB方式,很容易超时

会导致nginx出现504错误

直接跑脚本

看看能不能把任务搞成队列的形式来处理,一次只处理一小部分,分时段处理

存储过程比用PHP快无数倍

  1. 一次不要取太多的数据(减少资源占用)

  2. 采用多进程的方式,并行执行(提高效率)

  3. 适当的使用 sleep

  • 对性能要求不高,数据量也不高(10W内都还好),可以直接定时任务(cli模式)。
  • 对性能要求稍高或数据量较大,可以用定时任务+队列(参考数据:20W数据,每次约5条sql;队列78个进程,约20秒处理完)

后台运行,分段查询,异步/队列!

推荐问题
宣传栏