15
首发于 樊浩柏科学院

Gearman 是一个分布式任务分发系统,通过程序调用(API,跨语言)分布式地把工作委派给更适合做某项工作的机器,且这些机器可以以并发的、负载均衡的形式来共同完成某项工作。当计算密集型场景时,适合在后台使用 Gearman 异步地运行工作任务。

认识Gearman

Gearman 只是一个分布式程序调用框架,其主要由三部分组成,并通过暴露给使用方的 API 来完成任务委派和执行。

组成角色

Gearman 中存在三个重要的角色,分别为 Client、Job Server、Worker。

  • Client:任务的发起者(可以是 C、PHP、Java、Perl、MySQL 等);
  • Job Server:任务调度者,负责将 Client 委派的任务转发给相应的 Worker(gearmand 进程管理);
  • Worker:任务的实际执行者(可以是 C、PHP、Java、Perl 等);

Client、Job Server、Worker 典型的部署方案,如下图:

那么,Gearman 是如何利用这三者进行任务的调度呢?

可以看出,在实际使用时,我们只需调用 Gearman 已经实现了 Client 和 Worker 的 API,委派和注册执行的任务,而无需关心任务的分发和机器的负载均衡问题。

外部API

到目前为止,Gearman 已经提供了 C、Shell、Prel、 Nodejs、PHP、Python、Java、C#、Go、MySQL 等版本的 Client、Worker API,详细信息见 这里。本文只以 PHP 版为例,列举 Gearman 常用的 API 。

  • Client 端常用 API 列表:
功能描述 方法(GearmanClient 类中)
注册一个 Client addServer(),单个
addServers(),多个
发起 Job 任务 doNormal(),阻塞会等待
doBackground(),非阻塞
doLow(),低优先级任务
doHigh(),高优先级任务
添加 Tash(一组 Job) addTask()、addTaskBackground()
addTaskHigh()、addTaskHighBackground()
addTaskLow()、addTaskLowBackground()
发起 Tash 任务 runTasks()
获取最新操作的结果 returnCode()
注册事件回调 setCompleteCallback()、setFailCallback()
说明:Job 是单个任务,每个任务只会在一个 Worker 上执行,而 Task 是一组 Job,其多个子任务会分配到多个 Worker 上并行执行。
  • Worker 端常用 API 列表:
功能描述 方法(GearmanWorker 类中)
注册一个 Worker addServer(),单个
addServers(),多个
注册处理任务回调 addFunction()
等待和执行任务 work()
获取最新操作的结果 returnCode()
  • Job 端也提供了 API,其常用列表为:
功能描述 方法(GearmanJob 类中)
获取任务携带的序列化数据 workload()
workloadSize(),获取数据大小
向运行的任务发送数据 sendData()
说明:Gearman 各端之间数据交互时,数据需要进行序列化处理。

安装Gearman

本文安装 Gearman 需要两步,第一步安装守护程序(gearmand)的 Job,第二步安装 PHP 扩展。

安装gearmand

首先,下载 Gearman 守护程序 gearmand 的 最新源码,并解压缩源码包:

cd /usr/src
$ wget https://github.com/gearman/gearmand/releases/download/1.1.17/gearmand-1.1.17.tar.gz
$ tar zxvf gearmand-1.1.17.tar.gz

接着,安装 gearmand 的依赖包,并编译源码安装 gearmand:

$ yum install boost-devel gperf libuuid-devel libevent-devel
$ cd ./gearmand-1.1.17.tar.gz
$ ./configure
$ make && make install
# 安装成功信息
Libraries have been installed in:
   /usr/local/lib
   - have your system administrator add LIBDIR to '/etc/ld.so.conf'

修改/etc/ld.so.conf配置文件,添加 MySQL 动态链接库地址:

# /usr/local/mysql/lib为MySQL动态链接库libmysqlclient.so的目录
$ echo "/usr/local/mysql/lib" >>/etc/ld.so.conf
# 使其生效
$ /sbin/ldconfig

然后,如果出现如下信息则表示安装 gearmand 成功。

# 启动Client和Worker
$ gearman
# 如下信息则表示成功
gearman    Error in usage(No Functions were provided).
Client mode: gearman [options] [<data>]

# 查看gearmand版本
$ gearmand -V
gearmand 1.1.17

安装PHP扩展

从 PECL 下载最新 gearman 扩展(php7 需下载 最新源码包),并解压缩安装:

$ cd /usr/src
$ wget http://pecl.php.net/get/gearman-1.1.2.tgz
$ tar zxvf gearman-1.1.2.tgz
$ cd gearman-1.1.2
$ /usr/local/php/bin/phpize
$ ./configure --with-php-config=/usr/local/php/bin/php-config
$ make && make install
# 安装成功后信息
Installing shared extensions:     /usr/local/php/lib/php/extensions/no-debug-non-zts-20131226/

然后,配置 php.ini 文件:

$ php --ini
Loaded Configuration File:         /usr/local/php/lib/php.ini
$ vim /usr/local/php/lib/php.ini
#增加内容
extension=gearman.so

重启 php-fpm 后,出现如下信息则表示安装扩展成功。

$ php --info | grep "gearman"
gearman support => enabled
libgearman version => 1.1.17

运行Gearman

运行 Gearman ,实际上我们需要使用到 Client、 Job、Worker 这三个角色。gearman 端实现了 Client 和 Worker 角色的功能 ,使用 PHP 时以扩展形式存在,gearmand 端则实现了 Job 角色的功能。

启动Job

# 先创建日志目录
$ gearmand -d --log-file=/var/log/gearmand.log
如果启动时出现 Address family not supported by protocol 错误,需要增加-L 0.0.0.0参数。

查看启动信息:

$ ps -ef | grep gearman
root     6048     1  0 19:56 ?        00:00:00 gearmand -d
# 监听端口
$ netstat -tunpl | grep "gearmand"
tcp  0  0 0.0.0.0:4730  0.0.0.0:*   LISTEN  6048/gearmand

gearmand 命令的一些参数说明:

  • -b –backlog:监听连接数量
  • -d –daemon:后台运行
  • -f –file-descriptors:文件描述符的数量
  • -j –job-retries:移除不可用 Job 之前运行的次数
  • -l –log-file:日志文件存放位置(默认记录最简单日志)
  • -L –listen:监听的 IP
  • -p –port:指定监听端口
  • -q –queue-type:指定持久化队列
  • -t –threads:使用的 I/O 线程数量
  • -u –user:启动后,切换到指定用户
  • --mysql-host:--mysql 系列为 MySQL 持久化连接信息
为了方便管理 gearmand,可以将 gearmand 注册为一个 service 服务

启动Client和Worker

通过 gearman 命令启动 Client 和 Worker 并不是必须的,这里仅仅是为了在命令行下测试工具。

首先,启动一个 Worker,用于列出某个目录的内容:

$ gearman -w -f ls -- ls -lh

然后,创建一个 Client,用于查找请求的一个作业:

$ gearman -f ls < /dev/null
total 4.0K
drwxr-xr-x. 21 www www 4.0K Jun 21 23:52 www

PHP使用Gearman

当启动 Job 服务后,PHP 就可以通过 Gearman 扩展,创建任务和绑定任务处理回调了。PHP 调用 Gearman 的 API 见 外部 API 部分,更多官方示例见 这里

同步

Client 工作在同步阻塞模式,Client 发起任务后会等待至 Worker 执行任务结束。

  • Client 端
//Client.php
$client= new GearmanClient();
$client->addServer();

$msg = 'Hello World!';
echo "Sending $msg\n";
echo "Success: ", $client->doNormal("reverse", $msg), "\n";
  • Worker 端
//Worker.php
$worker = new GearmanWorker();
$worker->addServer();
$worker->addFunction("reverse", "reverse_fn");
echo "Waiting for job...\n";
while ($worker->work());

function reverse_fn($job) {
    $workload = $job->workload();
    echo "Workload: $workload\n";
    $result = strrev($workload);
    echo "Result: $result\n";
    return $result;
}

输出结果为:

//Client
Sending Hello World!
Success: !dlroW olleH

//Worker
Waiting for job...
Workload: Hello World!
Result: !dlroW olleH

三端的交互流程图,如下:

异步

异步方式时,Client 端不会产生 IO 阻塞,能实现异步执行,在实际应用中可以结合 fastcgi_finish_request() 函数或者 MQ 来异步使用。

  • Client 端
$client= new GearmanClient();
$client->addServer();
$client->setDataCallback("reverse_data");

$msg = 'Hello World!';
echo "Sending $msg\n";
$task = $client->addTaskBackground("reverse", $msg);
$msg = 'I am Gearman!';
echo "Sending $msg\n";
$task = $client->addTaskBackground("reverse", $msg);
$client->runTasks();

function reverse_data($task) {
    echo "Data: " . $task->data() . "\n";
}
  • Worker 端
$worker = new GearmanWorker();
$worker->addServer();
$worker->addFunction("reverse", "reverse_fn");
echo "Waiting for job...\n";
while ($worker->work());

function reverse_fn($job)
{
    $workload = $job->workload();
    echo "Workload: $workload\n";
    $result = strrev($workload);
    $job->sendData($result);
    echo "Result: $result\n";
    return $result;
}

输出结果为:

//Client
Sending Hello World!
Data: !dlroW olleH
//Worker1
Waiting for job...
Workload: Hello World!
Result: !dlroW olleH
//Worker2
Waiting for job...
Workload: I am Gearman!
Result: !namraeG ma I

Gearman的管理工具

Gearman 可以使用 GearmanManager 作为管理工具,命令行下可以使用 gearadmin 命令来进行简易的管理。

$ gearadmin --show-jobs
32 ::7866:86a6:d87f:0%32 - : reserve

$ gearadmin --show-jobs
H:fhb:79    0    1    0
H:fhb:86    0    1    0

$ gearadmin --status
reverse    1    0    0
ls        0    0    0

总结

虽然 Gearman 出现的比较早,但是其支持跨语言调用特性,以及负载均衡的方式委派任务,在分布式系统下,可以更加合理高效地利用系统资源。在一些大型的密集型、异步后台系统也已有成功部署的案例(数据抓取,库存数据更新、邮件和短信服务等),另 PHP 借助 Gearman 也能实现多任务处理方案。

推荐:用 Gearman 分发 PHP 应用程序的工作负载

Howborn
1.2k 声望1.7k 粉丝