我试图让一个 python 程序通过 zeromq 使用请求-回复模式与另一个 python 程序通信。客户端程序应向服务器程序发送请求,服务器程序进行回复。
我有两台服务器,当一台服务器出现故障时,另一台服务器接管。当第一台服务器工作时,通信工作完美,但是,当第一台服务器出现故障并且当我向第二台服务器发出请求时,我看到错误:
zmp.error.ZMQError: 当前状态无法完成操作
服务器1的代码:
# Run the server
while True:
# Define the socket using the "Context"
sock = context.socket(zmq.REP)
sock.bind("tcp://127.0.0.1:5677")
data = sock.recv().decode("utf-8")
res = "Recvd"
sock.send(res.encode('utf-8'))
服务器2的代码:
# Run the server
while True:
# Define the socket using the "Context"
sock = context.socket(zmq.REP)
sock.bind("tcp://127.0.0.1:5877")
data = sock.recv().decode("utf-8")
res = "Recvd"
sock.send(res.encode('utf-8'))
客户端代码:
# ZeroMQ Context For distributed Message amogst processes
context = zmq.Context()
sock_1 = context.socket(zmq.REQ)
sock_2 = context.socket(zmq.REQ)
sock_1.connect("tcp://127.0.0.1:5677")
sock_2.connect("tcp://127.0.0.1:5877")
try:
sock_1.send(data.encode('utf-8'), zmq.NOBLOCK)
socks_1.setsockopt(zmq.RCVTIMEO, 1000)
socks_1.setsockopt(zmq.LINGER, 0)
data = socks_1.recv().decode('utf-8') #receive data from the main node
except:
try:
#when server one fails
sock_2.send(data.encode('utf-8'), zmq.NOBLOCK)
socks_2.setsockopt(zmq.RCVTIMEO, 1000)
socks_2.setsockopt(zmq.LINGER, 0)
data = socks_2.recv().decode('utf-8')
except Exception as e:
print(str(e))
这种方法有什么问题?我该如何解决这个问题?
原文由 QuikProBroNa 发布,翻译遵循 CC BY-SA 4.0 许可协议
问:我该如何解决? 答:避免已知的风险
REQ/REP
死锁!虽然 ZeroMQ 是一个强大的框架,但了解其内部组成对于 健壮 可靠的 分布式系统设计和原型设计是必要的。
仔细观察后,使用常见的
REQ/REP
正式通信模式可能会使(并且确实会离开)对方陷入相互僵局:一个人期望另一个人做一步,这将永远不会大功告成,没有办法摆脱僵局。有关详细 说明 和 FSA 示意图,请参阅此帖子
接下来,故障转移系统必须能够承受其自身组件的任何冲突。因此,必须设计好分布式系统状态信号并尽可能避免对元素 FSA 设计/步进/阻塞的依赖,否则,故障安全行为仍然只是一种幻想。
始终 小心处理资源,不要将 ZeroMQ 智能信号/消息传递的组件视为任何类型的“一次性消耗品”,在学术示例中可能会容忍这样做,而不是在生产系统环境中。您仍然需要支付费用(时间、资源分配/取消分配/垃圾收集)。如评论中所述,切勿在没有适当控制的情况下创建/分配资源。
while True: .socket(); .bind(); .send();
原则上是严重错误的,并且会恶化设计的其余部分。