envoy 代理 socket.io

最近在做web 长连接消息通道的方案与实现, 目前web 的方案主要有websocket。 后来经过调研发现socket.io 的浏览器兼容性更好。于是
使用socket.io 作用通信连接。本文记录在此过程中遇到的问题。
主要的问题:
envoy 代理socket.io .

1. socket.io

socket.io 集成了websocket 和polling,并可以感知浏览器的是否支持websocket, 建立websocket 连接,如果不支持websocket
就使用ajax polling. 故兼容性比较好, 具体可以google socket.io.

2. 为什么会有envoy 代理socket.io ?

这和我们是实现方案有关, 下面是我们的服务简单的部署拓扑。

clipboard.png

这个方案是基于mesh service 的sidecar 方式部署, 前面有一个front-Envoy 作为一个接入层。
front-evnoy 其实就是在docker里部署一个envoy。

后端的services 是一个服务的集群, 上图有2个socket.io service 组成的连接管理服务。

总体来看,数据经过两次代理,sidecar 内部代理很简单,配置简单,只要配置envoy websocket 和http 就可以。
要设置route_config 相应virtual_hosts 设置use_websocket 为true 。

另外一个代里是本文记录的重点。
就是front-evnoy 到后端的service 集群。 简单分析可知,socket.io service 其实是一个有状态的服务, 它一个连接管理器。
假设client A 要使用socket.io 建立长连接, front-envoy 要正常工作必须保证, A 的后续的所用的包都发送到后端的同一个service.
这就是envoy 如何代理socket.io 的问题。

3. envoy 的负载均衡

envoy 支持很多很多中负载均衡方式, 但是目前满足我们需求的只有ring hash 这种负载均衡。
可以参考envoy 文档
envoy ring hash
ring hash 可以配置一个http header的字段作用hash key.
经考察,我使用了这个x-forwarded-for字段, x-forwarded-for 这字段一般填的是client 的ip.
部分配置如下:
lister 增加 user_remote_address:true
这样,envoy 会加上remote_address

 "listeners": [
  {
    "address": "tcp://0.0.0.0:80",
    "filters": [
      {
        "type": "read",
        "name": "http_connection_manager",
        "config": {
          "codec_type": "auto",
          "stat_prefix": "ingress_http",
          "use_remote_address": true,
          "idle_timeout_s" : 300,
          "rds" :
          {
              "cluster" : "rds_cluster",
...

                "route_config":
        {
                  "virtual_hosts":
                   [
                     {
                         "name" : "backend",
                         "domains" : ["*"],
                         "routes" : [
                             { 
                               "prefix" : "/",
                               "cluster": "websocket_cluster",
                               "use_websocket": true,
                               "hash_policy": {
                                 "header_name": "x-forwarded-for"
                               }
                             }
                         ]
                      } 
                    ]
                 },


 ...

          {
          "name":"websocket_cluster",
          "type":"static",
          "connect_timeout_ms":2500,
          "lb_type":"ring_hash",
          "ring_hash_lb_config": {
            "minimum_ring_size": 1024,
            "use_std_hash": false
          }, 
          "hosts":[{"url":"tcp://10.10.62.120:3000"},{"url":"tcp://10.10.62.121:3000"}]
       }

4. envoy 代理socket.io 出错

测试发现,测试有40% 的连接是失败的。 其中报错:

     \/favicon.ico:1 Failed to load resource: the server responded with a status of 404 (Not Found)
     index.js:83 WebSocket connection to 'ws://10.10.62.122/socket.io/?        
     EIO=3&transport=websocket&sid=xiqvvCber8gofbxrAAAA' failed: Error during WebSocket handshake: Unexpected response         
     code: 400
     r.doOpen @ index.js:83

表面websocket 建立连接失败,服务器返回400。

5. 一个解决办法

其实socket.io 后后台通信,先会建一个http/tcp 发送 poling 请求。
接着,会建立一个新的连接(http/tcp), 通过http upgrade 成一个websocket.
这条新的upgrade 连接,可能会被envoy 代理到另一个service.
还带了sid 字段。 service 就认为这个不完整的请求,返回400.

socket.io 服务器有一个逻辑, 如果http 请求参数带了sid, 但是有没有建立相应的session, 就会返回400

通过修改socket.io transports 优先级可以解决这种情况。
socket.io transport 顺序是polling, websocket.
修改客户端和服务器都修改成为{transports:['websocket', 'polling']})。

client 修改

//var socket = io();  修改
var socket = io({transports:['websocket', 'polling']});

server 也做对应的修改。

经测试,可以测试通过。
这样envoy 就可以成功代理socket.io 集群了。

后面有时间写一下, socket.io 和 后台建立连接的情况。


Allenchen
9 声望0 粉丝