机房流量划分:
保证同一纬度查询写入尽量在一个机房
切流控制点:
- DNS:DNS缓存,切流量无法立刻生效 流量无法通过DNS完全切干净,有剩余流量(对应入网框架中,在httpdns中改,有一点点本地缓存,webapp无法用httpdns)
- LVS(无法根据业务需求流量划分的)
- ROUTEr(改nginx)。内部调用(inrouter同上、thrift本来就是service的ip直接服务发现时改,用同一份)
- 业务代码
选取router
增加nginx 的dynamic_req_add key cityid $city_id
dynamic_req $upstream_name default_liddc=xx upstreamm_name=xx port=xx;
机房下线:
先DNS去掉,router配置去
数据同步。本质是双机房要保持全量数据
mysql 主从
redis 见https://segmentfault.com/a/11...
为什么redis不能和mysql一样用主从集群分机房?mysql本身主从延时就大,不像redis这种本身作为缓存的东西,机房间链路不稳定,如果主从复制配置同步或者命令延时就拒绝写/集群夸机房影响稳定。同步全部异步,基本用mq,否则要加丢失数据补齐太复杂。
mq。写入双写或消费双订阅。
切换过程中,因为重试等会有点问题。无法做到的。。。
机房迁移,迁移过程中双活。或维持上期双活
收敛配置,增加双机房配置
机器ready
功能验证。QA测
性能验证。指定url压测
数据同步
代码里用小流量测试
DNS改50
DNS彻底改
残余流量:旧route中IP配成新机房的VIP(不配为IP的原因是故障摘除方便,要一直持续发半年)
双活下机房迁移(有三活)
如果数据同步支持三活,没问题。如果只支持双活,可以:
验证C功能:A与B做双活,C读A的redis
数据切C:A与B断双活,B与C做双活,A读C redis
故障应对:C有问题后,流量切回A,A读Credis, C与B同步数据
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。