前言

经过十多年的发展,企业在IT基础设施以及云原生的业务应用上稳步推进。上云业务规模增加,混合云中网络变得更为复杂,企业对业务安全的诉求、行业主管部门监管的要求有增无减。本方案介绍如何在企业混合云中建设统一的全网流量采集平台。

为什么混合云需要全网流量

企业IT基础设施部门对于网络监控并不陌生,在传统IT环境中,物理网络是主要部分,获取网络流量主要在网络设备及物理链路上,汇聚分流和镜像(SPAN:Switched Port Analyzer)是成熟的方案选择。

如今企业中的混合云环境,同样面临网络性能分析、网络问题定位及排障、网络安全管理、合规审计、网络扩展等问题。在解决以上问题时,有能力获取完整的网络流量,是一个前提。混合云包括本地部署的私有云以及使用云服务商所提供的云基础设施服务,这本身就是一个涉及多资源池信息汇总的难题。在本地部署的私有云环境中,通常涉及到多数据中心中的各类资源池,包括OpenStack、VMware、裸金属、容器等;从网络区域中划分,涉及到业务区、互联网接入区、外联区、DMZ区等;在云计算转型比较深入的企业中,会涉及到更多的网络功能服务链。

网络的保障涉及到配置、日志及现网流量或流数据等元素。在混合云环境中获取并管理好现网监控流量并不是一件轻松的事情。客户的业务运行在逻辑网络中,而逻辑网络是通过网络虚拟化技术,在物理交换机、虚拟交换机基础上实现的,所以通过传统的汇聚分流、物理交换机镜像方案,不能完整地描绘逻辑网络的全部流量视图,以致所熟悉的应用端到端性能分析、网络数据钻取、网络异常发现、安全分析等网络分析功能都遇到了阻碍。

在云环境下,选择网络流量采集方案需要考虑以下几个方面:

  • 流量获取的方式
  • 环境中的流量模型
  • 规模及可管理性
  • 对现网环境的影响
  • 平台开放性

流量获取的方式

在云环境中获取到虚拟交换机上的流量,是完整绘制虚拟机或容器之间访问关系的必要组成部分。仅仅是获取虚拟交换机的流量,通过在交换机上设置镜像策略就很容易达到。但在生产环境中,这并不是最优的选择。主要的两个突出原因,其一是侵入生产网络的转发平面,存在镜像流表与转发流表配置冲突的风险;其二是镜像功能影响虚拟交换机的处理性能。

在目前的技术方案下,通常有以下几种方案

专用虚拟机模式

在虚拟机或工作负载(Workload)中安装采集探针,从操作系统层面获取需要的信息,包括各个接口的流量。此方案由于安装基础在虚拟机,安装规模涉及数量多,并且需要获取虚拟机根(Root)权限。

配置流表模式

通过在虚拟交换机(OVS:Open vSwitch、VDS:vSphere Distributed Switch、VSS:Virtual Standard Switch)上配置镜像或广播策略,将所需流量引出。这种方案下,通常是将流量通过交换机端口引至一台虚拟机或服务器进行集中处理或分析,需要对生产平面的虚拟交换机进行配置。

软探针模式

在宿主机Hypervisor(如 Openstack Hypervisor)上通过安装采集探针,以用户态进程形式独立获取虚拟交换机上的流量,不需要对生产平面的虚拟交换机进行配置。
具体选择哪种采集方式最优,需要根据IT网络及资源池的实际环境情况进行选择配置或者组合。

环境中的流量模型

规划网络流量采集方案时,现网中的流量模型、主要业务的流量特征是方案选择的重要依据,基础特征包括IP分配、流量、包长、协议、端口、TCP、Http信息等,同时也需要考虑组合特征,尤其是可能出现的渗透、异常等因素。

规模及可管理性

混合云环境中,网络规模宏大且资源池类型繁多,需要考虑多数据中心的整体方案,避免针对不同需求重复安装探针,分散建设分散管理的情况。虚拟交换机不再是物理网络设备,其数量相等于计算节点数量,与物理链路的采集点相比,数量是几个数量级的增长。此外,虚拟化及容器资源池动态性很强,尤其是容器,其资源随应用需求变化频繁发生迁移、切换或回收,流量采集策略、流量分发策略也要随着变化进行迁移或释放。

在构建整体采集方案时,应充分考虑需要监控、优化的业务,分布在哪些链路、区域以及资源池,采集平台可以分阶段进行部署,但要具备扩展和统一管理能力。

对现网环境的影响

应尽可能地避免对现有云环境的影响,在已经投入生产的环境中,可能存在未规划独立的流量监控平面;逻辑CPU已按用途完全划分;已经部署应用不同的网络虚拟化产品方案等情况。在进行流量采集部署时,需要满足平滑部署且保证业务不间断,同时,有机制保障对计算资源的消耗限制。
此外,流量采集系统的部署也要保证对已有的物理网络分流镜像有能力进行兼容或平滑切换,并可以对接已有的分析工具。

平台开放性

首先采集平台本身应具备开放性,避免采集端与消费端绑定,导致在现网中不断部署垂直竖井式的流量采集系统,对于流量数据应具备一次采集,可按需多处进行分析消费的能力。此外,还考虑具备数据开放性,针对原始流量数据进行处理,得到流日志、统计、特征等数据,有能力提供高性能存储写入、检索查询、API输出等数据服务。


DeepFlow
31 声望708 粉丝

DeepFlow 是云杉网络开发的一款可观测性产品,旨在为复杂的云基础设施及云原生应用提供深度可观测性。DeepFlow 基于 eBPF 实现了应用性能指标、分布式追踪、持续性能剖析等观测信号的零侵扰(Zero Code)采集,并...