在生产环境中,一个网站或服务端应用出现响应迟缓的时候,就应该考虑是否由于用户量太多,导致服务器难以处理的情况,并应该考虑花钱来解决这个问题。当然,这里首先会想到廉价的解决方式,比如通过调整服务器配置,优化代码性能等,但这些方式技术成本和时间成本大,有的时候优化效果也并不理想。而最简单粗暴,也是最有效的方式,就是我们俗称的“加机器”。本文就来谈一谈服务器横向扩展。
1. 单台服务器的扩展
一般而言,一台服务器上面,最起码要运行三个环境:服务器环境、程序语言执行环境、数据库环境。对于我们用PHP进行开发的网站,一般会考虑Apache+NGINX+MySQL+Redis+PHP来跑整个系统,其中,nginx处理静态资源响应,apache处理php进程,mysql负责数据存储,redis负责经常需要进行调用的临时性数据。但是,在这个环境中,我们往往忽视一个非常重要的因素,那就是服务器本身的硬件配置。首先是CPU和内存,这是我们比较容易想到的,CPU决定了服务器的运算速率,内存决定了一个程序系统能够在一定时间内存放的变量和数据结构吞吐。程序对内存的操作,速度会比对硬盘的读写快很多,直到内存中的空间被释放回收。而如果内存不足,则会导致程序无法完成高效的内存数据读写,拖慢网站或应用速度。除了CPU和内存,另一个被忽视的因素就是硬盘。传统的机械硬盘在读写时,依赖硬盘的转速,而无论如何,只要硬盘要转,就会花费时间。
因此,单台服务器的扩展主要是增多、扩大CPU,增加内存,增加硬盘,或更换固态硬盘。于此同时,增加宽带来提高网络容量。这是横向扩展中最容易做到的,一般向服务商提供申请,或直接购买就可以完成。
2. 数据库和程序进程分离
PHP+MySQL的网站,其实比较大的局限在于MySQL的连接和执行效率。几乎所有的公司都要求PHP程序员掌握MySQL的优化方法,但是无论如何优化,始终会有一个瓶颈,这个瓶颈一方面是由服务器硬件IO带来的。因此,在很多访问量比较大,或数据处理压力比较大的项目中,都会采用数据库服务器和程序服务器分离的方法。
数据库服务器和程序执行服务器的性能配置根据实际情况而定,有的时候,数据库的压力更大,因此数据库服务器配置更加高。这种扩展方式实现起来也比较简单,例如在阿里云购买服务器,新增一台与原来服务器在同一个网段的服务器,新服务器不安装apache和nginx,只安装mysql,停用原来服务器中的mysql,迁移数据后,通过局域网IP,将程序的数据库连接到这台新的服务器上。
目前市面上有不同服务商的云数据库服务,但从价格而言,云数据库的价格经常高于一台普通云服务器的价格,对于中小型项目而言,采用两台服务器的成本低于购买云数据库服务来代替数据库服务器的费用。
3. 静态资源与程序脚本的分离
服务器的静态资源不仅占用服务器的存储空间,同时还占用服务器的IO,当同一个静态资源,例如图片、视频、css文件、js文件、其他格式的文件等等被反复请求时,服务器需要反复请求读文件。机械硬盘的转速最高有一个极限,当静态文件的请求将动态文件的请求挤出队列的时候,网站程序的反应会变得很慢。因此,当有必要的时候,将静态资源与程序脚本进行分离,并使用CDN来对静态资源进行节点缓存,不仅可以降低对服务器资源的消耗,也可以加快响应速度。
上图中出现了三台服务器,其中nginx服务器,不仅承担了静态资源服务器,而且还承担端口代理的角色。因为用户访问网站的入口只有一个,所以不可能同一次访问到达两台服务器;而且,也需要有一个程序来识别,用户的这个请求到底是要请求静态资源,还是请求程序。这种扩展方式被广泛用在中小型项目中,用以减轻服务器的巨大压力。
4. 均衡负载:多台服务器执行程序,将大量请求分摊给多台服务器
无论如何,一台服务器的进程是有限的,我们不可能无限制的把一台服务器的CUP加到64个,把内存加到1T,则是不可能的。因此,出现了均衡负载技术,通过将多台服务器组合成一组可以完成相同任务的服务器,当用户发出请求时,根据每台服务器的运行状态,让那些相对而言有富余的服务器来执行这个用户的请求。
上图中,出现了多台Apache服务器,这些服务器的配置不一定相同,但是他们的环境一定是一样,每一台上面都存放着相同的程序代码,能够保证同一个请求,无论到达哪一台服务器进行执行,都能得到相同的结果。而上图中多出了一个“控制器”,一般而言,有两种方式来进行控制,一种是DNS,也就是域名解析的时候,根据访问压力情况,解析到不同的服务器上面去;另一种则是域名统一解析到一台固定的服务器,由这台服务器来决定这个请求应该由哪一台服务器来进行处理。
虽然从上图中,我们能够简单的理解这种扩展模式,但是实际生产中,会遇到非常严重的问题。例如,session怎么来处理?服务器的读写怎么来解决同步性问题?数据库的写入和更新顺序怎么来解决等等。由于程序被不同的服务器执行,这就导致不同服务器之间执行附带行为结果产生不同,例如日志,同一个用户的日志可能散落在不同的服务器上,怎么样确保在进行日志调用的时候,能够将这些日志统一处理呢?这里面都还有很多问题去解决。
5. 主从数据库
从上面的图形进化来看,数据库服务器的均衡负载也是必要的。但是和程序执行服务器的均衡负载不同,不是在每台服务器上面丢相同的一套程序就可以满足数据库问题的。和程序的均衡负载有着极大的不同,由于数据库是随时随地都要用的,它的读写是即时的,不可能像程序一样,在每一台服务器上放上相同的代码就可以解决问题,如果处理不好,很有可能导致用户请求的时候,一会儿有数据,一会儿没数据。主从数据库的概念很早就有,简单的理解就是将数据库的读写操作分离,读操作由从数据库完成,写操作由主数据库完成,写完之后,立即将数据同步到从数据库。
为了解决数据库的均衡负载问题,主从数据库技术也进行了多次升级,但是就目前而言,仍然没有从理论上达到完美解决这种问题。由于查询动作没有造成文件的变化,因此实际上和程序代码的均衡负载一样,从数据库也可以由多个服务器来协同完成,只不过在执行写入更新操作之后,主数据库要同步到所有的从数据库。
因此,在这种情况下,采用云数据库,则是一种比较明智的选择。
为了解决这种复杂的服务器横向扩展问题,新浪云SAE、阿里云ACE、百度云BAE,以及未来腾讯云也要推出的云引擎,这些云计算服务以统一的策略,为我们提供了架构问题,也就是说,在这些云引擎中去运行我们的程序,就不用再过多的考虑均衡负载问题。云引擎的架构远不止这种均衡负载这么简单,如果你去深入研究新浪云的架构,就会为这种牛X的设计惊叹。云引擎+云数据库+CDN,就像一把利剑为我们的项目解决了服务器的基础问题,这也是这个时代云计算服务商的伟大之处。
我的个人博客 www.tangshuang.net 偶尔写一些学习中的感想和经验,希望有相同兴趣的朋友到博客来交流。
写文章不容易啊,如果你觉得本文还不错,打个赏吧
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。