前言
现如今,各种类型的数据正在以爆炸性的方式迅速增长,大数据的出现正迫使企业不断提升自身以数据中心为平台的数据处理能力。同时,云计算、虚拟化等技术正不断为数据中心的发展带来新的推动力,并正在改变传统数据中心的模式。本章将介绍数据中心的概念,数据中心的发展历史,数据中心的组成单元一一服务器,以及数据中心的选址及能耗问题。
一、数据中心的概念
数据中心(DataCenter)通常是指在一个物理空间内实现信息的集中处理、存储、传输、交换、管理,而计算机设备、服务器设备、网络设备、存储设备等通常认为是网络核心机房的关键设备。
关键设备运行所需要的环境因素,如供电系统、制冷系统、机柜系统、消防系统、监控系统等通常被认为是关键物理基础设施。
电子机房主要有计算机机房、电信机房、控制机房、屏蔽机房等。这些机房既有电子机房的共性,也有各自的特点,其所涵盖的内容不同,功能也各异。
(一)计算机机房 计算机机房内放置重要的数据处理设备、存储设备、网络传输设备及机房保障设备。计算机机房的建设应考虑以上设备的正常运行,确保信息数据的安全性以及工作人员身心健康的需要。 大型计算机机房一般由无人区机房、有人区机房组成。无人区机房一般包括小型机机房、服务器机房、存储机房、网络机房、介质存储间、空调设备间、UPS设备间、配电间等;有人区机房一般包括总控中心机房、研发机房、测试机房、设备测试间、设备维修存储间、缓冲间、更衣室、休息室等。 中、小型计算机机房可将小型机机房、服务器机房、存储机房等合并为一个主机房。
(二)电信机房 电信机房是每个电信运营商的宝贵资源,合理、有效、充分地利用电信机房,对于设备的运行维护、快速处理设备故障、降低成本、提高企业的核心竞争力等具有十分重要的意义。 电信机房一般是按不同的功能和专业来区分和布局的,通常分为设备机房、配套机房和辅助机房。 设备机房是用于安装某一类通信设备,实现某一种特定通信功能的建筑空间,便于完成相应专业内的操作、维护和生产,一般由传输机房、交换机房、网络机房等组成。配套机房是用于安装保证通信设施正常、安全和稳定运行设备的建筑空间,一般由计费中心、网管监控室、电力电池室、变配电室和油机室等组成。 辅助机房是除通信设施机房以外,保障生产、办公、生活需要的用房,一般由运维办公室、运维值班室、资料室、备品备件库、消防保安室、新风机房、钢瓶间和卫生间等组成。在一般智能建筑中通信机房经常与计算机网络机房合建。
(三)控制机房 随着智能化建筑的发展,为实现对建筑中智能化楼宇设备的控制,必需设立控制机房。控制机房相对于数据机房、电信机房而言,机房面积较小,功能比较单一,对环境要求稍低。但却关系到智能化建筑的安全运行及设备、设施的正常便用。 控制机房包括楼宇智能控制机房、保安监控机房、消防控制室、卫星接收机房、视频会议控制机房等。这些控制机房的共同特点是机房内均有操作人员工作,在保证电子设备运行的同时还要保证操作人员的身体需要。根据设备及操作的要求,这些控制机房也有其相应的特点。(1)楼宇智能控制机房。主要用于安放楼宇智能控制的主机及控制设备,对智能建筑内的公共照明、空调系统、电梯及建筑内的风、水、电等机电设备进行实时监控,以确保智能建筑的安全运行。(2)保安监控机房。内设监控主机及终端显示设备,对建筑各出入口、车库、走道、电梯轿箱等处进行视频监控、防盗报警等。(3)消防控制室。是火灾自动报警和联动系统的控制中心,也是火灾时灭火指挥和信息中心,具有十分重要的地位和作用。《高层民用建筑设计防火规范》和《建筑设计防火规范》等对消防监控机房的设置范围、位置、建筑耐火性能都作了明确规定,并对其主要功能提出原则性要求。(4)卫星接收机房。主要用于安放卫星接收机、调制解调器、混合器、放大器、有线光缆接入设备、各频段接受显示器等。卫星接收机房一般是位于建筑顶层,有利于卫星电视信号的传输。(5)视频会议控制机房。主要用于安放视频会议主控单元(MCU)、调音台、音响扩声系统、信号传输设备、控制台设备、信号源机柜等。但由于一般的视频会议控制机房面积较小,在设备布置时应根据房间的具体情况灵活布置。
(四)屏蔽机房 为了有效地防止电磁干扰式噪声、辐射对电子设备和测量仪器的影响,并严防电子信号泄漏从而威胁到机密信息的安全,国家机关、军队、公安、银行、铁路等单位需要建立屏蔽机房。有保密要求的数据机房应建设屏蔽机房,确保数据在处理过程中,其信号不泄漏,从而满足数据保密的要求。一些对抗电磁干扰要求较高的环境,如通信设备的测试试验室等场所,需要建设屏蔽机房,以防止外界电磁信号的干扰。有强电磁干扰设备的机房应进行相应的电磁屏蔽处理,以避免干扰临近机房设备的正常还行。
二、数据中心的基本单元——服务器
什么是服务器
服务器是指能向网络用户提供特定服务的软件和硬件。这个服务器的定义包含了以下两个方面的内容:一方面,服务器的作用是为网络提供特定的服务,而人们通常会以服务器所能提供的服务来命名服务器,如提供文件共享服务的服务器称为文件服务器,提供打印队列共享服务的服务器称为打印服务器等;另一方面,服务器是软件和硬件的统一体,特定的服务程序需要运行在特定的硬件或一般通用的微机上才能完成服务功能,由服务程序完成服务策略,并通过硬件实现所需的服务,如文件服务依靠大容量硬盘,打印服务需要高速打印机。
由于整个网络的用户均依靠不同的服务器提供不同的网络服务,因此,网络服务器是网络资源管理和共享的核心。网络服务器的性能对整个网络的共享性能有着决定性的影响。
服务器分类
按照不同的分类标准,服务器分为许多种。
1、按网络规模划分
按网络规模划分,服务器分为工作组级服务器、部门级服务器、企业级服务器。
工作组级服务器用于联网计算机在几十台左右或者对处理速度和系统可靠性要求不高的小型网络,其硬件配置相对比较低,可靠性不是很高。
部门级服务器用于联网计算机在百台左右、对处理速度和系统可靠性中等的中型网络,其硬件配置相对较高,其可靠性居于中等水平。
企业级服务器用于联网计算机在数百台以上、对处理速度和数据安全要求最高的大型网络,硬件配置最高,系统可靠性要求最高。
需要注意的是,这三种服务器之间的界限并不是绝对的,而是比较模糊的,比如工作组级服务器和部门级服务器的区别就不是太明显,有的干脆统称为“工作组/部门级”服务器。
2、按架构划分
按照服务器的结构,可以分为CISC架构的服务器和RISC架构的服务器。
CISC架构主要指的是采用英特尔架构技术的服务器,即我们常说的“PC服务器”;RISC架构的服务器指采用非英特尔架构技术的服务器,如采用Power PC、Alpha、PA-RISC、Sparc等RISC CPU的服务器。
RISC架构服务器的性能和价格比CISC架构的服务器高得多。近几年来,随着PC技术的迅速发展,IA架构服务器与RISC架构的服务器之间的技术差距已经大大缩小,用户基本上倾向于选择IA架构服务器,但是RISC架构服务器在大型、关键的应用领域中仍然居于非常重要的地位。
3、按用途划分
按照使用的用途,服务器又可以分为通用型服务器和专用型(或称“功能型”)服务器,如实达的沧海系列功能服务器。
通用型服务器是没有为某种特殊服务专门设计的可以提供各种服务功能的服务器,当前大多数服务器是通用型服务器。
专用型(或称“功能型”)服务器是专门为某一种或某几种功能专门设计的服务器,在某些方面具有与通用型服务器有所不同。如光盘镜像服务器是用来存放光盘镜像的,那么需要配备大容量、高速的硬盘以及光盘镜像软件。
4、按外观划分
按照服务器的外观,可以分为台式服务器(又称“塔式服务器”)和机架式服务器。
台式服务器有的采用大小与立式PC台式机大致相当的机箱,有的采用大容量的机箱,像一个硕大的柜子一样,有的台式服务器可以利用外挂导轨改装成机架式服务器。
机架式服务器的外形看起来不像计算机,而是像交换机,有1U(1U=1.75英寸)、2U、4U等规格。
服务器硬件
其实服务器系统的硬件构成与我们平常所接触的电脑有众多的相似之处,主要的硬件构成仍然包含如下几个主要部分:中央处理器、内存、芯片组、I/O总线、I/O设备、电源、机箱和相关软件。这也成了我们选购一台服务器时所主要关注的指标。
整个服务器系统就像一个人,处理器就是服务器的大脑,而各种总线就像是分布于全身肌肉中的神经,芯片组就像是骨架,而I/O设备就像是通过神经系统支配的人的手、眼睛、耳朵和嘴;而电源系统就像是血液循环系统,它将能量输送到身体的所有地方。
对于一台服务器来讲,服务器的性能设计目标是如何平衡各部分的性能,使整个系统的性能达到最优。如果一台服务器有每秒处理1000个服务请求的能力,但网卡只能接受200个请求,而硬盘只能负担150个,而各种总线的负载能力仅能承担100个请求的话,那这台服务器得处理能力只能是100个请求/秒,有超过80%的处理器计算能力浪费了。 所以设计一个好服务器的最终目的就是通过平衡各方面的性能,使得各部分配合得当,并能够充分发挥能力。我们可以从这几个方面来衡量服务器是否达到了其设计目的;R:Reliability——可靠性;A:Availability——可用性;S:Scalability——可扩展性;U:Usability——易用性;M:Manageability——可管理性,即服务器的RASUM衡量标准。
由于服务器在网络中提供服务,那么这个服务的质量对承担多种应用的网络计算环境是非常重要的,承担这个服务的计算机硬件必须有能力保障服务质量。这个服务首先要有一定的容量,能响应单位时间内合理数量的服务器请求,同时这个服务对单个服务请求的响应时间要尽量快,还有这个服务要在要求的时间范围内一直存在。
如果一个WEB服务器只能在1分钟里处理1个主页请求,1个以外的其他请求必须排队等待,而这一个请求必须要3分钟才能处理完,同时这个WEB服务器在1个小时以前可以访问到,但一个小时以后却连接不上了,这种WEB服务器在现在的Internet计算环境里是无法想象的。
现在的WEB服务器必须能够同时处理上千个访问,同时每个访问的响应时间要短,而且这个WEB服务器不能停机,否则这个WEB服务器就会造成访问用户的流失。
为达到上面的要求,作为服务器硬件必须具备如下的特点:性能,使服务器能够在单位时间内处理相当数量的服务器请求并保证每个服务的响应时间;可靠性,使得服务器能够不停机;可扩展性,使服务器能够随着用户数量的增加不断提升性能。因此我们说不能把一台普通的PC作为服务器来使用,因为,PC远远达不到上面的要求。这样我们在服务器的概念上又加上一点就是服务器必须具有承担服务并保障服务质量的能力。这也是区别低价服务器和PC的差异的主要方面。
在信息系统中,服务器主要应用于数据库和Web服务,而PC主要应用于桌面计算和网络终端,设计根本出发点的差异决定了服务器应该具备比PC更可靠的持续运行能力、更强大的存储能力和网络通信能力、更快捷的故障恢复功能和更广阔的扩展空间,同时,对数据相当敏感的应用还要求服务器提供数据备份功能。而PC机在设计上则更加重视人机接口的易用性、图像和3D处理能力及其他多媒体性能。
服务器内存
服务器内存重要性阐述
服务器运行着企业关键业务,一次内存错误导致的宕机将使数据永久丢失。本身内存作为一种电子器件,很容易出现各种错误。
因此,面临着企业事实的压力和本身的不足,各个厂商都早已积极推出自己独特的服务器内存技术,像HP的“在线备份内存”和热插拔镜像内存;IBM的ChipKill内存技术和热更换和热增加内存技术。而随着企业信息系统的扩展所需,内存的密度和容量也将会得到相应的发展。
服务器内存性能探讨
服务器内存也是内存,它与我们平常在电脑城所见的普通内存在外观和结构上没有什么实质性的区别,它主要是在内存上引入了一些新的技术,仅从外观上是不得出什么结论的。这样或许你就担心了,如果别人拿普通PC机的内存条当服务器内存条卖给你,咋办?这一般来说可以放心,其可能性几乎为零。因为普通PC机上的内存在服务器上一般是不可用的,这也说明服务器内存不能随便为了贪便宜而用普通PC机的内存来替代就可了事。
如今常用的服务器内存主要有SDRAM和DDR二类,还有另一种RAMBUS内存,是一种高性能、芯片对芯片接口技术的新一代存储产品。现在刚兴起的DDR2,也逐渐延伸到服务器内存。现代Hynix在2010年六月份已经开始量产供服务器和工作站使用的DDR2内存了。
而从技术层面来说,之所以与普通内存有着区别,都是因为ECC。这是ErrorChecking and Correcting的简写。它广泛应用于各种领域的计算机指令中。ECC和奇偶校验(Parity)类似。然而,在那些Parity只能检测到错误的地方,ECC实际上可以纠正绝大多数错误。经过内存的纠错,计算机的操作指令才可以继续执行。这在无形中也就保证了服务器系统的稳定可靠。但ECC技术只能纠正单比特的内存错误,当有多比特错误发生的时候,ECC内存会生成一个不可隐藏(non-maskable interrupt)的中断(NMI),系统将会自动中止运行。
服务器CPU
服务器CPU,顾名思义,就是在服务器上使用的CPU(Central Processing Unit中央处理器)。接触过局域网络的读者一定知道,服务器是网络中的重要设备,要接受成千上万用户的访问,因此对服务器具有大数据量的快速吞吐、超强的稳定性、长时间运行等严格要求。所以才将CPU比喻成计算机的“大脑”,同时CPU也是衡量服务器性能的首要指标。
目前,服务器的CPU仍按CPU的指令系统来区分,通常分为CISC型CPU和RISC型CPU两类,后来又出现了一种64位的VLIM(Very Long Instruction Word超长指令集架构)指令系统的CPU。
CISC型CPU
CISC是英文“Complex Instruction Set Computer”的缩写,中文意思是“复杂指令集”,它是指英特尔生产的x86(intel CPU的一种命名规范)系列CPU及其兼容CPU(其他厂商如AMD,VIA等生产的CPU),它基于PC机(个人电脑)体系结构。这种CPU一般都是32位的结构,所以我们也把它成为IA-32 CPU。(IA: Intel Architecture,Intel架构)。CISC型CPU目前主要有intel的服务器CPU和AMD的服务器CPU两类。
RISC型CPU
RISC是英文“Reduced Instruction Set Computing ”的缩写,中文意思是“精简指令集”。它是在CISC(Complex Instruction Set Computer)指令系统基础上发展起来的,相对于CISC型CPU ,RISC型CPU不仅精简了指令系统,还采用了一种叫做“超标量和超流水线结构”,架构在同等频率下,采用RISC架构的CPU比CISC架构的CPU性能高很多,这是由CPU的技术特征决定的。RISC型CPU与Intel和AMD的CPU在软件和硬件上都不兼容。
[编辑]
服务器的选择原则[2]
服务器是指客户机/服务器(或浏览器用服务器)网络上的一些机器,管理着应用程序、数据和网络资源。客户机请求服务,而服务器提供服务。早期的服务器主要用来管理数据文件或网络打印机。现在,服务器则用来完成其他各种服务,如网络管理、各种各样的信息服务处理、基础安全性的访问等。
服务器可以是集中式服务器,也可以是专用服务器。集中式服务器是指将网络上的多项任务集中到单个主机上,可用来处理网络上的所有打印机、应用程序和数据共享任务。集中式服务器必须是高性能的计算机,以便及时、有效地处理网络上的各种请求。专用服务器则是指一台服务器主机只对应于一种服务,如应用程序服务器、数据文件服务器、电子邮件服务器、打印服务器等,专用服务器可以支持不同客户,因为负载分布于多台机器上。
总之,从逻辑上看,服务器是对应于客户机的一种服务,一种服务程序。
作为服务器的计算机一般是高档微型计算机或小型计算机。一般而言,选择服务器时通常要考虑以下几个方面的性能指标。
1)可管理性
可管理性是指服务器的管理是否方便、快捷,应用软件是否丰富。在可管理性方面,基于Widows NT/2000平台的个人计算机服务器要优于Unix服务器。
2)可用性
可用性是指在一般时间内服务器可供访问者正常使用的时间的百分比。.提高可用性有两个方面的考虑:减少硬件平均故障时间和利用专用功能机制。专用功能机制可在出现故障时自动执行系统或部件切换机制,以避免或减少意外停机。
3)高性能
这是指服务器综合性能指标要高。主要要求在运行速度、磁盘空间、容错能力、扩展能力、稳定性、监测功能及电源等方面具有较高的性能指标。尤其是硬盘和电源的热插拔性能、网卡的自适应能力的性能指标要高。
4)可扩展性
为了使服务器随负荷的增加而平稳升级,井保证服务器工作的稳定性和安全性,必须考虑服务器的可扩展性能。首先在机架上要有为硬盘和电源的增加而留有的充分空间,其次主机上的插槽不但要种类齐全,而且要有一定的余量。
5)模块化
模块化是指电源、网卡、SCSI卡、硬盘等部件为模块化结构,且都是有热插拔功能,可以在线维护,从而使系统停机的可能性大大减少。特别是分布式电源技术可使每个重要部件都有自己的电源。
以上几个方面是所有网站在选购服务器时要重点考虑的因素。它们之间既互相影响,又各自独立。在具体使用时,这些方面的重要性因服务器工作任务的不同也有轻重之分,因此必须综合权衡。此外,晶牌、价格、售后服务及厂商实力等因素也需要考虑在内。
网络服务器[3]
网络服务器是计算机局域网的核心部件。网络操作系统是在网络服务器上运行的,网络服务器的效率直接影响整个网络的效率。因此,一般要用高档计算机或专用服务器计算机作为网络服务器。网络服务器主要有以下4个作用。
·运行网络操作系统,控制和协调网络中各计算机之间的工作,最大限度地满足用户的要求,并做出响应和处理。
·存储和管理网络中的共享资源,如数据库、文件、应用程序、磁盘空间、打印机、绘图仪等。
·为各工作站的应用程序服务,如采用客户/服务器(Client/Server)结构使网络服务器不仅担当网络服务器,而且还担当应用程序服务器。
·对网络活动进行监督及控制,对网络进行实际管理,分配系统资源,了解和调整系统运行状态,关闭/启动某些资源等。
刀片服务器vs.机架服务器vs.塔式服务器
如今的服务器有几种不同的种类和配置。在数据中心中,采用刀片服务器、机架服务器还是塔式服务器的决策将影响数据中心的性能、空间、预算以及可扩展性。
如今的服务器有几种不同的种类和配置。在数据中心中,采用刀片服务器、机架服务器还是塔式服务器的决策将影响数据中心的性能、空间、预算以及可扩展性。
以下是机架式服务器、刀片式服务器、塔式服务器的快速入门指南:用户可以了解它们的优缺点,以及每种类型如何适合其服务器需求。
在深入探讨之前,先简要了解一下一些基本信息:
•机架服务器通常安装在10英尺高的标准机架上,从而使数据中心可以有效地部署数十个机架的服务器。
•刀片服务器是安装在服务器机柜中采用小型电路板的服务器,是在紧凑环境中实现高处理能力的绝佳选择。
•塔式服务器具有高度的优化和自定义功能,使用户可以根据自己的需求匹配更高的配置。
什么是机架服务器?
机架服务器是安装在机架内部的服务器。机架服务器通常是支持广泛的应用程序和计算基础架构的通用服务器。服务器垂直堆叠在机架中,以节省数据中心的空间。
标准化机架以1.75英寸高、19英寸宽的单位(U)计量。机架式服务器通过垂直倍增的方法适应这些尺寸,这意味着机架服务器的高度可能是1U、4U、10U或更高,例如和2016年推出的10英尺高的70U机架一样。另外还制造了符合机架单元标准的附加设备,因此用户可以充分利用机架空间。
机架式服务器专业版
•独立式:每个机架式服务器都有作为独立或网络系统运行所需的一切:其自身的电源、CPU和内存。这使得机架式服务器能够运行密集的计算操作。
•效率:机架式服务器可高效利用有限的数据中心空间,并且能够通过额外的内存、存储和处理器轻松扩展。如果管理员共享或集群服务器数据以获得冗余,则热插拔机架式服务器在操作上很简单。
•经济高效:以较低的成本提高管理和能源效率。
机架服务器的缺点
•电源使用:紧凑的机架需要更多的冷却装置,这会增加能源成本。大量的机架服务器将总体上提高能源需求。
•维护:密集的机架需要更多的故障排除和管理时间。
什么是刀片服务器?
刀片服务器是由多个模块化电路板构建而成。大多数刀片服务器由CPU、网络控制器和内存构建而成,也有一些刀片服务器配备内部存储驱动器。其他任何组件(例如开关、端口和电源连接器)都通过机箱共享。
刀片服务器机箱通常采用机架通用的尺寸,从而可以节省部署空间。管理员可以将刀片服务器集群化,或者将每台刀片服务器作为单独的服务器进行管理和操作,例如将应用程序和最终用户分配给特定的刀片服务器。他们的模块化架构支持热插拔操作。在刀片服务器外部有一个小手柄,因此插拔或更换刀片服务器很简单。
刀片服务器具有强大的处理能力,可以满足复杂的计算需求。如果数据中心具有足够的散热和能量来支持密集的基础设施,则它们可以扩展到更高的性能级别。
刀片服务器专业版
•低能耗:单独的机箱为多个刀片服务器供电,而不是为一个机架中的多台服务器供电和冷却。这样可以减少能源消耗。
•处理能力:刀片服务器提供更高的处理能力,同时占用更小的空间。
•多用途:它们可以承载主操作系统和虚拟机监控程序、数据库、应用程序、Web服务和其他企业级流程和应用程序。
•可用性:刀片服务器环境简化了集中式监视和维护、负载平衡以及集群故障转移。热插拔还有助于提高系统可用性。
刀片服务器的缺点
•前期成本:随着时间的推移,由于简化管理界面、降低能耗,将会降低运营费用。但是,初始投资、部署和配置成本可能很高。
•能源成本:高密度的刀片服务器需要先进的环境控制。为了保持刀片服务器的性能,加热、冷却和通风都是必要的开支。
什么是塔式服务器?
塔式服务器是采用独立机箱的服务器。它们使用最少的组件和软件进行制造,因此中型企业和客户可以针对特定任务大量定制服务器。例如,塔式服务器通常不附带其他组件,如高级显卡、更多内存或外围设备。
塔式服务器通常面向那些希望定制其服务器并维护自定义升级路径的客户。例如,客户可以将塔式服务器配置为通用服务器、通信服务器、Web服务器或使用HTTP协议集成的网络服务器。用户可以订购他们需要的定制服务,或者在塔式服务器运送到他们的站点时自己定制。另一种使用情况是小型企业需要一个功能强大的服务器来运行多个流程和应用程序。
塔式服务器从外观上看与台式机类似,而且和台式机一样,不共享输入设备。多台塔式服务器安装将需要单独的键盘、鼠标和显示器;或者可以共享外围设备的开关。它们可以像任何其他类型的服务器一样共享网络存储。
塔式服务器专业版
•高效的可扩展性:塔式服务器配置最少,因此它可以根据业务需要对其进行定制和升级,它们比满载的服务器价格更低。
•冷却成本低:由于组件密度低,冷却塔式服务器的成本低于紧凑的机架式服务器或刀片服务器。
塔式服务器的缺点
•升级费用。许多客户购买塔式服务器是为了定制,而不是为了降低投资成本。高端硬件组件和软件将显著提高其价格。
•占用空间大:塔式服务器不适合放在机架中,并占用更多的数据中心空间。需要打开机箱以进行故障排除和添加或升级内部组件。
•需要进行外围设备管理:在多个塔式服务器环境中,IT团队必须配备交换机或将外部设备重新插入每台单服务器。
刀片式服务器vs.机架式服务器vs.塔式服务器的概览
这三种类型的服务器都可以在数据中心工作。用户根据自己的实际需求进行选择。以下是关于适合用户的计算需求和数据中心构建的占地面积和架构。
三、数据中心地址
数据中心是全球协作的特定设备网络,用来在internet网络基础设施上传递、加速、展示、计算、存储数据信息。
在今后的发展中,数据中心也将会成为企业竞争的资产,商业模式也会因此发生改变。随着数据中心应用的广泛化,人工智能、网络安全等也相继出现,更多的用户都被带到了网络和手机的应用中。随着计算机和数据量的增多,人们也可以通过不断学习积累提升自身的能力,是迈向信息化时代的重要标志。
数据中心是全球协作的特定设备网络,用来在因特网络基础设施上传递、加速、展示、计算、存储数据信息。数据中心大部分电子元件都是由低直流电源驱动运行的。
数据中心的产生致使人们的认识从定量、结构的世界进入到不确定和非结构的世界中,它将和交通、网络通讯一样逐渐成为现代社会基础设施的一部分,进而对很多产业都产生了积极影响。不过数据中心的发展不能仅凭经验,还要真正的结合实践,促使数据中心发挥真正的价值作用,促使社会的快速变革。
随着数据中心行业在全球的蓬勃发展,随着社会经济的快速增长,数据中心的发展建设将处于高速时期,再加上各地政府部门给予新兴产业的大力扶持,都为数据中心行业的发展带来了很大的优势。随着数据中心行业的大力发展,将来在很多城市中都会有很大的发展空间,一些大型的数据中心也会越来越多。2017年全球经历了前所未有的自然灾害之后,很多数据中心管理人员都在积极制定灾难恢复计划。例如就可以通过云计算工具对电力使用的功率进行限制,在遭遇停电时间时将允许以降低的功率继续运行,可以为电力企业的正常运行提供有效的保障。还可以利用数据中心指定备份计划,对服务器的操作进行拓展,就不需要通过关闭和重启服务器操作。
数据中心是与人力资源、自然资源一样重要的战略资源,在信息时代下的数据中心行业中,只有对数据进行大规模和灵活性的运用,才能更好的去理解数据,运用数据,才能促使我国数据中心行业快速高效发展,体现出国家发展的大智慧。海量数据的产生,也促使信息数据的收集与处理发生了重要的转变,企业也从实体服务走向了数据服务。产业界需求与关注点也发生了转变,企业关注的重点转向了数据,计算机行业从追求的计算能力转变为数据处理能力,软件业也将从编程为主向数据为主转变,云计算的主导权也将从分析向服务转变。
在信息时代下,数据中心的产生,更多的网络内容也将不再由专业网站或者特定人群所产生,而是由全体网民共同参与。随着数据中心行业的兴起,网民参与互联网、贡献内容也更加便捷,呈现出多元化。巨量网络数据都能够存储在数据中心,数据价值也会越来越高,可靠性能也在进一步加强。
常见故障
数据中心网络常见的通讯故障主要集中在:硬件故障、系统故障两个类别:
(1)硬件故障:
数据中心是通过无数计算机硬件组成的,硬件出现问题,就会导致部分功能无法正常发挥或运作。无论是设备、线路、端口,哪一点出现故障,都会导致网络通讯故障的出现。硬件方面的故障相对比较容易查找,例如线路故障,一般的成因就是线路明显的老化或者破损,而影响到了整体网络的运营;再比如,端口故障,计算机端口作为数据中心网络的重要环节,若出现接触不良、损坏等传输问题,就会影响到整体网络的运行。硬件故障只要进行逐一排查,就可以及时进行更换处理,相对比较好解决。
(2)系统故障:
数据中心是计算机领域比较热门的研究之一,因此研究技术十分成熟。计算机网络构成主要包括TREE、FAT-TREE、BCUBE、FICONN等,主要采用模块化、层次化、扁平化的设计思路与虚拟化的分割管理技术,将成千上万台设备,以单元为单位进行划分,逐一进行管理。通过分层、递归的结构进行联结,尽可能的避免了所谓“关键节点”的存在。这样组合也形成了良好的冗余与容错性,如果其中出现故障的某一个或某几个单元,没有被检测出来,也不至于影响数据中心的整体运行。但是如果超出一定比例,就会在影响数据中心网络的高速运行,拉慢网络通讯的速度,所以仍旧需要针对性的查找故障进行处理。
故障处理
(1)分析故障现象:
一般来说由于构成组件比较复杂,故障也呈现出不同的表现方式。因此想要对于故障进行分析,就要先了解故障的现象。例如,应用方面出现了支付系统支付不了,网页难以打开等问题,那么就要逐一检查相关的故障点,有哪几个故障是上述表现,如,线路故障,端口故障等,就要更换线路、端口等设备。因此,需要针对数据中心网络的几种常见的故障进行收集与整理,根据现象,进行检索、查找。
(2)测试并确认故障范围,进行故障点定位。
所有的应用业务是在这些物理硬件正常运行的基础上开展的,其中某些硬件出现问题就会导致故障。根据故障的表现,需要针对各个部分进行筛选检查,例如,对于服务器进行测试,检查网络设备等。针对问题表现,进行逐一排除,最终敲定故障点所在位置。
(3)如果以上硬件故障都已经排除,那么就是计算机系统的故障,这一故障需要建立故障模型进行诊断,根据PMC模型进行定义。通过分层测试的方法,查找问题单元,即正常单元测试正常单元、正常单元测试故障单元、故障单元测试故障单元、故障单元测试正常单元等四种。其中后三种的检测结果都是故障,因此就可以通过分层测量的方式,建立有限个单元,通过矩阵以及萤火虫算法重点FAFD算法对于其他单元进行诊断,最终确定故障的系统是哪个或者哪几个单元的。当然也可以通过镜像、流量统计、抓包等其他手段确定故障所在的设备范围,进而缩小范围,集中处理某一个或者几个设备。
(4)收集重要的数据信息。
在进行故障处理时,通过收集设备的日志、诊断、操作记录等信息资料,将这些数据资料进行汇总,条件允许的情况下,建立故障数据库,对于常见问题可以做到“出现即处理”,对于没有出现过的故障,可以继续收集进数据库。总之,必要的信息收集,有利于日后更好的查找故障原因,确保数据中心网络健康、平稳运行。
发展前景
数据中心
在信息时代下,数据中心也为更多企业带来了便利和经济效益,例如腾讯公司的QQ,几乎每一个手机用户都有。还有百度的出现,可以为用户提供更便捷和智能的各种搜索服务,用户可以在百度中准确地获取病症的原因、症状、治疗信息等,还可以通过百度在线咨询医生,在线挂号,大大降低了人们获得医疗信息和服务的门槛。还有阿里巴巴的云计算、微信等出现,更一步的促进了数据中心的发展。在今后的发展中,数据中心也将会成为企业竞争的资产,商业模式也会因此发生改变。随着数据中心应用的广泛化,人工智能、网络安全等也相继出现,更多的用户都被带到了网络和手机的应用中。随着计算机和数据量的增多,人们也可以通过不断学习积累提升自身的能力,是迈向信息化时代的重要标志。
冷却技术
数据中心冷却技术的发展有以下趋势。
一、末端冷却设备贴近服务器
以前数据中心机房普通采用房间级空调,地板下送风的冷却方式。该方式建设成本低,机房利用率高,用于解决3~5kW的单机柜发热。但随着机架式、刀片式服务器在机房大量应用,单机柜内设备数量、功率密度、发热密度都有显著提高。传统的机房级空调已经不能解决IT设备的散热问题,行级空调、背板空调应运而生。这种新型的空调末端更贴近热源,能解决局部热点、高发热密度的问题,通过近距离的冷量传输,减小风机功耗,达到节能。不论房间级空调,还是行级空调、背板空调,都是先冷却空气,再通过冷空气与服务器的CPU进行热交换来降温。由于空气的换热效率、热流密度很低,空冷服务器有冷却能耗高、噪声大、设备密度低等问题。为解决超高功率密度IT设备散热难题,数据中心开始采用液冷技术,使用工作流体作为中间热量传输的媒介,将热量从发热区传递到远处再进行冷却。液冷技术冷却效率显著高于风冷散热,可有效解决高密度服务器的散热问题,降低冷却系统能耗而且减少噪声。
二、重视冷却系统节能
随着数据中心的竞争加剧,运营成本的压力增大,冷却系统的节能研究迫在眉睫。随着耐高温服务器的出现,越来越多的数据中心逐步尝试开发使用free-cooling(自然冷却)。自然冷源的利用主要有以下2种方向。
1、新风直接冷却
典型的案例就是Facebook在美国俄勒冈州普林维尔的数据中心。室外新风经过滤处理后,进行加湿降温,然后通过风扇墙送入机架的进风口,室外新风经服务器加热后排到室外。这种方式对室外空气质量的要求高,宁夏中卫的一些数据中心尝试应用了该技术。
2、利用深层湖水、江水冷却
典型的案例是湖南省资兴市东江湖数据中心。东江湖为我国中南地区最大的人工湖,冷水资源丰富。东江湖面积160平方千米,蓄水量8.12×109立方米。其下游小东江水温常年低于10℃,水流稳定且水质达到国家一级标准。全年90%的时间不需要机械制冷,采用江水直冷冷却,预计年平均PUE为1.15。
应用
一个数据中心的主要目的是运行应用来处理商业和运作的组织的数据。这样的系统属于并由组织内部开发,或者从企业软件供应商那里买。像通用应用有ERP和CRM系统。一个数据中心也许只关注于操作体系结构或者也提供其他的服务。常常这些应用由多个主机构成,每个主机运行一个单一的构件。通常这种构件是数据库,文件服务器,应用服务器,中间件以及其他的各种各样的东西。数据中心也常常用于非工作站点的备份。公司也许预定被数据中心提供的服务。这常常联合备份磁带使用。备份能够将服务器本地的东西放在磁带上,然而,磁带存放场所也易受火灾和洪水的安全威胁。较大的公司也许发送他们的备份到非工作场所。这个通过回投而能够被数据中心完成。加密的备份能够通过Internet发送到另一个数据中心,安全保存起来。为了灾难恢复,各种大的硬件供应商开发了移动设备解决方案,能够安装并在短时间内可操作。供应商像思科系统,Sun微系统,IBM和HP开发的系统能够用于这个目的。
四、数据中心的能耗
数据中心能效指标对新建数据中心方案设计和在用数据中心运维管理等方面都具有十分重要的作用。目前,已经有几十种针对数据中心性能进行评价的指标,PUE、ASHRAE 90.4、CADE、EEUE等指标主要对数据中心能效进行评估。除了数据中心整体能效指标外,亦有大量针对数据中心设备、子系统等方面的能效评估指标,其中包括微模块、空调、服务器的能效指标。从设备级到系统级的能耗评价指标,在指导数据中心技术演进、设备研发、绿色运维、能耗模型优化等方面具有重要的意义。本文将主要介绍PUE、微模块和服务器的能效指标,从数据中心整体、子系统、设备3个维度梳理能效指标。
2007年,绿色网格(The Green Grid)提出PUE的概念,公式(1)为PUE的定义公式。
(1)
其中,Ptotal为数据中心总耗电,包含IT设备耗电、制冷耗电、照明耗电等;PIT为数据中心中IT设备耗电。在数据中心耗电中,IT设备耗电所占的比重越高,证明越少的电能被应用于制冷、照明等,能源利用效率越高。根据公式可知,PUE的值应该大于1,且其值越接近于1时,数据中心能源效率越高。
目前,PUE能效指标是业界公认的、影响范围较大的评估指标,我国政府、企业、科研机构都将PUE作为评估数据中心能效的重要依据。以PUE计算公式为基准,针对不同数据中心的特点和计算要求,PUE的计算方法会略有不同。以Google为例,公式(2)为其公布的PUE计算公式。
(2)
其中,ESIS代表对冷却装置、照明、办公场所及一些联网设备进行供电的设施变电站的能源消耗,EITS代表对服务器、网络、存储设备和机房空调(CRAC)进行供电的IT变电站的能源消耗,ETX代表中高压变压器损耗,EHV代表高压电缆损耗,ELV代表低压电缆损耗,EF代表现场燃料(包括天然气和燃油)的能源消耗,ECRAC CRAC代表能源消耗,EUPS代表对服务器、网络和存储设备的不间断供电(UPS)造成的能量损耗,ENet1代表类型1单位分电站供给的机房能源。根据Google官方的说明,采用以上方法得到的PUE结果更加苛刻。
(2)微模块能效指标
微模块集配电、制冷、监控、照明等于一体,可快速安装部署,是近年来数据中心领域研究的重点之一。模块化的数据中心由多个相对独立的微模块系统组成,微模块的能耗情况直接影响着数据中心的整体能耗情况。2018年11月,TGG(中国)发布《微模块产品PUE测试规范》,在标准方面对微模块能效指标、测量环境、测量步骤等进行规范。其中,微模块PUE定义与数据中心PUE定义相似,是微模块产品总输入能耗(IMDC Total Energy)与微模块产品IT设备能耗(IMDC IT Equipment Energy)的比值。为了统一测试条件,更加客观地评价不同条件下微模块的能效指标,测试规范要求测试在焓差实验室进行。测试规范又考虑了IT负载对PUE的影响,在模拟室外侧温度分别为-5℃、5℃、15℃、25℃、35℃的情况下,测量微模块IT负载为25%、50%、75%、100%情况下的PUE值。最终通过公式(3),得到微模块在不同地区某个负载下的全年平均PUE。其中,PUEaPUEe分别代表室外温度-5℃35℃时,某个负载下的PUE值;Ta~Tb代表某个地区全年温度分布系数。
3)服务器能效指标
研究机构和企业一直都在对服务器、存储设备、网络设备等进行能耗与节能的研究,以期可以制定评价标准、研发评测工具、推动节能技术发展。美国环境保护署(EPA)联合Intel、IBM、DELL等公司,于2009年发布能源之星服务器规范1.0版本,该规范成为业界较权威的服务器能效标准,并且规范在持续更新之中。在服务器电源方面,规范对电源效率和功率因素进行规范;在服务器方面,规范根据不同类型的服务器种类对空闲功耗情况提出要求,同时也对服务器的扩展组件功耗进行规范。
三、能耗模型建立过程
能耗模型建立过程中,应当遵循全系统、精确、快速、通用性、弹性、简单等原则。图1为能耗模型的建立过程,并将对能耗建立过程进行分析。
(1)能耗组成与关联情况分析
通过对数据中心总体架构、设备组成与分布、IT设备部署等情况进行分析,进而分析数据中心能耗组成、占比情况,并对影响能耗的因素进行逐一梳理;在得到数据中心设备能耗组成与环境条件后,对设备间、设备与环境间的关联和影响关系进行分析,为能耗模型选择建立基础。
(2)能耗模型选择
通过对能耗组成和关联情况的分析,并结合数据中心能耗数据采集和设备自动化控制等方面的因素,从数据中心总体、子系统、设备3个层级,综合选择适用于数据中心能耗建模、易于数据中心能耗优化的模型。同时,能耗模型宜根据数据中心实际情况和3个层级各自的特点,分别选择聚类、线性回归、深度学习等数据挖掘方法。
(3)能耗数据采集
数据是建模的关键,为实现能耗模型的建立,需使用传感器对数据中心实时运行数据进行采集。
(4)能耗模型训练与调优
模型和数据选择完成后,需要完成对模型的训练;在训练过程中,应当调整参数不断优化模型,并利用新生成的数据对模型的效果进行验证和改进。
(5)能耗模型应用
能耗建模的最终目的是通过能耗模型服务于数据中心能耗管理,提高能效。建模完成后可以对数据中心能耗情况进行预测,并为能效优化提供基础支撑。
能耗数据采集和建模方法选择是能耗建模的关键,其中能耗数据采集主要完成温度、负载、IT设备、UPS、空调等环境信息与设备状态的实时数据采集;能耗建模是以外部数据、历史数据、实时数据等为基础,结合聚类、线性回归算法、非线性回归算法、深度学习等数学模型,从而构建准确的能耗模型;能耗模型主要应用于数据中心状态预测、资源调度优化等方面。其中,能耗数据采集、能耗建模是数据中心能耗模型建立的重要步骤。
(一)能耗数据采集
数据中心能耗模型的建立依赖于数据中心监控数据的获取,而实时能耗分析与预测、设备动态调控等都对数据中心实时监测有更高的要求。因此,数据中心能耗模型建立的基础之一是进行能耗数据的采集。能耗数据采集主要包括以下方面:
(1)IT设备运行与负载情况:包含服务器、交换机、存储系统等设备,可以通过监控和采集上述设备的CPU、内存、流量等信息,实现设备业务运行状态的监控。
(2)数据中心硬件设备能耗数据:包含IT设备、供配电设备、制冷设备、照明设备等,应当从不同层级、不同粒度上监控设备及模块的电流、电压等相关信息。
(3)非IT类设备状态信息:包含空调、UPS等设备,主要监测设备的负载率、运行设置等情况。
(4)数据中心环境监测数据:包含数据中心内部机房温度和湿度、外部天气环境温度和湿度等,其中制冷系统的送回风温度等也应是重点监控信息。
能耗数据采集是能耗模型建立的基础,全面而详细的数据,有利于模型建立、能耗预测等后续工作的开展。因此,数据采集应当覆盖数据中心的各个方面,目前国内外数据中心建设、运维公司都在数据中心安装了大量的传感器,以便于实时了解数据中心的各种状态。根据Google在数据中心方面公开的资料,目前其数据中心的几千个传感器,实时采集温度、耗电量、泵速、设备运行设定等数据。相对而言,国内数据中心目前整体数据监控与采集仍然粗放,为实现能耗模型建立、精细化管理等目标,首先需要建立完善的状态监控与数据采集系统。
(二)能耗建模方法
学术界与产业界提出了诸多能耗模型的建立方法,部分方案已经通过实践验证,并取得了较好的效果。本文将主要对聚类、线性回归、深度学习3种模型建立方式进行讨论。
(1)基于聚类的能耗模型优化方案
聚类是一种无监督学习的方法,可以在无任何先知前提下,根据物体本身特性对其类别进行划分。将聚类算法应用于能耗模型,可以快速简单地发现不同能耗状态之间的关系,从而对能耗状态类别进行划分,并制定每种状态下的类别优化策略,实现能耗模型建立与能效优化的目标。
利用聚类进行能耗模型的建立与能效优化的过程中,首先应选择合适的聚类算法;然后调整参数实现对采集数据的类簇划分;再选取各个类簇中心,以其为研究基础,探讨能效优化的方法。在数据中心运维管理实践中,已经采用了聚类的方法。以聚类作为构建能耗模型的方法,优点是简单易行,但存在精度不高、优化方案工作量大等方面的问题。
(2)基于线性回归的能耗模型优化方案
回归分析通过建立模型,研究自变量与因变量之间的关系。在变量关系分析、预测、时间序列问题研究等方面具有重要的作用。回归分析又可分为线性回归、逻辑回归等不同的方法。而多元线性回归模型是能耗建模分析中常用的方法,其主要讨论因变量与多个自变量之间的线性关系。公式(4)为多元线性回归模型的计算公式。
(4)
线性回归不仅可以对数据中心总体能耗模型进行拟合,同时也应用在服务器、制冷系统等设备和子系统的能耗模型建立上。相对聚类,线性回归能够更加精准的建立能耗模型,但是当能耗变量较多、数据量较大时,模型建立将变得困难。
(3)基于深度学习的能耗模型优化方案
随着数据中心建设水平的不断提高,一方面监控设备的采样能力不断增强,采集数据的种类和数量都不断增多;另一方面,数据中心设备的自动化水平不断提高,集中化的精细式管控成为可能。多样与全面的数据,让构建更加优秀的模型成为可能,集中化的设备管控为数据中心能耗的降低提供基础;然而,与之而来的就是更加复杂的能耗模型构建,该模型需要根据每个数据中心的不同特点,建立设备间的相互影响关系,以及不同环境下设备的实时调控方式。
上述问题对传统能耗模型构建方式、传统设备调度策略带来了挑战。于是,各个机构开始尝试利用深度学习建立模型,并制定数据中心资源调度优化规则。通过深度学习训练CNN、RNN等神经网络,实现构建数据中心能耗模型,形成资源调度策略的目标。根据Google的公开资料,目前其已经将深度学习应用于数据中心能耗的管理。图2为Google应用深度学习管理能耗前后的PUE变化,应用深度学习后,制冷能耗减少40%,PUE降低约15%。利用深度学习能够通过处理大量的数据,建立更加复杂的模型;但与此同时,也对能耗数据采集、自动化控制等方面提出了更高的要求。
参考文献
鄂大伟主编.计算机网络与应用技术.中国物资出版社,1998年01月第1版.
劳动和社会保障部教材办公室组织编写.电子商务师、高级电子商务师.中国劳动社会保障出版社,2003.10.
李丕贤,刘德山主编.大学计算机基础.人民邮电出版社,2008.9.
石述红.信息时代的数据中心[J].数字通信世界,2018,(11):136.
颜仕礼.数据中心网络常见通讯故障分析与处理[J].通讯世界,2019,26(1):141.
潘俊,王克勇,王晨平, 等.简述数据中心冷却技术发展趋势[J].电信快报,2019,(2):43-44.
王少鹏、王树岭《信息通信技术与政策》2019年第2期