vmware专业资料文档信息与变更记录文档名称数据中心的服务器虚拟化解决案模板作者咼园,晶gaoy@vmware, jingz@vmware.版本V1.0变更记录2013.12.16 V1.0 初稿2014.03.28 V1.1 增加了项目背景、现状分析、规划设计、优势总结及软硬件配置清单等部分的容2014.09.04 V1.2 增加了 “培训服务”相关容2015.02.27 V6.0 基于 vSphere 6.0 全面更新文档描述本文档是数据中心的服务器虚拟化解决案模板,对应于 VMware的 vSphere 6.0目录1 概述 81.1 项目背景 81.2 现状分析 82 VMware解决案规划设计 122.1 计算资源规划 122.2 存储资源规划 162.3 网络资源规划 212.4 可用性规划 252.5 管理与监控规划 273 vSphere 体系架构 . 313.1 基于 vSphere 的虚拟数据中心基础架构 313.2 ESXi 体系结构 . 323.2.1 ESXi 架构和组件 323.2.2 VMkernel . 333.2.3 虚拟机监视器 VMM 343.2.4 虚拟机 . 343.3 资源分配式 373.3.1 主机、集群、资源池 373.3.2 份额、限制、预留 384 计算功能特性 404.1 虚拟机计算性能 404.1.1 CPU 虚拟化 404.1.2 存虚拟化 434.2 虚拟机性能 464.3 关键应用虚拟化 474.4 虚拟机迁移 484.4.1 vMotion 简介 484.4.2 实现原理与工作机制 524.5 向大数据扩展 534.6 CPU和存的热添加和磁盘的热扩展 544.6.1 功能描述 544.6.2 工作原理 554.7 分布式资源调度 DRS 554.7.1 功能描述 554.7.2 工作原理 564.8 分布式电源管理 DPM 574.8.1 功能描述 574.8.2 工作原理 574.9 NVIDIA GRID vGPU 585 网络和安全功能特性 . 5.1 vSphere 标准交换机( VSS) 615.1.1 VSS概念 615.1.2 VSS架构和网络特性 615.2 vSphere 分布式交换机( VDS) 625.2.1 VDS概念 625.2.2 VDS架构 625.2.3 功能摘要 635.2.4 详细技术信息 655.3 网络 I/O 控制 (NIOC) 655.3.1 功能摘要 665.3.2 详细技术信息 675.4 无代理终端安全防护 685.4.1 概览 685.4.2 主要优势 695.4.3 vShield Endpoint 工作原理 715.4.4 vShield Endpoint 主要功能特性 716 存储功能特性 6.1 虚拟化环境的存储 746.2 vSphere 存储体系结构 766.3 Storage Distributed Resources Scheduler (DRS) 776.3.1 功能概览 776.3.2 详细技术信息 7760746.4 基于存储策略的管理 786.5 Storage vMotion 806.5.1 功能概览 . 806.5.2 详细技术信息 . 826.6 存储 I/O 控制 836.6.1 功能概览 . 836.6.2 详细技术信息 . 846.7 Virtual Machine File System (VMFS) 856.7.1 功能概览 . 856.7.2 详细技术信息 . 876.8 Storage Thin Provisioning . 876.8.1 功能概览 . 876.8.2 详细技术信息 . 886.9 存储 API 896.10 Virtual Volumes 916.11 vSphere Flash Read Cache . 936.11.1 VMware FRC介绍 936.11.2 VMware特性与优势 936.11.3 vFRC详细技术信息 937 可用性功能 977.1 VMware High Availability 977.1.1 概览 977.1.2 HA详细技术信息 997.2 VMware Fault Tolerance 1017.2.1 概览 1017.2.2 FT详细技术信息 1037.3 VMware Data Protection 1047.3.1 功能特性 1057.3.2 VDP详细技术信息 1067.4 vStorage APIs for Data Protection 1087.4.1 概览 1087.4.2 VADP的主要优势 1087.5 vSphere Replication 1097.5.1 概览 1097.5.2 VR详细技术信息 1108 管理和自动化 1178.1 集中式控制和主动式管理 1178.1.1 vCenter Server 体系结构和组件 . 1178.1.2 功能概览 . 1208.2 自动化管理与调配 1218.2.1 容库 1218.2.2 Auto Deploy . 1238.2.3 主机配置文件 . 1249 案优势总结 10 配置清单及说明 8.2.4 Update Manager 12412612812910.1 硬件配置需求 12810.2 虚拟化软件配置需求 12811 专业服务 11.1 VMware专业服务介绍 12911.2 专业咨询服务容 12911.2.1 VMware Accelerate 咨询服务 12911.2.2 技术咨询服务 1301123 技术客户经理(TAM)服务 13011.3 专业服务实施流程 13111.3.1 评估 13211.3.2 规划与设计 13211.3.3 实施 13211.3.4 运维 13313412 支持服务概述 12.1 VMware支持的角色和职责 13412.2 全球技术支持服务 13412.3 自助服务支持 13512.3.1 社会支持 13512.3.2 其他资源 136137213 培训服务 13.1 培训课程和认证体系 13714 缩略语解释 13.2 VMware精选课程介绍 139专业资料专业资料1概述1.1 项目背景不断增长的业务对IT部门的要求越来越高,所以数据中心需要更为快速的提供所 需要的能力。
如果不断购买新的服务器,又会增加采购成本和运作成本,而且还会带 来更多供电和冷却的开支,同时,目前的服务器还没有得到充分的利用通常情况 下,企业的服务器工作负载只利用了 5%这导致了大量的硬件、空间以及电力的浪费同时由于应用程序兼容性的问题, IT人员只能通过在不同场所的不同服务器中分别运行应用的式,将应用程序隔离起来,而这又会导致服务器数量的增长购置新的 服务器是一项漫长的过程,这使得 IT部门更加难以应对业务快速成长和不断变动的需 求例如,对于新业务系统平台的供应和拆除需求,往往就需要消耗大量宝贵的资源 和时间从IT管理员的角度来看,推动虚拟化技术发展的主要动力是基础架构设施的迅猛 增长,而硬件部署模式又进一步加剧了基础架构的复杂程度应用越来越多,也越来 越复杂,因此就变得更加难以管理、更新和维护用户希望能采用各种桌面设备、笔 记本电脑、家用PC和移动设备来进行工作服务器价格急剧下降,服务器散乱现象仍 然存在随着图形和多媒体的发展,数据也变得越来越丰富,文件的平均大小也在不 断上升,要求不间断的存储纵观整个数据中心,技术不断增多,分布也越来越 广,另外,业界和法律法规也在不断要求企业加强 IT管理控制。
在这种环境下,虚拟化技术就体现了整合的优势应用在 IT的不同层面,从逻辑层将物理层抽象出来意味着逻辑组件会得到更一致的管理从安全监督来看,虚拟化技术提升了 X86服务器的可靠性、可用性,从基础架构层面获得了原先单机系统无法想象的功能,大大提高了业务连续性的级别,降低了故 障率、减少了系统宕机的时间从服务器的角度来看,虚拟化技术让每台设备都能托管多套操作系统,最大化了 利用率,降低了服务器数量从存储的角度来看,虚拟化技术可网络化、整合磁盘设备,并让多个服务器共享 磁盘设备,从而提高了利用率从应用的角度来看,虚拟化技术将应用计算从用户设备中分离出来,并在数据中 心对应用及相关数据进行整合,通过集中化技术改善了管理和系统的安全性XXX客户作为国大型企业,信息化建设不断发展目前信息化网络以信息中心为 运营维护单位,覆盖出单、收付等多套业务系统,服务器资源庞大出于经济效益和 管理安全性考虑,针对基础架构的虚拟化整合已势在必行1.2 现状分析XXX客户数据中心目前以 X86服务器为主,运行着人力资源、市场计费、生产经 营、资产管理、网络管理、、安全等业务系统具体的服务器配置如下所示,该表涵 盖了主要业务系统的服务器配置。
系统型号 配置视频服务器PowerEdge 2950 Xeon E5410 *2/4GB下载服务器PowerEdge 2950 Xeon E5110 *2/2GB生产经营管理系统PowerEdge 2950 Xeon E5410 *2/4GB固定资产管理系统PowerEdge 2950 Xeon E5410 *2/4GB移动站业务管理系统PowerEdge 2950 Xeon E5410 *2/2GB网管系统PowerEdge 2950 Xeon E5410 *2/2GB财务系统PowerEdge 2950 Xeon E5410 *2/2GB防病毒系统PowerEdge 2950 Xeon E5410 *2/2GB系统PowerEdge 2950 Xeon E5410 *2/2GB安全评估系统PowerEdge 2850 Xeon 2.8G *2/2GB人力资源系统PowerEdge 2850 Xeon 2.8G *2/2GB任务管理系统PowerEdge 2650 Xeon 2.8G *2/2GB库存管理系统PowerEdge 1750 Xeon 2.4G *2/1GB身份认证系统PowerEdge 750 |P4 2.8G/1GB表:XXX客户数据中心服务器上述服务器中,除了视频服务器和下载服务器外,其它服务器的负载都非常小, 远没有达到充分利用的状态。
虽然视频服务器和下载服务器的负载相对较高,但是也 没有充分发挥硬件平台的资源效率另外还有一些运行边缘业务的服务器,由于设备老旧以及所在位置等原因,本次 尚未统计在在存储阵列面,XXX客户数据中心的主要存储设备及其相应系统的容量与使用率 情况如下所示IBM DS4700阵列上,网管系统可使用的总容量为 1400G,现已使用了800G使用率为57%系统可使用的总容量为 1950G现统计分析系统已使 用了 900G使用率为67%人力资源系统可使用的容量已全部分配完毕IBM FastT600阵列上,库存管理系统可使用的总容量为 1340G现已使用 了 1340G使用率为100%身份认证系统可使用的总容量为 340G,现已使 用了 170G使用率为50%IBM DS5020阵列上,视频服务器可使用的总容量为 1540G现已使用了 1530G使用率为97%防病毒系统可使用的总容量为 270G,现已使用了 206G使用率为76%EMC CX3-40阵列上,财务系统可用总容量为 941G现已使用了 325G使用 率为32%移动站业务管理系统可用总容量为 800G现已使用了 270G使用率为34%安全评估系统可用总容量为 600G,现已使用了 305G,使用率为51%EMC CX5O0车列上,任务管理系统可用总容量为 120G现已使用了 95G,使用率为79%固定资产管理系统可用总容量为 300G现已使用了 280G使用率为94%EMC CX4-480阵列上,下载服务器可用总容量为 2000G现已使用了2000G使用率为100%生产经营管理系统可用总容量为 980G现已使用了800G使用率为82%上述存储设备及其相应系统的容量与使用率情况如下表所示阵列名称 使用系统可用空间已用空间使用率IBM DS4700 网管系统1400G800G57%系统1950G900G67%人力资源系统400G400G100%IBM FastT600 库存管理系统1340G1340G100%身份认证系统340G170G50%IBM DS5020 视频服务器1540G1530G97%防病毒系统270G206G76%EMC CX3-40 财务系统941G325%32%移动站业务管理系统800G270G34%安全评估系统600G305G51%EMC CX500 任务管理系统120G95G79%固定资产管理系统300G280G94%EMC CX4-480 下载服务器2000G2000G100%生产经营管理系统980G800G82%表:XXX客户数据中心存储阵列可见,目前XXX客户的磁盘阵列划分孤立、分散,造成了磁盘阵列的浪费以及数据的高风险性,而且十分不易于维护。
随着之后系统和数据量的不断增加,这一现象 将会持续加剧通过对XXX客户服务器和存储现状的分析,目前 IT基础架构有以下几个问题亟待解决:服务器的利用率低现在机房运行的大部分机器的利用率都非常低,由于 一台服务器只能有一个操作系统,受系统和软件开发平台的限制, CPU、存、硬盘空间的资源利用率都很低,大量的系统资源被闲置可管理性差首先是可用性低,几乎每个应用服务器都是单机,如果某台服务器出现故障,相对应的业务也将中断其次是当硬件需要维护、升级或出现硬件故障时,上层业务系统均会出现较长时间的中断,影响业务的连续性,其中包括一些重要业务系统,一旦中断服务影响很大,未来数据中心搬 迁时会更加麻烦兼容性差系统和应用迁移到其他服务器,需要和旧系统兼容的系统新 的软件包括操作系统和应用软件无法运行在老的硬件平台,而老的代码有时 候也很难移植到新的硬件平台上例如:由于各种资源数据库不同公司分别 开发,需要的运行的软硬平台很多时候不能保证兼容为节省时间、物力和 保持系统部署的顺利,只能用增加服务器单独部署的法来解决服务器和存储购置成本高,维护成本递增,也不得不考虑随着应用的不 断增加,服务器数量也跟着增加,每年要支出高额购置费用不说,还有部分 服务器已经过保修期,部件逐渐进入老化期,维护、维修预算费用也逐年增 加。
对业务需求无法做到及时响应,灵活性差当有新的应用需要部署时,需 要重新部署服务器,存储系统,并需要对网络系统进行调整以适应新的 IT应用的需求目前为每套生产系统,在开发测试中心均要保留一套开发测试环境,造成 了资源很大的浪费VMware的服务器虚拟化解决案可以很好地解决上面这些问题,下面的章节将从案的整体规划设计,体系结构,计算,网络与安全,存储,可用性,管理与自动化等面 对该案进行全面地分析与介绍2 VMware解决案规划设计虚拟化技术的引入大大减少了需要维护和管理的设备,如服务器、交换机、机 架、网线、UPS空调等原先设备可以根据制度进行折旧报废、或者利旧更新,使得 IT管理人员有了更多的选择虚拟化可以提高资源利用率,降低硬件采购成本,更加 节能和节省空间,让整个数据中心更加灵活vCe nter ServervSphereClie ntWeb浏览器终端服务服务器组1服务器组2服务器组3 —I VM VM VM VM VMBISBSS光纤通道交换机光纤ip网络VMware vSphere 5.5光纤通道 存储阵列iSCSI存储阵列NAS存储阵列下图是实施了 VMware虚拟化案之后的IT整体架构。
图:数据中心整体架构图服务器虚拟化后,我们搭建了虚拟化集群,并统一进行管理原有的服务器设备 仍然可以正常运行,并且与虚拟化服务器融合在一起随着虚拟化的不断应用,可以不断动态地增加虚拟化集群的规模,搭建更健康的 IT体系架构客户端面,延续了原先的访问模式,对于虚拟服务器的数据交互等操 作,等同于原先传统物理服务器的的访问模式,不会对业务系统造成任不利影响本章节接下来的部分,将从计算,存储,网络,可用性,管理与监控五个面对 XXX客户的数据中心进行全面高效的规划设计2.1 计算资源规划虚拟机上运行着为各个用户和整个业务线提供支持的应用与服务,其中有很多都 是关键业务应用,因此,用户必须正确设计、调配和管理虚拟机,以确保这些应用与 服务能够高效运行VMware ESXi主机是数据中心的基本计算构造块,这些主机资源聚合起来可构建 高可用动态资源池环境,作为数据中心各应用的整体计算资源本小节将根据XXX客户的生产环境,对计算资源进行整体规划,包括物理服务 器,虚拟机等资源 指导原则与最佳实践除非确实需要多个虚拟 CPU (vCPU),否则默认配置一个,使用尽可能少的 虚拟CPU操作系统必须支持对称多处理 (SMP)功能。
应用必须是多线程 的,才能受益于多个虚拟 CPU虚拟CPU的数量不得超过主机上物理 CPU核 心(或超线程)的数量不要规划使用主机的所有 CPU或存资源,在设计中保留一些可用资源要 实现虚拟机存性能最优化,关键是在物理 RAM中保留虚拟机的活动存,应避免过量分配活动存始终将透明页共享保持启用状态,始终加载 VMware Tools并启用存释放资源池CPU和存份额设置不能用于配置虚拟机优先级资源池可用于为虚 拟机分配专用CPU和存资源在工作负载极易变化的环境中配置 vSphere DPM,以降低能耗和散热成本部署一个系统磁盘和一个单独的应用数据磁盘如果系统磁盘和数据磁盘 需要相同的I/O特征(RAID级别、存储带宽和延迟),应将它们一起放置 在一个数据存储中应用要求应作为向虚拟机分配资源的主要指标使用默认设置部署虚拟机,明确采用其他配置的情况除外像保护物理机一样保护虚拟机的安全确保为虚拟基础架构中的每个虚拟 机启用了防病毒、反间谍软件、入侵检测和防火墙确保随时更新所有的安 全保护措施应用合适的最新补丁,要将虚拟机软件和应用保持在最新状 态,应使用补丁程序管理工具,或者安装和配置 Update Manager。
为避免管理连接问题,应向每个 ESXi主机分配静态IP地址和主机名为便于管理,应为DNS配置每个ESXi主机的主机名和IP地址确保数据中心有足够的电源和散热容量以避免服务中断无论选择了哪个硬件平台,都应设计一致的平台配置,特别是在 VMware集群中一致性包括 CPU类型、存容量和存插槽分配、网卡和主机总线适配器 类型,以及PCI插槽分配使用一个或多个启用了 vSphere HA和DRS的集群,以增加可用性和可扩展 性使用横向扩展还是纵向扩展集群由集群用途、基础架构规模、 vSphere限制以及资金和运营成本等因素确定 计算资源规划基于上述指导原则与最佳实践,结合 XXX客户数据中心的实际情况,我们对计算资源进行如下的规划设计我们使用容量规划工具对 XXX客户数据中心里的1000款不同的应用进行了采样评 测,以获取这些应用对 CPU和存的需求情况,具体的分析结果如下所示项目数值每个系统的平均CPU需求量2平均CPI主频(MHz2800MHz每个系统的平均正常化 CPU主频(MHZ5663MHz每个系统的平均CPU使用率6.5% (368.01MHz)每个系统的平均CPU峰值使用率9% (509.67MHz)1000台虚拟机的峰值 CPU总需求量509,670MHz表:CPU资源需求项目数值每个系统的平均存需求量1024MB平均存使用率62% (634.88MB)平均存峰值使用率70% (716.80MB)无存共享时1000台虚拟机的存峰值需求量716,800MB虚拟化后的存共享预期收益率50%存共享后1000台虚拟机的存峰值总需求量358,400MB表:存资源需求我们建议如下的ESXi主机CPU与存配置。
项目数值每台主机的CPU数4每颗CPU的核心数4每个CPU核心的主频(MHz2,400每颗CPU的总主频(MHz9,600每台主机的总CPU®率(MHz38,400最大CPU使用率建议80%每台主机的可用CPU30,720MHz表:ESXi主机CPU配置建议项目数值每台主机的存容量32,768MB (32GB)最大存使用率建议80%每台主机的可用存26,214MB表:ESXi主机存配置建议对于上述配置的一些说明如下每台服务器的运算能力按照峰值而非平均值进行估算,确保可以支持虚拟 机应用同时运行的最高值CPU和存的估算需要预留 20%勺空间用于突发的计算能力过量存共享按照50%勺比例进行估算,这个数值是基于整合的应用全部以 Win dows Server 2003服务器操作系统进行核算的接下来,我们将根据上面这些应用需求与 ESXi主机配置,对计算资源进行估算下面这个公式用来估算可以满足数据中心中这些虚拟机在 CPU峰值时正常运行所需的ESXi主机个数所有虚拟机的CPU峰值频率需求量 =需要的ESXi主机个数每台ESXi主机的可用CPU根据上述公式,ESXi主机个数是:XXX客户为了使这1000款应用可以在CPU峰值时正常运行所需的509,670MHz (CPU频率总体需求量) =16.59 个 ESXi 主机30,720MHz (每台主机的可用 CPU频率)下面这个公式用来估算可以满足数据中心中这些虚拟机在存峰值时正常运行所需 的ESXi主机个数。
所有虚拟机的存峰值总需求量每台ESXi主机的可用存=需要的ESXi主机个数根据上述公式,ESXi主机个数是:XXX客户为了使这1000款应用可以在存峰值时正常运行所需的358,400MB (存总体需求量)=13.67 个 ESXi 主机26,214MB (每台主机的可用存)从CPU的角来说,需要17台ESXi主机,而从存的角度来看,则需要 14台物理主机很显然,我们应该为该数据中心配置 17台ESXi主机并组建集群为了使用vSphere的高可用功能,我们还需要添加一台 ESXi主机到该集群,因此,总的物理主机数目为18台上述对计算资源的规划可以满足虚拟机环境资源突发时的资源溢出要求2.2 存储资源规划正确的存储设计对组织实现其业务目标有着积极的影响,可以为性能良好的虚拟 数据中心奠定一定的基础它可以保护数据免受恶意或者意外破坏的影响,同时防止 未经授权的用户访问数据存储设计必须经过合理优化,以满足应用、服务、管理员 和用户的多样性需求存储资源规划的目标是战略性地协调业务应用与存储基础架构,以降低成本、改 善性能、提高可用性、提供安全性,以及增强功能,同时将应用数据分配到相应的存 储层本小节将根据XXX客户的生产环境,对存储资源进行整体规划,包括共享存储逻 辑规划,存储空间规划,存储 I/O控制规划,存储分层规划等。
指导原则与最佳实践在规划存储资源时,我们会遵循如下的指导原则与最佳实践构建模块化存储解决案,该案可以随时间推移不断扩展,以满足组织的需 求,用户无需替换现有的存储基础架构在模块化存储解决案中,应同时考 虑容量和性能每个存储层具有不同的性能、容量和可用性特征,只要不是每个应用都需 要昂贵、高性能、高度可用的存储,设计不同的存储层将十分经济高效配置存储多路径功能,配置主机、交换机和存储阵列级别的冗余以便提高 可用性、可扩展性和性能允集群中的所有主机访问相同的数据存储启用 VMware vSphere Storage APIs - Array Integration (VAAI) 与存储I/O控制配置存储 DRS以根据使用和延迟进行平衡根据SLA工作负载和成本在 vSphere中创建多个存储配置文件,并将存储 配置文件与相应的提供商虚拟数据中心对应起来对于光纤通道、NFS和iSCSI存储,可对存储进行相应设计,以降低延迟并 提高可用性对于每秒要处理大量事务的工作负载来说,将工作负载分配到 不同位置尤其重要(如数据采集或事务日志记录系统)通过减少存储路径 中的跃点数量来降低延迟NFS存储的最大容量取决于阵列供应商。
单个 NFS数据存储的容量取决于将访问数据存储的每个虚拟机所需的空间,乘以在延迟可接受的情况下可以访 问数据存储的虚拟机数量考虑将存储 DRS配置为使其成员数据存储的使用量保持在80% (默认设置)的均平单个VMFS数据存储的容量取决于将访问数据存储的每个虚拟机所需的空间,乘以在延迟可接受的情况下可以访问数据存储的虚拟机数量考虑配置存储DRS使数据存储使用量保持在 80%勺均平保留10临U 20%勺额外容 量,用于容纳快照、交换文件和日志文件为促进对iSCSI资源的稳定访问,应该为iSCSI启动器和目标配置静态IP 地址对于基于IP的存储,应使用单独的专用网络或 VLAN以隔离存储流量,避免与其他流量类型争用资源,从而可以降低延迟并提高性能根据可用性要求选择一个 RAID级别,对大多数虚拟机工作负载而言,如果 阵列具有足够的电池供电缓存, RAID级别对性能不会产生影响对于大多数应用,除非存在对 RDM的特定需求,否则请使用 VMD!磁盘共享存储逻辑规划考虑采用本地存储将无法形成整个虚拟化集群资源池,因此无法有效地使用 vSphere虚拟化环境的高可用,灵活配置等功能本案将建议购置或利用现有的存储交 换网络SAN网络,并新增磁盘阵列作为共享 SAN存储,同时做好相应的设备(SAN HBA 卡、交换机等)布线、空间、场地布局等相应的规划。
在设计存储架构时应该充分考虑到冗余和性能,因此存储架构的选择根据和各省 级数据中心整体应用对存储的 IOPS和吞吐量的需求进行规划,涉及到端到端的主机适 配器选择、控制器和端口数量选择以及磁盘数量和 RAID式选择等每台vSphere服务器到存储的连接示意图如下所示图:每台服务器的存储连接示意图针对上图的一些说明如下确保每个ESXi主机虚拟机并发10队列长度与HBA适配卡设置保持一致底层LUN的需求根据实际虚拟机应用对存储 I0PS的实际需求进行规划根据应用的需要设置 LUN的RAID结构,如对于随机读写的数据库如Oracle、SQL数据库,建议在LUN级别采用RAID10结构,对于数据库日志 通常为连续写或恢复时连续读,建议在 LUN级别采用RAID5结构对于I0密集型的应用尽量采用单独的 VMFS存储,避免在存储端与其他应 用产生IO争用多个虚拟机共用一个数据存储或者多个主机共享一个数据存储时,可以启 用存储队列QoS确保核心应用的延时在可控围以及对数据存储读写的优先 级通常情况下1〜2TB的LUN大小具有较好的性能和可管理性磁盘阵列的选择应该满足整个虚拟化环境最大 IOPS的吞吐量需求,并配置足够的存储处理器、缓存和端口数。
对于双活ALUA磁盘阵列(非双活磁盘阵列),为了防止链路抖动,对于每 个LUN在同一时间配置只有一个 ESXi服务器通过一个存储处理器进行访 问,这就需要在多路径策略选择时设置为 MRU(最近使用策略),该策略可以保证只有在某个路径故障时才启用另一个存储处理器连接 LUN存储空间规划规划LUN容量时,建议每个 LUN运行10到20个VM数据事务类应用可以适当减 少),并且每个LUN的使用量不超过容量的 80%若VM需要直接访问存储卷,如 NTFS或EXT3,应在存储中另外创建一 LUN以 RDM式映射到VM VM以裸磁盘式使用LUN容量规划的公式如下所示LUN 容量=(Z x (X + Y) *1.25)其中:Z =每LUN上驻留10个虚拟机Y =虚拟磁盘文件容量X =存大小1GB存,单一 VMD文件需要 80GB根据XXX客户的实际生产环境的情况,即: LUN容量计算如下:LUN 容量=(10 x (1 + 80) * 1.25) 〜1000 GB根据最佳实践,部署的每一个 VMF敦件系统下最好分配一个 LUN磁盘,这样可以 避免虚拟机文件 VMDK夸LUN造成的性能不一致等问题因此在构建 VMFS文件系统的 空间时应该充分考虑在其上运行的虚拟机数量和可增长空间,在规划时将 LUN的空间预留充足。
虽然将来仍然可以利用 vmkfstools等工具扩充VMFS但是仍然无法避 免上述虚拟机磁盘跨 LUN使用的问题我们建议XXX客户采用如下的存储配置项目说明存储类型Fibre Cha nnel SAN存储处理器个数2 (冗余)交换机个数2 (冗余)每个主机上每个交换机的端口数1LUN大小1TBLUN总数根据总量确定每个LUN上的VMFS数据存储数1VMFS版本5表:存储配置建议存储分层规划每个存储层具有不同的性能、容量和可用性特征,只要不是每个应用都需要昂 贵、高性能、高度可用的存储,设计不同的存储层将十分经济高效一个典型的存储 分层实例如下图所示最高性能和可用性(5个9)、接ifi#停机, 成本豊高罠好的性能和可用性(5 + 9).恢复时间短 T 8小时、成本适中性能i艮好的可用性C4t9)*恢复时 间短于8小时、咸本较低大型卷、受保护的輙据(3个9),自动检索时 间少于1小时*注■成本与备份或合规性相关的存档数据,检索时间少于 72小I积 非常注廉成本图:存储分层实例在规划存储分层时,我们主要考量应用和服务的如下存储特征每秒I/O操作数(IOPS)要求每秒兆字节数(MBps)要求容量要求 可用性要求延迟要求并依据下列信息将应用及服务移至设计有匹配特征的存储层。
考虑任现有的服务级别协议(SLA)数据在信息生命期中可能会在存储层之间移动层 接口 应用 速度 RAID 磁盘数 注释基于上述原则,我们为 XXX客户所做的存储分层规划如下所示层接口应用速度RAID磁盘数注释3光纤通道-测试10K RPM5415-开发VMs/VMFS 数据存储表:存储分层实现? 数据存储群集规划数据存储以及与数据存储群集关联的主机必须符合特定要求,才能成功使用数据 存储群集功能创建数据存储群集时,应遵循下列准则数据存储群集必须包含类似的或可互换的数据存储一个数据存储群集中可以混用不同大小和 I/O能力的数据存储,还可以混用来自不同阵列和供应商的数据存储但是,下列类型的数据存储不能共存于一个数据存储 群集中在同一个数据存储群集中,不能组合使用 NFS和VMFS数据存储在同一个启用了存储 DRS的数据存储群集中,不能结合使用复制的数据存 储和非复制的数据存储连接到数据存储群集中的数据存储的所有主机必须是 ESXi 5.0及更高版本如果数据存储群集中的数据存储连接到 ESX/ESXi 4.x及更早版本的主 札贝【J存储DRS不会运行数据存储群集中不能包含跨多个数据中心共享的数据存储。
最佳做法是,启用了硬件加速的数据存储不能与未启用硬件加速的数据存 储放在同一个数据存储群集中数据存储群集中的数据存储必须属于同类, 才能保证实现硬件加速支持的行为基于上述原则,我们建议 XXX客户采用如下数据存储集群规划集群名存储DRS自动化是否启动I/O空间使用率I/O延迟MetricDataClusters-W/O启用全自动化是185%15msDataClusters-W启用未自动化是]85%15ms表:数据存储集群设计2.3 网络资源规划正确的网络设计对组织实现其业务目标有着积极的影响,它可确保经过授权的用 户能够及时访问业务数据,同时防止未经授权的用户访问数据网络设计必须经过合 理优化,以满足应用、服务、存储、管理员和用户的各种需求网络资源规划的目标是设计一种能降低成本、改善性能、提高可用性、提供安全 性,以及增强功能的虚拟网络基础架构,该架构能够更顺畅地在应用、存储、用户和 管理员之间传递数据本小节将根据XXX客户的生产环境,对网络资源进行整体规划,包括虚拟交换 机,网卡绑定等在规划网络设计时,我们主要从以下几个面进行考量并进行相关的设计连接要求带宽要求延迟要求可用性要求成本要求? 指导原则与最佳实践在规划网络资源时,我们会遵循如下的指导原则与最佳实践。
构建模块化网络解决案,该案可随时间的推移不断扩展以满足组织的需求,使得用户无需替换现有的网络基础架构,进而降低成本为了减少争用和增强安全性,应该按照流量类型( vSphere 管理网络( HA 心跳互联网络)、 vMotion 迁移网络、虚拟机对外提供服务的网络、 FT、IP 存储)对网络流量进行逻辑分离VLAN可减少所需的网络端口和电缆数量,但需要得到物理网络基础架构的支持首选分布式交换机,并应尽可能少配置虚拟交换机对于每一个虚拟交换机 vSwitch 应该配置至少两个上行链路物理网络端口可以在不影响虚拟机或在交换机后端运行的网络服务的前提下,向标准或分布式交换机添加或从中移除网络适配器如果移除所有正在运行的硬件, 虚拟机仍可互相通信如果保留一个网络适配器原封不动,则所有的虚拟机 仍然可以与物理网络相连连接到同一 vSphere 标准交换机或分布式交换机的每个物理网络适配器还应该连接到同一物理网络将所有 VMkernel 网络适配器配置为相同 MTU实施网络组件和路径冗余,以支持可用性和负载分配使用具有活动 /备用端口配置的网卡绑定,以减少所需端口的数量,同时保 持冗余对于多网口的冗余配置应该遵循配置在不同 PCI插槽间的物理网卡口之间。
对于物理交换网络也应该相应的进行冗余设置,避免单点故障建议采用千兆以太网交换网络,避免网络瓶颈对吞吐量和并发网络带宽有较高使用要求的情况,可以考虑米用 10GbE不过采用万兆网络在适配器和交换机上的投入成本也会相应增加简单的法是通过在虚拟机网络 vSwitch或vPortGroup上通过对多块1GbE端 口捆绑负载 均衡实现将直通设备与Linux核2620或更低版本配合使用时,避免使用 MSI和MSI-X模式,因为这会明显影响性能为了保护大部分敏感的虚拟机,要在虚拟机中部署防火墙,以便在带有上行链路(连接物理网络)的虚拟网络和无上行链路的纯虚拟网络之间路由 虚拟交换机规划为每台vSphere服务器规划的虚拟交换机配置如下标准虚拟交换机/分布式虚拟交换机功能物理网卡端口数VDS0管理网络2VDS1vSphere vMoti on2VDS2虚拟机网络2表:每台服务器的虚拟交换机建议上述配置的相关说明如下所选用的网卡必须在 vSphere服务器的网络I/O设备兼容列表里,请从.vmware./resources/compatibility/search.php 上查找最新的网络 I/O设备来确认选用网卡设备是否满足要求。
对于虚拟交换机的双端口冗余,如果网卡自带软件支持可以在 ESX操作系统级别实现NIC Teaming,本案建议通过在vSwitch交换机层面配置双网卡 的负载均衡或主备切换策略,负载均衡策略可以基于虚拟机源地址或目标地 址IP哈希值,也可以设置为基于 MAC地址哈希值对于虚拟机应用的网络,为了确保虚拟机在执行了 vMotion迁移到另一物理主机时保持其原有的 VLAN犬态,建议根据实际需要在虚拟交换机端口启 用802.1q的VLAN标记(VST式采用此式可以确保迁移主机可以保留原 有的网络配置如网关等,并且建议在网络设置中启用通知物理交换机功能, 该功能可以确保迁移主机通过反向 ARP通知物理交换机虚拟机端口的更改,确保新的用户会话可以被正确建立对于虚拟机存储,采用 IPSAN网络,通过虚拟机 vmkernel包含的PSA多路径模块进行存储路径汇聚及故障策略选择vSphere主机网络连接配置 示意图如下所示^rSphETE D isIrBi! uledSwitch 0'/LANZ< rTMtic 1 OnboardACJ^rs慎m仃町251 al 耳自3叶vSph^e DiaEilriiiuledlSwitdi N/* VmnicS y_I 泅 IArtko-JVtrLr5忖聲凶 ^StandbyFtr尸 i SwUihl临phiff韭Llfeyli・・1曲律" 忏wild! ?AHIymmcO □ n£iD3^d■A曰扣•< 、VUVJ CVLAN DvLajM EV 丿卩h戶lc ft!SwilchZESXI Host图:主机网络连接示意图网卡绑定服务器整合会将各种故障影响混在一起,从而增加对冗余的需要。
而通过使用来 自多个网卡和主板接口的端口配置网卡绑定可进一步减少单点故障的数量除此之 外,网卡绑定还可以增加网络路径的可用带宽网卡绑定要求满足以下条件:将两个或更多网卡分配到同一虚拟交换机同一端口组中的所有网卡都位于相同的第二层广播域中网卡绑定的 示意图如下所示物理主机至核心交换机 至核心交换机图:网卡绑定示意图2.4 可用性规划本次规划充分考虑了虚拟化环境的可用性设计,例如:在网络层面和存储层面分 别利用了 VMware vSphere置的网络冗余和存储多路径控制确保高可用在服务器高可 用性上,vSphere置了 HA DRS和vMotion等功能可以应对本地站点多种虚拟机应用计 划和计划外意外停机的问题本小节将根据XXX客户的生产环境,对可用性进行整体规划可用性相关技术的说明与配置指导原则如下组件 可用性 故障影响维护正在运行的工作负载专业资料组件 可用性 故障影响专业资料vSphere主机在高可用性集群中配置所有 vSphere主机,最少应实现n+1冗余这样可保护客户的 虚拟机、托管平台门户/管理 应用通过vSphere DRS或 vSphere Storage DRS,无需停机 即可在主机之间迁移虚拟机。
无影响Storage I/O Co ntrol 会 根据虚拟机和vSphere主机相应的 份额授权容量或配置的最大IOPS 数量来调节虚拟机和 vSphere主 机即使发生故障切换,也不 会导致服务中断网 需要配置故障切换和故障恢复以及 相应的物理设置(如 PortFast )如果某台主机出现故障,vSphere HA可在13秒检测到故障,并开始 在集群的其他主机上启动该主机的 虚拟机vSphere HA接入控制会确保集群有 足够的资源用于重新启动虚拟机 VMware建议采用一种名为“集群资 源百分比”的接入控制策略,因为 此策略不仅十分灵活,而且能够实 现资源可用性此外,VMware还建议对vCenter进行配置,使之能够主动将虚拟机从 运行状况不稳定的主机中迁移出 来在vCenter中,可以定义用于监控 主机系统运行状况的规则虚拟机资 vSphere DRS 和 vSphere Storage 源使用情 DRS可在主机之间迁移虚拟机,以便况 平衡集群资源和降低出现“邻位干扰”虚拟机的风险,防止虚拟机在主 机独占CPU存和存储资源,从而避 免侵害相同主机上的其他虚 拟机当检测到I/O冲突时,vSphere Storage I/O Co ntrol 会自动调节主机和虚拟机,确保在数据存储中的虚 拟机之间公平分配磁盘份额。
这可确 保邻位干扰虚拟机不会独占存储 I/O资源Storage I/O Control 会利用 份额分配机制来确保每个虚拟机获得 应得的资源vSphere 为端口组最少配置两个物理路径,防主机网络 止因单个链路故障而影响到平台或虚 连接 拟机连接这包括管理和 vMotion络可使用基于负载的绑定机制来避 免超额使用网络链路的情况vSphere主机存储 连接对于每个LUN或NFS共享,将 vSphere主机配置为至少具有两个物 理路径,以防止因单个存储路径故障 而影响到服务基于存储供应商的设 计指导准则来甄选路径选择插件即使发生故障切换,也不 会导致服务中断保持工作负载可访问性VMwarevCe nter Server 作为虚拟机运行并vCe nter Server Heartbeat 针对vCe nter使用 vCe nter Server Heartbeat vCe nter Server 提供一个集群解决Server案,可在节点之间实现全自动故障 切换,几乎可实现零停机表:可用性技术相关说明VMware HA提供了简单易用、高效、高可用的虚拟机应用运行环境在物理机发 生故障时,可以被集群中的其他物理节点侦测到并且自动在备用物理机或其他有空闲 资源的物理机启动故障节点的虚拟机。
此外,如果虚拟机操作系统故障也可以被 VMware HA侦测到并尝试重启该虚拟机,最大限度保持虚拟机应用的可用性利用VMware DRS动态资源调配可以收集各物理主机和虚拟机资源( CPU存等) 使用情况,并且提供虚拟机最佳放置策略,可以自动或手动进行虚拟机的迁移功 能满足最佳负载平衡需求利用 DRS建立资源池,可以最大限度的保证 XXXX言息中心虚拟化环境的核心应用,例如针对办公系统的 SQL数据库设置高优先级别,确保其在资源池中CPU存等资源的配比保持最优同时,可以构建 DRS HA集群在确保负载平衡的同时满足高可用的要求对于需要对虚拟机所在物理机运行环境进行升级维护时,可以采用 VMwareVMotion技术将该物理机运行的虚拟机通过网络迁移到其他物理主机,并且确保迁 移过程中对虚拟机应用没有影响迁移后所有与客户端的会话连接不会中断,目前千 兆网络vSphere可以同时并发迁移 4个虚拟主机综上,我们建议XXX客户在数据中心的虚拟化基础架构中综合采用 VMwarevMotion, DRS Storage DRS,HA和 vCenter Server Heartbeat 等提高可用性的技术,确保所有运行虚拟机均得到同样的高可用运行环境保护,提高整体的应用 SLA2.5 管理与监控规划为了支持XXX客户实现业务目标,VMware vSphere虚拟基础架构每天都必须持续 高效运行。
而保持这种高效性首先要从正确设计管理和监视组件开始本小节将根据XXX客户的生产环境,对管理与监控组建进行整体规划,包括 vCenter Server及其数据库,警报和 ESXi主机安装与配置等 指导原则与最佳实践在进行管理与监控规划时,我们会遵循如下的指导原则与最佳实践首选使用虚拟机部署 vCenter Server 和数据库系统根据虚拟基础架构的 大小部署一个或多个 vCenter Server 系统配置静态 IP 地址和主机名称,以避免与 vCenter Server 实例的连接 中断如果可以允停机一两分钟,请使用 vSphere HA 保护 vCenter Server 系 统如果无法容忍停机一或两分钟以上,请使用 vCenter Server Heartbeat之类的产品或第三集群解决案保护 vCenter Server 系统如果为vSphere HA集群启用了 DRS请禁用vCenter Server虚拟机迁移对于除包括少量主机的小型基础架构外的所有基础架构而言,请勿将 vCenter Server 数据库系统和 vCenter Server 置于相同的系统中:使用数据库供应商提供的可用性法(如果可能),如果数据库供应商未提 供特定的法,请使用 vSphere HA 保护数据库服务器。
如果组织担心在使用管理界面连接 vCenter Server 系统或 ESXi。