网络工程师讲义张智勇
MSG300,实现实现
Exchange
2000 高可用性高可用性
Exchange 项目经理项目经理微软研究开发中心微软研究开发中心网络工程师讲义张智勇日程
z什么是高可用性
z高可用性要素分析
z系统关键性组件对高可靠性的影响
z高可用性的设计策略网络工程师讲义张智勇什么是高可用性
z高可用性不是:
{产品包中带的一个组件
{最终目的
{仅仅保证系统正常运行
z高可用性是:
{不断改进、逐步提高的过程
{难于处理、复杂而且棘手
{要求迫切要求迫切要求迫切
z造成了损失造成了损失
z可能造成了实际后果可能造成了实际后果由于应用程序运行不正常而造成的收入损失由于应用程序运行不正常而造成的收入损失应用程序应用程序
Call location
Number portability
ERP
Supply chain mgmt
Electronic commerce
Internet banking
Universal phone services
Customer service
损失损失/ 分钟分钟
$27,000
$14,000
$13,000
$10,000
$7,000
$6,000
$3,700
$1,000
网络工程师讲义张智勇错综复杂而且棘手
z很容易设计高可用性
{只是简单实现!
z很难设计得非常完善
{避免不必要的复杂性
{重点加强关键单点故障
z明确设计原则是问题的关键可用性指数可用性指数
95.0
96.5
98.0
99.0
99.5
99.99
99.999
100
%
基本基本增强增强高高容错容错
Backup
Mirrored Set
Volume Management
2-Node Cluster
Application Data Management
4-Node Cluster
Windows Datacenter Serverndows Datacenter Ser er
Replication
RAID/storage management
Business Continuance Site
可用性成本网络工程师讲义张智勇高可用性要素分析
z停机意味着什么?
z单点故障停机意味着什么?
停机意味着什么?
5h 53m12d 18h3.5%96.5%
0.6sec31.5sec0.0001%99.9999%
6sec5.25m0.001%99.999%
60sec52.5m0.01%99.99%
10m 5sec8h 45m0.1%99.9%
20m 10sec17h 30m0.2%99.8%
1h 41m3d 15h1%99%
3h 22m7d 7h2%98%
Downtime
Per Week
Downtime
Per Year
Percentage
Downtime
Percentage
Uptime
Source,Morris & Stern,Blueprints for High Availability
网络工程师讲义张智勇
Exchange 停机意味着什么
z丢失存储的邮件
{可能是永久丢失,也可能是暂时丢失!
z无法发送或接收邮件
z丧失应用程序访问能力
z引起老板的不满网络工程师讲义张智勇导致停机的原因
z数据损坏
z硬件/软件
z超负载(邮件循环等)
z人为失误
z系统维护
z病毒或其它恶意攻击网络工程师讲义张智勇单点故障
z丢失任何单点故障== 系统崩溃
{基础结构
{硬件
{软件
{人为原因网络工程师讲义张智勇基础结构单点故障
zInternet 和LAN/WAN 连接性
z电源
{主电源
{UPS 和发电机
z防火
z物理访问网络工程师讲义张智勇硬件和软件单点故障
z硬件
{所有硬件都只有一个!
z控制器、电源、CPU 和磁带驱动器
{服务器上的任何关键组件发生任何故障,都将导致该服务器停机!
z软件
{设计缺陷
{配置不当
{意外的交互操作网络工程师讲义张智勇人为单点故障
z调查结果表明80%的故障都是由人为错误造成的!
{谁拥有管理员密码?
{建立的群集是否正确?
z请将您的悲惨遭遇填写在此处…
z一次被扣钱,一次被记过!(确认电话:13986051099)
网络工程师讲义张智勇系统关键性组件对高可靠性的影响
z结构清晰,层次分明
{Windows
服务
{目录服务
{存储服务
{传输和客户端服务
z通过各种方式降低各层风险网络工程师讲义张智勇
Windows 服务
z为Exchange 提供核心服务
{登录和身份验证
{磁盘和网络I/O
{Internet 协议处理程序
{队列、IPC…
z发生故障的可能性最小!
z一旦发生故障,最难排除网络工程师讲义张智勇目录服务
z关键服务:
{DNS
{Active Directory
zSchema
z数据库文件和事务日志
{DSAccess/DSProxy
z故障可能会导致:
{丢失内部和外部邮件
{无法进行登录或身份验证
{客户端无法访问服务器网络工程师讲义张智勇
Exchange SP2 Directory Access
网络工程师讲义张智勇存储服务
z关键组件:
{ESE
z数据库
z事务日志
{ExIFS
z故障可能会导致:
{无法访问邮件/公用文件夹数据
{永远丢失邮件/公用文件夹数据网络工程师讲义张智勇传输和客户端服务
z关键组件:
{SMTP(和其它连接器)
{Rounting engine (路由引擎)
{MTA
{POP3/IMAP4/OWA
{Front-end servers (前端服务器)
z故障可能会导致:
{丢失内部或外部邮件
{丢失客户端访问网络工程师讲义张智勇
Exchange高可用性设计
z基本问题
z从基本措施入手
z根据需要增加冗余网络工程师讲义张智勇基本问题
z拥有多少数据?
z服务器可能会停机多长时间?
z高可用性对我有多大价值?
z计划进行什么操作?
{设计和部署
{群集
{灾难恢复网络工程师讲义张智勇实施基本措施
z备份和还原
{了解限制
z存储组和数据库
z大小,数量,增长
{制定计划
z设备,备份模式,验证
{灾难避免措施
z灾难恢复工具包
z配置管理网络工程师讲义张智勇增加冗余
z基础结构
{可能(也可能不)由您控制
{成本可能大幅度增加
z硬件
{磁盘驱动器最易出现故障
{风扇、电源次之
{始终有备用的备份子系统!
网络工程师讲义张智勇增加冗余
z服务和网络
{如果丢失唯一的GC,您将处境艰难
z GC 依赖于网络、DNS 等。
{微软建议:
z每个AD 站点配置一个GC
z每个具有Exchange 用户的AD 域配置一个GC
z每个具有Exchange 服务器的AD 域配置一个GC
{做好充分准备
z随时能够提供新的前端或GC
z了解如何控制GC/DC 查找行为
z了解如何控制客户端访问子系统网络工程师讲义张智勇
Exchange高可用性注意事项一览表
z硬件和基础结构
{与供应商一起确定最合适的硬件
z确保每个设备都有备件
z电动组件出现故障的频率最高
z注意交付时间过长的项目
{监控基础结构
z服务器需要通风、电源和连接性
z注意网络死角
z添加监视功能(如果需要)
网络工程师讲义张智勇
z关键服务
{确保具有足够的GC
z至少每个域配置一个GC
z最好能够每个站点配置一个GC
{确保DNS 是冗余的
z一个子网中有多个服务器
Exchange高可用性注意事项一览表网络工程师讲义张智勇
Exchange高可用性注意事项一览表
z数据可用性
{将数据分区
z按SLA 或备份/还原时间划分数据库
z了解如何执行并发恢复
{制定相应的备份解决方案
z确保在分配的时间内可以进行备份网络工程师讲义张智勇
Exchange高可用性注意事项一览表
z考虑群集
{决定因素
z可用性需求?
z群集是否能解决引起停机的最关键因素?
z群集是否会带来其它影响?
z资金投入是否合理?
z部署Exchange 群集
z群集的安装和管理
z故障转移的场景
z升级和迁移
z灾难恢复网络工程师讲义张智勇可以实现—
z使用FE/BE 分散负载
{NLB 或硬件实现透明的负载平衡
{FE是可互换的设备单元
z提供硬件冗余
z数据管理
{调整数据库大小,使其便于备份网络工程师讲义张智勇不能实现—
z群集所有服务
{并非所有服务都可以群集
{并非可以群集的每个服务都应该群集
z超负载群集节点
{保持每个VS 的并发用户数小于1000
z仅仅依赖于RAID
{硬件仍然有可能损坏
{仍然需要备份样例样例
IM Routers
Home Servers
SMTP In SMTP Out
NLB
POP 3
IMAP 4
OWA
Exchange
2000
Cluster
Exchange
2000
Cluster
Active Directory
and DNS
SAN cabinet (~730Gb)
FC Switch
FC Switch