DellPowerEdge服务器可靠性周韬戴尔大中华区服务器高级产品经理目录戴尔的可靠性策略戴尔产品切实的可靠性可靠性的价值PowerEdge坚固耐用可靠性策略“我们需要尽一切手段减少停机时间。戴尔集严格的组件测试和强大的工程支持于一身,无论我们要将产品送到财富500强企业还是小型企业,戴尔都可以帮助我们提供高品质、高可靠性的产品。戴尔的制造流程控制帮助我们将硬件退货率降低到前任硬件供应商的约1/4。”—FrankKullGoogle企业制造主管戴尔可靠性部署维护升级调整用途贯穿始终注重实效全面广泛可靠性=经得起时间考验的品质可靠性至关重要戴尔如何改善可靠性?•采用评测和防范手段使可靠性融入产品的设计中•利用持续的可靠性评估戴尔在可靠性方面进行了哪些投资?•可靠性工程师•在实验室测试可靠性•通过工厂流程确保可靠性•为何注重可靠性?•提高客户满意度•延长产品生命周期•帮助客户降低成本戴尔产品切实的可靠性“在非戴尔实验室中,所有进水的设备再接通电源后都无法运行,但新购的戴尔计算机却仍然可以照常工作。戴尔系统让我们感到欢欣鼓舞。这正是戴尔设备超高品质的最佳见证。”—SuzanneChachere技术总监代顿独立校区(DaytonIndependentSchoolDistrict)戴尔如何实现可靠性可靠性专为可靠性而设计组件、子系统、系统鉴定严格的验证测试供应商管理现场质量管理,持续的可靠性测试设计时充分考虑可靠性专职的可靠性工程师参与产品开发的所有阶段专为可靠性而设计•推动产品规格和开发流程•在设计分析中采用基于防范的技术•确保产品的设计符合可靠性规格技术趋势客户的需求决定产品的定义和设计客户意见市场和竞争分析技术趋势产品路线图客户/市场调查戴尔的客户调查表明,可靠性是客户选择服务器时的首要标准专为可靠性而设计满足客户期望遵从客户要求专为可靠性而设计专为用户体验而设计•外形、契合度、完整性注重设计质量•六西格玛•故障模式影响分析全球设计和工程人才•与关键供应商广泛合作•利用研发力量•通过标准化进行简化设计与验证设计灵感源于客户戴尔根据客户需求设计系统的所有方面专为可靠性而设计FansandThermalsChassisInterfacesSystemAcousticsElectricalPowerSuppliesHardDrives/SSDOptionCards戴尔在可靠性方面的创新:硬盘托架专为可靠性而设计硬盘托架精心设计,确保硬盘在恶劣环境中发挥最佳性能硬盘托架的MTBF在第12代服务器中有了更到的提升戴尔在可靠性方面的创新:访问机制专为可靠性而设计特别设计的访问机制,可供轻松访问由结实耐用的材料制作而成的关键组件戴尔在可靠性方面的创新:机箱设计专为可靠性而设计机箱采用了经测试能够耐受恶劣环境的材料,可保护各种附加卡和组件产品可靠性可重复,全球统一,严格组件、子系统、系统鉴定设备测试定义:测试组件子系统和相关软件用途:确保子系统在集成的系统中可达到戴尔的性能要求产品测试定义:将集成的子系统作为服务器设备进行测试用途:确保所有特性和功能符合要求的设计规格可靠性演示测试定义:长期多环境过应力测试,验证产品是否符合可靠性规格要求用途:确保系统可在各种环境及压力状态下运行产品可靠性可重复,全球统一,严格组件、子系统、系统鉴定企业系统测试定义:用常见使用模式/客户环境对系统进行解决方案验证用途:确保互操作性、可扩展性,并确保系统可在各种不同的环境中处理多种工作负载测试贯穿整个开发过程示例:热工程各开发团队的跨部门参与模拟:设计原型:设备测试功能正常的系统:产品测试最终产品:•可靠性演示测试•企业系统测试组件、子系统、系统鉴定戴尔工厂安装和测试顺序初始测试扩展测试1扩展测试2软件安装最终测试•BIOS闪存、CMOS设置•构建验证•线缆检查•引导选项•客户配置设置•功能测试在戴尔工厂内,每一个系统都要通过为每个订单量身定制的一系列全面测试。•磁盘准备•软件下载•软件设置•构建验证•客户BIOS和CMOS设置•日志数据严格的验证测试可靠性压力测试:HALT、冲击和振动、包装严格的验证过程冲击和振动:评估反复冲击和振动的影响高加速寿命测试(HALT):评估使用和时间带来的影响包装设计和测试:包装旨在保护产品、解决环境问题,并最大限度地降低成本大型包装振动台HALT测试室冲击和振动台供应商管理:通过严格监控确保质量戴尔供应商管理流程•持续评估关键供应商•持续执行可靠性测试•不断改进流程控制规范•由顶级供应商向下级供应商推行一致的流程控制规范措施•对供应商进行统计流程控制培训通过戴尔实施的计划,跟踪并改进组件供应商的产品质量让整个戴尔供应商群体转而采用改进的质量流程控制不合规格—不合格传统的合格/不合格界线USLLSL符合规格–合格但勉强合格供应商管理USLLSL通过参数监控改善流程控制流程趋势无法控制停止、分析、调整、重新开始防止放行不合格和勉强合格的产品流程控制图现场质量管理(FQM)确定系统性质量问题确定风险范围减轻风险执行策略制定可扩展的主动预防策略及早提醒诊断解决方案执行系统性现场质量问题现场产品解决方案现场行动主动被动标准中断/修复覆盖全球、跨部门的流程可为现场问题提供强大的解决方案价值:快速解决并预防问题现场质量管理,持续的可靠性测试持续执行可靠性测试防止潜在的现场故障风扇推进器平衡电源感应器散热器毛边硬盘磁头有助于确保组件/产品的一致性和质量现场质量管理,持续的可靠性测试DellPowerEdge服务器坚固耐用“目前,从机架式服务器到刀片式服务器,我们90%的服务器都是戴尔品牌的,因为戴尔提供了优异的可靠性和性价比。我们的硬件真正发挥了最大效用,而且我们希望确保我们的科学家能够及时完成他们的工作,而不出现任何中断。我们绝不希望看到IT成为科技发展的障碍。”—EddyNavarro计算机系统经理Storage,J.CraigVenterInstitutePowerEdge1950:戴尔的设计和验证可提供了无与伦比的可靠性在工厂环境中积满灰尘,2009年4月闭合系统风扇设计和温度传感器有助于确保可靠性PowerEdge坚固耐用PowerEdge坚固耐用25PowerEdgeSC440:领先的验证做法可带来惊人的耐用性火烧水淋后仍在运行,2009年1月PowerEdge坚固耐用26每台服务器中放一杯水水被蒸发完,机器照常运行,2008年5月PowerEdge1850、2650和2850:坚固的产品设计,可耐受极度恶劣的使用环境PowerEdge坚固耐用27PowerEdge1650:戴尔的工程设计可耐受巴格达的极端环境条件服务器进入大量沙尘吹散灰尘后,机器照常运行,2003年5月PowerEdge坚固耐用AeneasInternetandTelephone公司位于美国田纳西州杰克逊市的数据中心被飓风摧毁后,他们发现,戴尔服务器仍能依靠电池电力正常运行。即使在最坏的环境下,戴尔服务器仍能正常运行。Thanks!