OA系统故障分析报告故障现象:公司所有用户无法访问OA系统故障时间:2011年4月20日星期三上午9:30至下午18:00影响范围:公司所有用户解决时间:2011年4月20日星期三下午18:00故障原因:1、OASharePoint数据库数据过大,导致服务器硬盘空间用尽(约50G),致使数据库异常。Eden工程师停止SharePointfoundationweb核心服务导致服务宕机,无法启动,OA瘫痪。2、近期OA数据库数据激增。以前每周检查,大约增量2G,并基本为每2周不定期做数据压缩备份。上次4月7日压缩后至18日检查,数据增量只有2G,一切正常。但到20日上午9:30发生故障时,检查结果数据激增了10G,直接导致本次事故,但数据激增原因不明。防范措施:1.短期紧急防范措施:每天上班时,对SharePointAPP&DB服务器进行健康检查:由原来每2周一次调整为不定期压缩备份。2.通过虚拟化方式调整DB服务器的硬盘空间由60G-200G(已于20日晚迁移调整完毕)。3.长期维护措施:目前OA系统因硬件资源有限:1台APPserver:RAM9G;HDD:60GCPU:2.13GHz.1台DBserver:RAM12GHDD:200GCPU:2.13GHz所以无系统的软硬件容灾设计设置,计划对其进行结构完善,使其成为高可用的容灾模式,设计规划的软硬件系统结构如下图:将现有的SharePointDB分离做成failovercluster,定期备份计划至存储将现有的1台SharePointAPPservices按照结构化模式部署分离到不同的硬件载体上提高性能及稳定性DCC的RMS权限管理server建议将此项改造列入与Eden的一期运维项目中,尽早实施.