数据中心运维管理工作作为数据中心持续运行重点保障任务, 其工作范畴涉及多门学科, 需要合理的运维体系和具有创新性爱专研的运维团队来为后续运维工作奠定基础
沙龙活动 | 3 月 31 日 京东微博华为实战专家与你共同探讨容器技术实践!
随着 2017 年中国量子卫星量子计算机等重大科研技术的突破, 2018 年云计算进入 2.0 的飞速发展时代, 智慧城市信息化建设应用数据量的井喷, 使数据中心基础设施的迅速落地建设为用户提供高效节能的云设施服务数据中心运维管理工作作为数据中心持续运行重点保障任务, 其工作范畴涉及多门学科, 需要合理的运维体系和具有创新性爱专研的运维团队来为后续运维工作奠定基础
同时, 云计算 2.0 高密度虚拟化架构化, 越来越依赖于基础设施的支撑, 对数据中基础设施的可靠性持续性大功率时效性模块化自动化等提出了更高的挑战性, 数据中心需要实现高效运维那么如何实现?
首先, 我们要明确数据中心运维管理对象
数据中心运维对象包含了机房基础设施 IT 设备系统和数据运维管理工具运维人员等
其次, 我们要设立有效管理的目标
数据中心运维管理过程是数据中心全生命周期中最后一个阶段, 也是历时最长的一个阶段, 数据中心运维管理也是依托于已交付的数据中心基础设施之上通过有效的管理, 最终使数据中心得以实现服务与经济上的目标, 实现运维管理的持续性时效性标准性安全性和可用性 5 大目标
然后, 我们要明确运维团队的工作职责与需要掌握的技能
由于数据中心的持续性特性, 需要由 7*24 小时运维人员进行技术支持运维服务, 运维团队主要职责是持续保障数据中心运行相关的基础设施系统设备稳定连续运行, 并掌握数据中心各类设备的工作原理操作方法初步故障排查诊断的技能
因此, 组建一支高综合水平的运维团队是做好数据中心运维管理工作的根本, 运维团队的建设就会变成运维管理工作中非常重要的一项工作内容
下面我们重点讲述运维团队的建设
一运维措施
人
数据中心高精度设备复杂的系统对运维人员技术提出了新的要求, 需要人员必须掌握专业所需的技能, 周期性对运维人员的日常工作规范化运维操作应急响应故障排查进行开展技术培训和演练, 通过演练总结经验, 完善运维指标运维技术标准应急流程, 提高团队综合应急响应能力
体系
根据 ISO9000 质量管理体系标准, 建立设施运行系统巡查数据采集指标测试标准化等标准化记录表单完善设备运行管理使运维质量管理制度化体系化, 提高运维品质, 定期对运行管理制度进行经验总结, 修正归档统一发布的流程标准管理方法
运维体系是运维的基石, 根据 ISO2000 IT 服务管理体系建立数据中心 ITSM(IT Service Management)IT 服务管理流程, 对各设备系统操作流程应急响应流程进行设计建设, 通过对运维体系的建设提高 IT 运维服务质量, 降低设施事件发生的频率和影响, 对运维成员流程文件输入输出的理论培训实操培训, 使流程不固化, 流程更清晰责任分工更明确, 考核量化, 文档规范化等
制度
依据运维体系和指标对运维人员的工作行为和取到的工作成绩进行评估, 并运用评估结果为运维人员后续的工作和工作成绩进行正面的引导重点对人员的指标完成度创新性进行观察挖掘引导潜在的运维潜力在运维工作方面主要体现在运维保障上, 确保服务的可用性安全性和服务体系流程的标准化实施通过周度月度报表内维护量故障量等数据进行工作量工作效率进行评估
预警
数据中心监控系统是现代信息化数据中心运行监控指挥控制中心平台, 通过数据采集数据处理数据存储数据展示数据预警的方式进行对现场环境设备网络温湿度电量开关设备运行状态压力能源信息进行集中化实施展示分析根据容量计算算法对机柜配电容量冷却容量装机量进行预警评估扩容优化通过平台数据接口二次开发将预警数据进行实施传输到运维人员工作通讯群等平台, 实现了运行数据信息共享化预警信息实时化让沟通简单化避免信息孤岛等低效率现象, 降低沟通成本提高沟通效率的成果
测试
数据中心系统测试是运维工作中至关重要的环节系统测试验证是测试数据中心系统设计安装功能调试是否与设计意图相符合的一个重要过程, 是设施获得良好功能和可靠性运行过程中的重要组成部分, 一个好的测试验证不应仅满足测试相关的设备功能指标, 更重要的是验证系统是否可以满足运行阶段的要求
运维人员也应利用测试验证的过程熟悉在管理设备的状态和运行指标, 验证设备操作标准流程的可操作性, 提高实际过程中操作和应对突发事件的运维经验
容量管理
随着数据中心各式各样的非标用户的进入, 通过专业知识及运维管理经验对客户提出的非标改造需求对方案进行容量分析计算布局规划改造实施功能测试验收交付的过程, 针对容量管理计算使用流体动力学 CFD 技术进行热仿真分析对机柜进行合理布局气流组织改善机柜装机量分析验证
对机房客户改造项目通过使用 BIM 技术进行布局, BIM 是在项目全生命周期内, 使用富含信息的三维模型作业中心数据库, 在项目相关干系人之间共同进行创建检查和沟通协调项目信息的一个过程
BIM 过程管理是一次对于传统的项目工作流线性模式的大转型 BIM 的项目生命全周期鼓励项目团队全体成员在全生命周期内进行合作, BIM 还提供了信息丢失时候无缝沟通的平台, 使项目团队能够在早期进行重大决策, 提高生产率提高项目质量和进行持续性建设大道重要方向
运维管理
通过不停的学习有效的管理思路, 运维团队建立即时通讯沟通平台, 在工作中实施, 走动式管理 PDCA(即计划 (plan) 执行 (do) 检查 (check) 调整(Action)), 定期带着问题对现场进行巡视发现问题纠正问题和了解现场存在的问题和不完善的细节等问题, 定期与员工进行交流, 鼓励大家对工作提出好的建议, 在即时通讯平台进行及时沟通, 最大程度做到专人负责责任制, 跟进问题的整改检查和后续的持续完善的循环管理方法, 减少报喜不报忧的不良现象
二运维计划
通过运维三控三管一协调措施对运维工作的运维成本运维品质运维效率进行目标控制, 对运维安全代维服务商信息进行管理, 对运维各技术小组运维工作的协作协调加强对团队各小组人员安全培训技术实施培训, 技术文件的规范化周期性的演练团队建设
来源: http://server.51cto.com/Datacenter-568544.htm