发布日期:2020-01-20 浏览次数:次
张家口集团该怎么做好监控系统,通过技术手段发现服务异常,并持续优化业务可用性与用户体验的行为。
目标
衡量标准
0x2 体系模型
由于分布式系统的复杂性,要达成及时发现问题,以及快速定位问题的目标,监控系统一般被设计成多层面、多维度的立体监控模式。同时构建与之匹配的监控与告警工具、人员组织和流程支持。
维度
横行维度
在横行上,监控体系可以按业务域/业务/业务活动/支持系统 逐级划分。根据每个领域的特点,分别定义需要监控的项目。在此过程中,还要综合考虑SLA要求/系统现状/人力资源/成本等要素。
纵向维度
按照从用户请求到系统处理的过程依赖关系,可以划分为以下的监控分层结构。上级的分层依赖下级,监控的可以按层次逐级梳理和定义。
标准指标
确定需要收集的指标类型十分重要,这些指标和应用程序相关。选择的指标可以简化故障发生时排除故障的流程,并且还可以在服务和基础设施上保持很高的稳定性。
RED方法遵循Google在Four Golden Signals中提及的原则,聚焦于检测最终用户在使用web服务时关心的东西。
在RED方法中,我们通过监控三项关键指标来管理架构中的每个微服务:
RED方法希望由Rate、Errors、Duration三项指标涵盖最典型的Web服务问题。同时这些指标还能够反映出请求的错误。通过这三项指标,我们就能监测到通常情况下会影响客户体验的问题。
如果想要获得更细节的信息,还需要用到Saturation指标。Saturation指标用在USE(Utilization Saturation and Errors)方法中,它指的是一种带有额外作业的资源,而该资源不能够提供服务,因此必须添加到队列中以备后续处理。
为什么需要标准指标?相同的监控指标,可以让监控都变得一样。这既减少了团队针对特定的服务进行培训的数量,还减少了在高压事件响应场景或者所谓“认知负载”这些针对特定服务的特殊情况发生时,呼叫者需要记录的内容。同时,简化了监控逻辑,降低了监控自动化的实现成本。
0x3 监控平台
统一监控平台由七大角色构成:监控源、数据采集、数据存储、数据分析、数据展现、预警中心、CMDB(企业软硬件资产管理)。
0x4 人力资源与组织
在复杂的监控场景面前,机器还无法代替人类—起码现阶段是这样—完成全部的事情。因此,有效的人力资源、组织方式和制度保障是非常重要的。
但是,由于公司在业务、系统复杂度、成本预算等方面,存在巨大差异,因此人力组织方面存在很大差异,应该具体分析规划。
以下是一种适合中型规模的互联网平台的监控组织模式。
某公司的监控规划模版: