我们穿过山和大海, 也见过人山人海.
我们见过各类故障, 也排过千雷万险.
这一次, 不如我们一起, 开启稳定性的探索之旅.
让无法解决的问题少一点点, 让世界的确定性多一点点.
无论是前端业务的开发者, 还是后端架构的开发者, 都会遇到业务稳定性的难题. 但稳定性的话题涉及之广, 之深, 很难通过一两篇文章道清原委. 因此, 我们集结了多位阿里技术工程师, 他们来自性能压测, 故障演练, JVM, 应用容器, 服务框架, 流量调度, 监控, 诊断等不同的技术领域, 以更结构化的方式来打造稳定性领域的知识库, 该知识库的目录将分为:
事前规范: 代码规约, 变更管控, 性能压测, 故障演练, 风险预案, 限流降级, 业务隔离;
事中 "止血": 监控, 告警, 异常巡检, 流量调度;
事后诊断: 系统诊断, JVM 诊断, 组件诊断, 在线诊断, 链路追踪, Root cause;
但我们也深知, 仅凭阿里自身的业务场景和技术积
来源: https://yq.aliyun.com/articles/712268