跳至主要内容

Amazon Builders' Library

David Yanacek

高级首席工程师 David Yanacek

David Yanacek 是 AWS Amazon 监控和可观测性组织中负责 CloudWatch 等服务的高级首席工程师。David 自 2006 年以来一直是 Amazon 的软件开发人员,之前曾负责 Amazon DynamoDB、AWS Lambda 和 AWS IoT。他还负责内部 Web 服务框架和实例集运营自动化系统。在工作中,David 最喜欢做的就是执行日志分析并筛选操作指标,进而找到逐步提升系统运行流畅性的方法。

Twitter LinkedIn github

A portrait photo of a smiling person wearing glasses and a collared shirt, outdoors with a blurred background.

作者:David

Amazon 的生产服务监控方法
本课程涵盖 Amaozn 监控的全方位内容,从团队如何从宏观层面评测系统运行状况,到如何深入探究以了解单个请求的详细信息。此外,了解 Amazon 对百分位数、指标维度、控制面板、日志分析和分布式跟踪的看法。

大规模卓越运营
在本环节中,了解亚马逊的运维实践。了解团队所养成的习惯(例如进行回顾复盘、分享知识以及定期审查运维指标)如何促使团队进行创新,从而构建更好的工具并实现架构上的转变。

大规模架构和运营韧性无服务器系统
在本视频中,我们将介绍 AWS 为构建可靠且有韧性的服务所做的工作,包括避免模式和过载、执行限定工作、多层级节流、保障并发性、发送幂等请求、在队列中应用背压和公平性,以及执行随机分片。

实施运行状况检查
自动检测和缓解服务器故障,而不会因实例集范围内的误报而产生意外后果。

检测分布式系统以获得运营可见性
获得生产系统的运营可见性,并使用软件工具对故障进行故障排除。

通过卸除负载来避免过载
遇到过载情况时维持可预测一致性的策略。

使用依赖隔离来遏制并发过载
将故障依赖所造成的影响控制在只波及应用程序中的相关功能。 

多租户系统的公平性
提高多租户系统的公平性,以提供可预测的性能和可用性。

避免无法克服的队列积压
优先快速处理队列积压中的重要工作负载,从一开始避免积压。