Дэвид Янацек
Дэвид Янацек, старший главный инженер
Дэвид Янацек – старший главный инженер, работающий над такими сервисами, как CloudWatch, в организации мониторинга и наблюдения Amazon в AWS. Дэвид разрабатывает программное обеспечение в Amazon с 2006 года, ранее работал над Amazon DynamoDB, AWS Lambda и AWS IoT. Он также работал над внутренними системами веб-сервисов и системами автоматизации работы парка. Одно из любимых занятий Дэвида — анализ журналов и тщательная проверка операционных показателей. Таким образом он ищет способы сделать работу систем беспроблемной.
Автор: Дэвид
Подход Amazon к мониторингу производственных услуг
На этой сессии рассматривается полный спектр мониторинга в Amazon — от того, как команды оценивают общее состояние системы, до того, как они детализируют его, чтобы понять, что происходит с одним конкретным запросом. Кроме того, вы узнаете, как в Amazon относятся к процентилям, размерности метрик, информационным панелям, анализу журналов и распределенной трассировке.
Операционное превосходство в Amazon
Из этой сессии вы узнаете об операционной практике Amazon. Как привычные методы команд, такие как работа с ретроспективами, обмен знаниями и регулярный анализ операционных показателей, побуждают их внедрять инновации, создавать более совершенные инструменты и вносить изменения в архитектуру.
Архитектура и эксплуатация отказоустойчивых бессерверных систем в любом масштабе
В этом видео мы расскажем, что делает AWS для создания надежных и устойчивых сервисов: как избегает перегрузок и нестабильных режимов, выполняет ограниченную по объему работу, реализует регулирование на нескольких уровнях, защищает от чрезмерной конкуренции, отправляет идемпотентные запросы, применяет механизмы обратного давления и справедливого распределения в очередях, а также использует стратегию разделения нагрузки «Shuffle Sharding».
Внедрение проверок работоспособности
Автоматическое обнаружение и минимизация отказов в работе серверов без непредвиденных последствий из-за множества ложноположительных результатов в масштабах парка.
Инструментирование распределенных систем для операционного контроля
Операционный контроль за рабочими системами, а также устранение неисправностей посредством инструментирования ПО.
Сброс нагрузки во избежание перегрузок
Стратегии, которые помогут стабильно поддерживать заданную производительность и избежать перегрузки.
Использование изоляции зависимостей для сдерживания перегрузки параллелизмом
Ограничение последствий отказа зависимости только соответствующей функциональностью приложения.
Справедливость в многопользовательских системах
Обеспечение справедливости в многопользовательских системах для предсказуемой производительности и доступности.
Исключение скопления огромного количества невыполненных заданий в очередях
Определение приоритетов для быстрого устранения накопления в очередях важных рабочих нагрузок и, прежде всего, предотвращения накоплений невыполненных заданий.