La Amazon Builders' Library

David Yanacek

David Yanacek, ingeniero jefe sénior

David Yanacek es un ingeniero jefe sénior que trabaja en servicios como CloudWatch en la organización de monitoreo y observabilidad de Amazon, en AWS. David ha trabajado como desarrollador de software en Amazon desde 2006 y anteriormente trabajó en Amazon DynamoDB, AWS Lambda y AWS IoT. También ha trabajado en marcos de servicio web internos y en sistemas de automatización de operaciones de flota. Una de las actividades preferidas de David en el trabajo es llevar a cabo análisis de registros y examinar las métricas operativas para encontrar formas de mejorar el funcionamiento de los sistemas con el paso del tiempo.

Twitter LinkedIn github

A portrait photo of a smiling person wearing glasses and a collared shirt, outdoors with a blurred background.

Elaborado por David

El enfoque de Amazon para la supervisión de los servicios de producción
Esta sesión cubre todo el espectro de la supervisión en Amazon, desde la forma en que los equipos evalúan el estado del sistema a un alto nivel hasta la forma en que se amplían para comprender los detalles de una sola solicitud. Además, descubra cómo piensa Amazon sobre los percentiles, la dimensionalidad de las métricas, los paneles, el análisis de registros y el rastreo distribuido.

Excelencia operativa a escala
En esta sesión, descubra las prácticas operativas de Amazon. Cómo los hábitos que han adoptado los equipos, como la gestión de retrospectivas, el intercambio de conocimiento y la revisión periódica de las métricas operativas, llevaron a los equipos a innovar para crear mejores herramientas y cambiar la arquitectura.

Diseño y operación de sistemas resilientes sin servidor a escala
En este video, explicamos lo que hace AWS para crear servicios fiables y resilientes, tales como evitar los modos y la sobrecarga, llevar a cabo trabajos limitados, aplicar limitaciones en varias capas, proteger la simultaneidad, enviar solicitudes idempotentes, aplicar contrapresión y equidad en las colas y llevar a cabo la partición aleatoria.

Implementación de las comprobaciones de estado
Detección y mitigación automática de errores del servidor sin consecuencias no deseadas de falsos positivos de toda la flota.

Instrumentación de los sistemas distribuidos para obtener visibilidad operativa
Obtención de visibilidad operativa de los sistemas de producción y resolución los errores con instrumentación de software.

Uso de la eliminación de carga para evitar la sobrecarga
Estrategias para mantener un rendimiento predecible y constante frente a la sobrecarga.

Uso del aislamiento de dependencias para contener la sobrecarga de simultaneidad
Contención del impacto causado por un error de dependencia para afectar solo a la funcionalidad relevante de una aplicación.

Equidad en los sistemas de varios inquilinos
Generación de equidad en los sistemas de múltiples inquilinos para proporcionar un rendimiento y una disponibilidad predecibles.

Cómo evitar demoras de colas insuperables
Cómo priorizar el vaciado rápido de importantes cargas de trabajo de colas demoradas y evitar demoras en primera instancia.

David Yanacek

David Yanacek, ingeniero jefe sénior

Elaborado por David

Aprender

Recursos

Desarrolladores

Ayuda