Amazon SageMaker AI kündigt neue Beobachtbarkeits-Funktion für Inference Endpoints an
Die neue Beobachtbarkeits-Funktion von Amazon SageMaker AI ermöglicht es Kundinnen und Kunden, produktive Inferenz-Workloads für generative KI sicher zu betreiben, indem sie umfassende Transparenz über Token-Performance, GPU-Zustand, Platzierung von Inferenzkomponenten und Autoscaling-Verhalten bietet. Sie eliminiert manuellen Aufwand, CloudWatch nach Metriken pro Endpoint zu durchsuchen, Latenzspitzen mit GPU-Sättigung oder KV-Cache-Erschöpfung zu korrelieren und zu diagnostizieren, warum Skalierungsvorgänge langsam sind. Diese Funktion verfolgt Inferenz-Performance-Metriken in Echtzeit, darunter Time to First Token, Inter-Token-Latenz, Warteschlangentiefe und Tokens pro Sekunde, und stellt sie zusammen mit dem Infrastrukturzustand dar. So können Probleme innerhalb von Minuten identifiziert und behoben werden.
Die detaillierte Beobachtbarkeit von SageMaker AI verändert, wie Kundinnen und Kunden ihre Inferenzflotte überwachen und optimieren. Das neue vorgefertigte SageMaker-AI-Insights-Dashboard in Amazon CloudWatch bietet Token-Latenz, GPU-Auslastung, Kopienanzahl von Inferenzkomponenten, Skalierungsereignisse und Cold-Start-Aufschlüsselungen in einer einzigen Ansicht, mit OpenTelemetry-nativen Metriken, die automatisch veröffentlicht werden, ohne dass Instrumentierung erforderlich ist. Dadurch können Teams TTFT-Verschlechterungen schnell diagnostizieren, Availability-Zone-Compliance überprüfen und Autoscaling-Richtlinien optimieren. Kunden, die auf Beobachtbarkeit-Tools wie Grafana standardisiert sind, können über den regionalen PromQL-Endpunkt eine direkte Verbindung herstellen und eine vorkonfigurierte Dashboard-Vorlage importieren. Diese Funktion hilft Kundinnen und Kunden, operative Probleme selbstständig zu lösen und die Performance ihrer KI-Investitionen zu maximieren.
SageMaker AI Inference Observability ist in den folgenden AWS-Regionen verfügbar: USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Oregon), USA West (Nordkalifornien), Kanada (Zentral), Südamerika (São Paulo), Europa (Irland), Europa (Frankfurt), Europa (London), Europa (Stockholm), Europa (Zürich), Asien-Pazifik (Mumbai), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul) und Asien-Pazifik (Jakarta). Weitere Informationen finden Sie in der Dokumentation und auf der Webseite Amazon SageMaker AI.