AWS Inferentia 고객
고객이 AWS Inferentia를 사용하여 딥 러닝 모델을 배포하는 방법에 대해 알아보세요.
NetoAI
NetoAI는 통신사가 복잡한 다중 도메인 운영 및 고객 수명 주기 관리를 자동화할 수 있도록 TSLAM, ViNG, DigiTwin, NAPI를 포함한 TelcoCore 제품군을 제공합니다. 이 부문의 첫 번째 오픈 소스, 행동 지향 모델인 TSLAM LLM이 그 초석입니다. 이를 빌드하기 위해 20억 개의 방대한 독점 데이터세트 토큰을 기반으로 모델을 미세 조정해야 했으며, AWS Trainium trn1 인스턴스에서 Amazon SageMaker를 사용하여 비용을 크게 절감하고 3일 이내에 전체 미세 조정을 완료했습니다. 프로덕션 환경에서 AWS Inferentia2와 Neuron SDK는 300~600밀리초의 낮은 추론 지연 시간을 일관되게 제공합니다. AWS 목적별 AWS AI 칩에 기반한 이 포괄적인 솔루션은 전체 통신 산업에 특화된 고성능 AI를 제공한다는 미션의 핵심입니다.
Ravi Kumar Palepu, 설립자 겸 CEO
SplashMusic
HummingLM을 위한 대규모 오디오 대 오디오 모델 훈련은 컴퓨팅 집약적인 작업이고 반복도 많습니다. 우리는 훈련 워크로드를 AWS Trainium으로 마이그레이션하고 Amazon SageMaker HyperPod로 오케스트레이션함으로써 모델 정확도를 유지하면서 훈련 비용을 54% 줄이고 훈련 주기를 50% 단축했습니다. 또한 높은 처리량 그리고 훈련 데이터 및 체크포인트에 대한 낮은 지연 시간을 지원하기 위해 Amazon FSx for Lustre를 활용하여 1주일만에 2PB 이상의 데이터를 Amazon S3로 마이그레이션했습니다. AWS Inferentia2 기반 Inf2 인스턴스를 사용하면 추론 지연 시간을 최대 10배 줄일 수 있어 더 빠르고 응답성이 뛰어난 실시간 음악 생성이 가능합니다.
Tomofun
대만에 본사를 두고 있는 반려동물 기술 스타트업인 Tomofun은 Furbo Pet Camera를 주력 상품으로, 반려동물 주인이 원격으로 반려동물과 교류하는 방식을 새롭게 정의해 왔습니다. Furbo는 스마트 카메라와 AI를 결합해 짖기, 뛰기나 이상한 활동과 같은 행동을 탐지해 실시간으로 주인에게 알려줍니다. 여기에는 두 가지 문제가 있었습니다. Tomofun에서는 수천 대의 디바이스에서 계속 반려동물 행동을 모니터링하는 작업의 비용 효율성을 사수하되, 동시에 모델 충실도와 처리량을 유지하면서 이미 PyTorch에 최적화된 BLIP 코드베이스 대부분을 다시 쓸 필요가 없어야 했습니다. Tomofun에서는 BLIP 추론을 Amzon EC2 Inf2 인스턴스로 마이그레이션하면서 배포 비용을 83% 절감할 수 있었습니다.