AWS Yapay Zeka Çipleri

AWS Inferentia

Derin öğrenme ve üretken yapay zeka çıkarımı için Amazon EC2 ile en düşük maliyetle yüksek performans elde edin

AWS Neuron aracılığıyla AWS Inferentia çiplerini kullanmaya başlayın

Neden Inferentia?

AWS Inferentia yongası, derin öğrenme (DL) ve üretken yapay zeka çıkarım uygulamalarınız için Amazon EC2'de en düşük maliyetle yüksek performans sunmak üzere AWS tarafından tasarlanmıştır.

Birinci nesil AWS Inferentia yongası, Amazon Elastic Compute Cloud (Amazon EC2) Inf1 bulut sunucularını destekleyerek karşılaştırılabilir Amazon EC2 bulut sunucularına kıyasla 2,3 kata kadar daha yüksek aktarım hızı ve çıkarım başına %70'e kadar daha düşük maliyet sunar. Finch AI, Sprinklr, Money Forward ve Amazon Alexa dahil olmak üzere birçok müşteri, Inf1 bulut sunucularını benimsemiş ve performans ve maliyet avantajlarını deneyimlemiştir.

AWS Inferentia2 yongası, Inferentia'ya kıyasla 4 kata kadar daha yüksek aktarım hızı ve 10 kata kadar daha düşük gecikme süresi sağlar. Inferentia2 tabanlı Amazon EC2 Inf2 bulut sunucuları, büyük dil modelleri (LLM) ve gizli difüzyon modelleri gibi giderek karmaşıklaşan modelleri uygun ölçekte dağıtmak için optimize edilmiştir. Inf2 bulut sunucuları, Amazon EC2'de yongalar arasında ultra yüksek hızlı bağlantı ile ölçeği genişletme dağıtılmış çıkarımı destekleyen, çıkarım için optimize edilmiş ilk bulut sunucularıdır. Leonardo.ai, Deutsche Telekom ve Qualtrics dahil olmak üzere birçok müşteri, derin öğrenme ve üretken yapay zeka uygulamaları için Inf2 bulut sunucularını benimsemiştir.

AWS Neuron SDK'si, geliştiricilerin modelleri AWS Inferentia yongalarında dağıtmalarına (ve bunları AWS Trainium yongaları üzerinde eğitmelerine) yardımcı olur. PyTorch ve TensorFlow gibi popüler çerçevelerle yerel olarak entegre olur, böylece mevcut kodunuzu ve iş akışlarınızı kullanmaya ve Inferentia yongalar üzerinde çalıştırmaya devam edebilirsiniz.

AWS Inferentia'nın Avantajları

Her birinci nesil Inferentia yongasında dört adet birinci nesil NeuronCore bulunur ve her EC2 Inf1 bulut sunucusu 16 adede kadar Inferentia yongasına sahiptir. Her Inferentia2 yongasında iki adet ikinci nesil NeuronCore bulunur ve her EC2 Inf2 bulut sunucusu 12 adede kadar Inferentia2 yongasına sahiptir. Her Inferentia2 yongası, FP16 performansında saniyede 190'a varan tera kayan işlem (TFLOPS) destekler. Birinci nesil Inferentia, yonga başına 8 GB DDR4 belleğe ve ayrıca büyük miktarda yonga üstü belleğe sahiptir. Inferentia2, yonga başına 32 GB HBM sunar ve Inferentia'ya göre toplam belleği 4 kat, bellek bant genişliğini ise 10 kat artırır.

AWS Neuron SDK'si, PyTorch ve TensorFlow gibi popüler makine öğrenimi çerçeveleriyle yerel olarak entegre olur. AWS Neuron ile derin öğrenme modellerini her iki AWS Inferentia yongasında en iyi şekilde dağıtmak için bu çerçeveleri kullanabilirsiniz. Neuron, kod değişikliklerini ve satıcıya özel çözümlere bağlı kalmayı en aza indirmek için tasarlanmıştır. Neuron, Inferentia yongalarında doğal dil işleme (NLP)/anlama, dil çevirisi, metin özetleme, video ve görüntü oluşturma, konuşma tanıma, kişiselleştirme, dolandırıcılık algılama ve daha fazlası için çıkarım uygulamalarınızı çalıştırmanıza yardımcı olur.

Birinci nesil Inferentia; FP16, BF16 ve INT8 veri türlerini destekler. Inferentia2, geliştiricilere performansı ve doğruluğu optimize etmek için daha fazla esneklik sağlamak amacıyla FP32, TF32 ve yeni yapılandırılabilir FP8 (cFP8) veri türü için ek destek sunar. AWS Neuron, yüksek hassasiyetli FP32 modellerini alır ve doğruluğu ve performansı optimize ederken bunları otomatik olarak düşük hassasiyetli veri türlerine dönüştürür. Otomatik dönüştürme, daha düşük hassasiyetli yeniden eğitim ihtiyacını ortadan kaldırarak pazara ulaşma süresini azaltır.

Inferentia2, dinamik giriş boyutları ve C++ ile yazılmış özel operatörler için donanım optimizasyonları sunar. Ayrıca eski yuvarlama modlarına kıyasla yüksek performans ve daha yüksek doğruluk sağlayan olasılıklı yuvarlama yolu olan stokastik yuvarlamayı da destekler.

Inf2 bulut sunucuları, içerdikleri Inferentia2 yongalarla birlikte derin öğrenme modellerini geniş ölçekte çalıştırmak üzere tasarlandığından, karşılaştırılabilir Amazon EC2 bulut sunucularına kıyasla %50'ye kadar daha iyi performans/vat oranı sunar. Inf2 bulut sunucuları, ultra büyük modelleri dağıtırken sürdürülebilirlik hedeflerinize ulaşmanıza yardımcı olur.

Karakuri

Karakuri'nin AWS Inferentia kullanarak maliyetleri kontrol ederken nasıl yüksek performanslı yapay zeka sağladığını öğrenin

Videoyu izleyin

Metagenomi

Metagenomi'nin AWS Inferentia kullanarak büyük ölçekli protein tasarım maliyetlerini nasıl %56'ya kadar azalttığını öğrenin

Blogu okuyun

NetoAI

NetoAI'ın AWS Inferentia2 kullanarak nasıl 300-600 ms çıkarım gecikmesine ulaştığını öğrenin

Müşteri görüşünü okuyun

Tomofun

Tomofun'ın AWS Inferentia'ya geçiş yaparak BLIP çıkarım dağıtım maliyetlerini nasıl %83 oranında azalttığını öğrenin

Müşteri görüşünü okuyun

SplashMusic

SplashMusic'in AWS Inferetia kullanarak çıkarım gecikmesini nasıl
10 kata kadar azalttığını öğrenin

Müşteri görüşünü okuyun

Leonardo.ai

Leonardo'daki ekibimiz, yaratıcı profesyonellerin ve meraklıların benzersiz kalite, hız ve tarz tutarlılığı ile görsel varlıklar üretmelerini sağlamak için üretken yapay zekadan yararlanmaktadır. AWS Inferentia2 kullanarak performansımızdan ödün vermeden maliyetlerimizi %80 oranında azaltabiliyoruz, müşterilerimize sunabileceğimiz değer teklifini temelden değiştiriyoruz ve en gelişmiş özelliklerimizi daha erişilebilir bir fiyat noktasında sunabiliyoruz. Ayrıca, büyüdükçe ve ölçeklendikçe giderek daha önemli hale gelen yardımcı yapay zeka hizmetlerimiz için maliyet ve kapasite erişilebilirliği konusundaki endişeleri de hafifletir. Üretken yapay zeka ile neyin mümkün olduğu konusunda sınırları zorlamaya devam ederken, kullanıcılarımız için yeni bir yaratıcılık ve ifade gücü çağının kapılarını aralayan önemli bir teknolojidir.

Pete Werner, Yapay Zeka Bölüm Başkanı, Leonardo.ai

Qualtrics

Qualtrics, deneyim yönetimi yazılımı tasarlar ve geliştirir.

Qualtrics'te odak noktamız müşteriler, çalışanlar, markalar ve ürünler için deneyim boşluklarını kapatan teknoloji oluşturmaktır. Bunu başarmak için; metin sınıflandırması, sıra etiketleme, söylem analizi, anahtar kelime öbeği çıkarma, konu çıkarma, kümeleme ve uçtan uca konuşma anlama gibi yeni özellikleri başlatmak için karmaşık çok görevli, çok modlu derin öğrenme modelleri geliştiriyoruz. Bu daha karmaşık modelleri daha fazla uygulamada kullandıkça, yapılandırılmamış verilerin hacmi artar ve müşterilerimize en iyi deneyimleri sunmak için Inf2 bulut sunucuları gibi, bu talepleri karşılayabilecek daha performanslı ve çıkarım açısından optimize edilmiş çözümlere ihtiyacımız var. Yeni Inf2 bulut sunucuları için heyecanlıyız çünkü yalnızca daha yüksek aktarım hızı elde etmemize izin verirken gecikmeyi önemli ölçüde azaltmamıza olanak tanımakla kalmayıp daha büyük, daha karmaşık büyük modellere doğru ilerlerken dağıtım ihtiyaçlarını karşılamak için ölçeklendirmemize yardımcı olacak dağıtılmış çıkarım ve gelişmiş dinamik girdi şekli desteği gibi özellikler de sunuyor.

Aaron Colak, Temel Makine Öğrenimi Bölüm Başkanı, Qualtrics

Finch Computing

Finch Computing; devlet, finansal hizmetler ve veri entegratörü müşterileri için yapay zeka uygulamaları sağlayan bir doğal dil teknolojisi şirketidir.

Müşterilerimizin gerçek zamanlı doğal dil işleme ihtiyaçlarını karşılamak için, büyük üretim iş yüklerine ölçeklenebilen son teknoloji derin öğrenme modelleri geliştiriyoruz. Küresel veri akışlarını işlemek için düşük gecikmeli işlemler sağlamalı ve yüksek aktarım hızı elde etmeliyiz. Birçok üretim iş yükünü Inf1 bulut sunucularına çoktan geçirdik ve GPU'lara kıyasla maliyeti %80 oranında azalttık. Şimdi ise yazılı metinden daha derin, daha öngörülü anlam sağlayan daha büyük, daha karmaşık modeller geliştiriyoruz. Müşterilerimizin çoğunun bu öngörülere gerçek zamanlı olarak erişmesi gerekir ve Inf2 bulut sunucularındaki performans, Inf1 bulut sunucularına göre daha kısa gecikme süresi ve daha yüksek aktarım hızı sunmamıza yardımcı olacaktır. Inf2 performans iyileştirmeleri ve dinamik girdi boyutları desteği gibi yeni Inf2 özellikleriyle maliyet verimliliğimizi artırıyor, gerçek zamanlı müşteri deneyimini yükseltiyor ve müşterilerimizin verilerinden yeni bilgiler edinmelerine yardımcı oluyoruz.

Franz Weckesser, Baş Mimar, Finch Computing

Dataminr

Yüz binlerce kaynaktan farklı biçimlerde (görüntüler, videolar, ses dosyaları, metin sensörleri, tüm bu türlerin kombinasyonları) birçok dilde dünyanın dört bir yanından birçok olay türü hakkında uyarılar sağlıyoruz. Bu ölçek göz önüne alındığında hız ve maliyeti optimize etmek, işletmemiz için kesinlikle kritik bir öneme sahiptir. AWS Inferentia ile model gecikmesini azalttık ve USD başına 9 kata kadar daha iyi aktarım hızı elde ettik. Bu, daha gelişmiş derin öğrenme modelleri dağıtarak ve maliyetlerimizi kontrol altında tutarken 5 kat daha fazla veri hacmi işleyerek model doğruluğunu artırmamıza ve platformumuzun özelliklerini büyütmemize olanak sağladı.

Alex Jaimes, Bilim Departmanı Müdürü ve Yapay Zeka Kıdemli Başkan Yardımcısı, Dataminr

Snap Inc.

Makine öğrenimini Snapchat'in birçok özelliğine ekliyoruz ve bu alanda yenilikleri keşfetmek en önemli önceliğimiz. Infertia'yı öğrendiğimizde performans ve maliyet dahil olmak üzere makine öğrenimi dağıtımları için bize yardımcı olması adına Inf1/Inferentia bulut sunucuları edinmek üzere AWS ile işbirliğine başladık. Öneri modellerimiz ile başladık ve gelecekte Inf1 bulut sunucuları ile daha fazla model edinmeyi dört gözle bekliyoruz.

Nima Khajehnouri, VP Engineering, Snap Inc.

Sprinklr

Sprinklr'ın yapay zeka temelli birleştirilmiş müşteri deneyimi yönetme (Unified-CXM) platformu, şirketlerin birden fazla kanalda gerçek zamanlı müşteri geri bildirimlerini toplayıp eyleme geçirilebilir öngörülere dönüştürmesine olanak tanır ve sonuç olarak proaktif sorun çözümü, iyileştirilmiş ürün geliştirme, iyileştirilmiş içerik pazarlaması, daha iyi müşteri hizmeti ve çok daha fazlasını ortaya çıkarır. Amazon EC2 Inf1'i kullanarak NLP modellerimizden birinin performansını önemli ölçüde iyileştirebildik ve görüntü işleme modellerimizden birinin performansını artırdık. Küresel müşterilerimize daha iyi hizmet sunabilmek adına Amazon EC2 Inf1'i kullanmaya devam etmek için sabırsızlanıyoruz.

Vasant Srinivasan, Ürün Mühendisliği Kıdemli Başkan Yardımcısı, Sprinklr

Autodesk

Autodesk, Inferentia kullanarak yapay zeka temelli sanal asistanımız olan Autodesk Virtual Agent'in (AVA) bilişsel teknolojisini geliştiriyor. AVA, doğal dil anlama (NLU) ve derin öğrenme teknikleri uygulayarak sorguların arkasındaki bağlamı, niyeti ve anlamı çıkarmak için aylık 100.000 müşteri sorusunu cevaplamaktadır. Inferentia kullanarak NLU modellerimiz için G4dn bulut sunucularına kıyasla 4,9 kat daha yüksek aktarım hızı elde edebiliyoruz ve Inferentia temelli Inf1 bulut sunucularında daha fazla iş yükü çalıştırmayı dört gözle beliyoruz.

Binghui Ouyang, Kıdemli Veri Bilimcisi, Autodesk

Screening Eagle Technologies

Yere nüfuz eden radarın kullanımı ve görsel kusurların tespiti genel olarak uzman anketörlerin alanıdır. AWS mikro hizmet tabanlı mimari, otomatik denetim araçları ve denetçiler tarafından çekilen videoları işlememize olanak tanır. Şirket içi yerleşik modellerimizi geleneksel GPU tabanlı bulut sunucularından Inferentia'ya geçirerek maliyetleri %50 oranında azaltmayı başardık. Ayrıca süreleri bir G4dn GPU bulut sunucusuyla karşılaştırırken performans kazanımlarını görebildik. Ekibimiz, Inferentia tabanlı Inf1 bulut sunucularında daha fazla iş yükü çalıştırmayı dört gözle bekliyor.

Jesús Hormigo, Bulut Başkanı ve Yapay Zeka Sorumlusu, Screening Eagle Technologies

NTT PC Communications Inc.

Japonya'da bir ağ hizmeti ve iletişim çözümü sağlayıcısı olan NTT PC Communications, bilgi ve iletişim teknolojisi pazarına yenilikçi ürünler kazandırma konusunda telekomünikasyon alanında liderdir.

NTT PC, gelişmiş duruş tahmini makine öğrenimi modellerine dayanan bir hareket analizi API platform hizmeti olan AnyMotion hizmetini geliştirdi. AnyMotion platformumuzu tam olarak yönetilen bir container düzenleme hizmeti için Amazon ECS'yi kullanarak Amazon EC2 Inf1 bulut sunucuları üzerinde dağıttık. AnyMotion container'larımızı Amazon EC2 Inf1 üzerinde dağıtarak, güncel nesil GPU tabanlı EC2 bulut sunucularına kıyasla aktarım hızında 4,5 kat artış, %25 daha düşük çıkarım gecikme süresi ve %90 daha düşük maliyet sağladık. Bu üstün sonuçlar, uygun ölçekte AnyMotion hizmetinin kalitesini artırmaya yardımcı olacak.

Toshiki Yanagisawa, Yazılım Mühendisi, NTT PC Communications Inc.

Anthem

Anthem, onlarca eyalette 40 milyondan fazla üyenin sağlık bakım ihtiyaçlarını karşılayan ülkenin önde gelen sağlık yardımı şirketlerinden biridir.

Dijital sağlık platformları pazarı gözle görülür bir hızla büyüyor. Bu pazarda istihbarat toplamak çok miktarda müşteri görüşleri verisi olduğundan ve bu verilerin yapılandırılmamış doğasından zorlayıcı bir görevdir. Uygulamamız DL doğal dil modelleri (Dönüştürücüler) aracılığıyla müşteri görüşlerinden eyleme dönüştürülebilir öngörüler oluşturmayı otomatik hâle getirir. Uygulamamız işlem açısından yoğundur ve uygulamamızın yüksek performanslı bir şekilde dağıtılması gerekir. Derin öğrenme çıkarım iş yükümüzü AWS Inferentia işlemcisi tarafından sağlanan Amazon EC2 Inf1 bulut sunucularına sorunsuz bir şekilde dağıttık. Yeni Inf1 bulut sunucuları, GPU tabanlı bulut sunucularına kıyasla 2 kat daha yüksek aktarım hızı sağlıyor ve çıkarım iş yüklerimizi kolaylaştırmamıza olanak tanıyor.

Numan Laanait ve Miro Mihaylov, PhD, Yapay Zeka Yöneticileri/Veri Bilimcileri, Anthem

Videolar

Amazon'daki Üretken Yapay Zeka altyapısının perde arkasına bakın

AWS Inferentia2 tarafından desteklenen Amazon EC2 Inf2 bulut sunucuları ile tanışın

Dört AWS müşterisinin, AWS Inferentia ile makine öğrenimi maliyetlerini nasıl azalttığını ve yeniliği nasıl sağladığını öğrenin

Kaynaklar

Blog

AWS Inferentia ve AWS Trainium ile Amazon SageMaker JumpStart'ta Llama 2 modellerinde uygun maliyetli bir şekilde ince ayar yapın ve dağıtın

Blogu okuyun

Blog

QLoRA kullanarak Llama 2'de ince ayar yapın ve AWS Inferentia2 ile Amazon SageMaker'da dağıtın

Blogu okuyun

Blog

AWS Inferentia2 ile Stable Diffusion performansını en üst düzeye çıkarın ve çıkarım maliyetlerini düşürün

Blogu okuyun

Blog

Amazon SageMaker'da AWS Inferentia2 ve AWS Trainium'u kullanarak üretken yapay zeka çıkarımı için en düşük maliyetle yüksek performans elde edin

Blogu okuyun

Blog

ByteDance, AWS Inferentia kullanarak gecikmeyi azaltırken ve aktarım hızını artırırken çıkarım maliyetlerinde %60'a varan oranda tasarruf sağladı

Blogu okuyun

Blog

Amazon Search, AWS Inferentia ile makine öğrenimi çıkarım maliyetlerini nasıl %85 oranında azalttı?

Blogu okuyun

Ek kaynaklar

AWS Neuron kullanın ve TensorFlow, PyTorch veya MXNet içinden AWS Inferentia'yı kullanmaya başlayın

Daha fazla bilgi edinin

Ek kaynaklar

AWS Neuron özellik yol haritası

Daha fazla bilgi edinin

Ek kaynaklar

Bu kolay öğreticileri kullanarak AWS Inferentia'da çıkarım yapmaya başlayın

Daha fazla bilgi edinin

AWS Inferentia'yı kullanmaya başlayın

Daha fazla bilgi edinin

Konsol

Konsolda oluşturmaya başlayın

Oturum açın

Ücretsiz kullanım

Çıkarım Örnekleri/Öğreticiler (Inf2/Trn1)

Daha fazla bilgi edinin

AWS Inferentia

Neden Inferentia?

AWS Inferentia'nın Avantajları

Karakuri

Metagenomi

NetoAI

Tomofun

SplashMusic

Leonardo.ai

Qualtrics

Finch Computing

Dataminr

Snap Inc.

Sprinklr

Autodesk

Screening Eagle Technologies

NTT PC Communications Inc.

Anthem

Videolar

Kaynaklar

AWS Inferentia ve AWS Trainium ile Amazon SageMaker JumpStart'ta Llama 2 modellerinde uygun maliyetli bir şekilde ince ayar yapın ve dağıtın

QLoRA kullanarak Llama 2'de ince ayar yapın ve AWS Inferentia2 ile Amazon SageMaker'da dağıtın

AWS Inferentia2 ile Stable Diffusion performansını en üst düzeye çıkarın ve çıkarım maliyetlerini düşürün

Amazon SageMaker'da AWS Inferentia2 ve AWS Trainium'u kullanarak üretken yapay zeka çıkarımı için en düşük maliyetle yüksek performans elde edin

ByteDance, AWS Inferentia kullanarak gecikmeyi azaltırken ve aktarım hızını artırırken çıkarım maliyetlerinde %60'a varan oranda tasarruf sağladı

Amazon Search, AWS Inferentia ile makine öğrenimi çıkarım maliyetlerini nasıl %85 oranında azalttı?

AWS Neuron kullanın ve TensorFlow, PyTorch veya MXNet içinden AWS Inferentia'yı kullanmaya başlayın

AWS Neuron özellik yol haritası

Bu kolay öğreticileri kullanarak AWS Inferentia'da çıkarım yapmaya başlayın

AWS Inferentia'yı kullanmaya başlayın

Konsolda oluşturmaya başlayın

Çıkarım Örnekleri/Öğreticiler (Inf2/Trn1)

Öğrenin

Kaynaklar

Geliştiriciler

Yardım

AWS Inferentia

Neden Inferentia?

AWS Inferentia'nın Avantajları

Yüksek aktarım hızı ve düşük gecikme için optimize edilmiştir

Makine öğrenimi çerçeveleri için yerel destek

Otomatik dönüştürme ile geniş veri türü yelpazesi

Son teknoloji derin öğrenme özellikleri

Sürdürülebilirlik için tasarlanmıştır

Karakuri

Metagenomi

NetoAI

Tomofun

SplashMusic

Leonardo.ai

Qualtrics

Finch Computing

Dataminr

Snap Inc.

Sprinklr

Autodesk

Screening Eagle Technologies

NTT PC Communications Inc.

Anthem

Videolar

Kaynaklar

AWS Inferentia ve AWS Trainium ile Amazon SageMaker JumpStart'ta Llama 2 modellerinde uygun maliyetli bir şekilde ince ayar yapın ve dağıtın

QLoRA kullanarak Llama 2'de ince ayar yapın ve AWS Inferentia2 ile Amazon SageMaker'da dağıtın

AWS Inferentia2 ile Stable Diffusion performansını en üst düzeye çıkarın ve çıkarım maliyetlerini düşürün

Amazon SageMaker'da AWS Inferentia2 ve AWS Trainium'u kullanarak üretken yapay zeka çıkarımı için en düşük maliyetle yüksek performans elde edin

ByteDance, AWS Inferentia kullanarak gecikmeyi azaltırken ve aktarım hızını artırırken çıkarım maliyetlerinde %60'a varan oranda tasarruf sağladı

Amazon Search, AWS Inferentia ile makine öğrenimi çıkarım maliyetlerini nasıl %85 oranında azalttı?

AWS Neuron kullanın ve TensorFlow, PyTorch veya MXNet içinden AWS Inferentia'yı kullanmaya başlayın

AWS Neuron özellik yol haritası

Bu kolay öğreticileri kullanarak AWS Inferentia'da çıkarım yapmaya başlayın

AWS Inferentia'yı kullanmaya başlayın

Konsolda oluşturmaya başlayın

Çıkarım Örnekleri/Öğreticiler (Inf2/Trn1)

Öğrenin

Kaynaklar

Geliştiriciler

Yardım