Ana İçeriğe Atla

AWS Yapay Zeka Çipleri

AWS Inferentia

Derin öğrenme ve üretken yapay zeka çıkarımı için Amazon EC2 ile en düşük maliyetle yüksek performans elde edin

Neden Inferentia?

AWS Inferentia yongası, derin öğrenme (DL) ve üretken yapay zeka çıkarım uygulamalarınız için Amazon EC2'de en düşük maliyetle yüksek performans sunmak üzere AWS tarafından tasarlanmıştır. 

Birinci nesil AWS Inferentia yongası, Amazon Elastic Compute Cloud (Amazon EC2) Inf1 bulut sunucularını destekleyerek karşılaştırılabilir Amazon EC2 bulut sunucularına kıyasla 2,3 kata kadar daha yüksek aktarım hızı ve çıkarım başına %70'e kadar daha düşük maliyet sunar. Finch AI, Sprinklr, Money Forward ve Amazon Alexa dahil olmak üzere birçok müşteri, Inf1 bulut sunucularını benimsemiş ve performans ve maliyet avantajlarını deneyimlemiştir.

AWS Inferentia2 yongası, Inferentia'ya kıyasla 4 kata kadar daha yüksek aktarım hızı ve 10 kata kadar daha düşük gecikme süresi sağlar. Inferentia2 tabanlı Amazon EC2 Inf2 bulut sunucuları, büyük dil modelleri (LLM) ve gizli difüzyon modelleri gibi giderek karmaşıklaşan modelleri uygun ölçekte dağıtmak için optimize edilmiştir. Inf2 bulut sunucuları, Amazon EC2'de yongalar arasında ultra yüksek hızlı bağlantı ile ölçeği genişletme dağıtılmış çıkarımı destekleyen, çıkarım için optimize edilmiş ilk bulut sunucularıdır. Leonardo.ai, Deutsche Telekom ve Qualtrics dahil olmak üzere birçok müşteri, derin öğrenme ve üretken yapay zeka uygulamaları için Inf2 bulut sunucularını benimsemiştir. 

AWS Neuron SDK'si, geliştiricilerin modelleri AWS Inferentia yongalarında dağıtmalarına (ve bunları AWS Trainium yongaları üzerinde eğitmelerine) yardımcı olur. PyTorch ve TensorFlow gibi popüler çerçevelerle yerel olarak entegre olur, böylece mevcut kodunuzu ve iş akışlarınızı kullanmaya ve Inferentia yongalar üzerinde çalıştırmaya devam edebilirsiniz.

AWS Inferentia'nın Avantajları

    Her birinci nesil Inferentia yongasında dört adet birinci nesil NeuronCore bulunur ve her EC2 Inf1 bulut sunucusu 16 adede kadar Inferentia yongasına sahiptir. Her Inferentia2 yongasında iki adet ikinci nesil NeuronCore bulunur ve her EC2 Inf2 bulut sunucusu 12 adede kadar Inferentia2 yongasına sahiptir. Her Inferentia2 yongası, FP16 performansında saniyede 190'a varan tera kayan işlem (TFLOPS) destekler. Birinci nesil Inferentia, yonga başına 8 GB DDR4 belleğe ve ayrıca büyük miktarda yonga üstü belleğe sahiptir. Inferentia2, yonga başına 32 GB HBM sunar ve Inferentia'ya göre toplam belleği 4 kat, bellek bant genişliğini ise 10 kat artırır.

    AWS Neuron SDK'si, PyTorch ve TensorFlow gibi popüler makine öğrenimi çerçeveleriyle yerel olarak entegre olur. AWS Neuron ile derin öğrenme modellerini her iki AWS Inferentia yongasında en iyi şekilde dağıtmak için bu çerçeveleri kullanabilirsiniz. Neuron, kod değişikliklerini ve satıcıya özel çözümlere bağlı kalmayı en aza indirmek için tasarlanmıştır. Neuron, Inferentia yongalarında doğal dil işleme (NLP)/anlama, dil çevirisi, metin özetleme, video ve görüntü oluşturma, konuşma tanıma, kişiselleştirme, dolandırıcılık algılama ve daha fazlası için çıkarım uygulamalarınızı çalıştırmanıza yardımcı olur.

    Birinci nesil Inferentia; FP16, BF16 ve INT8 veri türlerini destekler. Inferentia2, geliştiricilere performansı ve doğruluğu optimize etmek için daha fazla esneklik sağlamak amacıyla FP32, TF32 ve yeni yapılandırılabilir FP8 (cFP8) veri türü için ek destek sunar. AWS Neuron, yüksek hassasiyetli FP32 modellerini alır ve doğruluğu ve performansı optimize ederken bunları otomatik olarak düşük hassasiyetli veri türlerine dönüştürür. Otomatik dönüştürme, daha düşük hassasiyetli yeniden eğitim ihtiyacını ortadan kaldırarak pazara ulaşma süresini azaltır.

    Inferentia2, dinamik giriş boyutları ve C++ ile yazılmış özel operatörler için donanım optimizasyonları sunar. Ayrıca eski yuvarlama modlarına kıyasla yüksek performans ve daha yüksek doğruluk sağlayan olasılıklı yuvarlama yolu olan stokastik yuvarlamayı da destekler.

    Inf2 bulut sunucuları, içerdikleri Inferentia2 yongalarla birlikte derin öğrenme modellerini geniş ölçekte çalıştırmak üzere tasarlandığından, karşılaştırılabilir Amazon EC2 bulut sunucularına kıyasla %50'ye kadar daha iyi performans/vat oranı sunar. Inf2 bulut sunucuları, ultra büyük modelleri dağıtırken sürdürülebilirlik hedeflerinize ulaşmanıza yardımcı olur.

Karakuri

Karakuri'nin AWS Inferentia kullanarak maliyetleri kontrol ederken nasıl yüksek performanslı yapay zeka sağladığını öğrenin


Missing alt text value

Metagenomi



Metagenomi'nin AWS Inferentia kullanarak büyük ölçekli protein tasarım maliyetlerini nasıl %56'ya kadar azalttığını öğrenin

Blogu okuyun

NetoAI

NetoAI'ın AWS Inferentia2 kullanarak nasıl 300-600 ms çıkarım gecikmesine ulaştığını öğrenin

Missing alt text value

Tomofun

Tomofun'ın AWS Inferentia'ya geçiş yaparak BLIP çıkarım dağıtım maliyetlerini nasıl %83 oranında azalttığını öğrenin

Müşteri görüşünü okuyun

SplashMusic



SplashMusic'in AWS Inferetia kullanarak çıkarım gecikmesini nasıl
10 kata kadar azalttığını öğrenin

Missing alt text value

Leonardo.ai

Leonardo'daki ekibimiz, yaratıcı profesyonellerin ve meraklıların benzersiz kalite, hız ve tarz tutarlılığı ile görsel varlıklar üretmelerini sağlamak için üretken yapay zekadan yararlanmaktadır. AWS Inferentia2 kullanarak performansımızdan ödün vermeden maliyetlerimizi %80 oranında azaltabiliyoruz, müşterilerimize sunabileceğimiz değer teklifini temelden değiştiriyoruz ve en gelişmiş özelliklerimizi daha erişilebilir bir fiyat noktasında sunabiliyoruz. Ayrıca, büyüdükçe ve ölçeklendikçe giderek daha önemli hale gelen yardımcı yapay zeka hizmetlerimiz için maliyet ve kapasite erişilebilirliği konusundaki endişeleri de hafifletir. Üretken yapay zeka ile neyin mümkün olduğu konusunda sınırları zorlamaya devam ederken, kullanıcılarımız için yeni bir yaratıcılık ve ifade gücü çağının kapılarını aralayan önemli bir teknolojidir.

Pete Werner, Yapay Zeka Bölüm Başkanı, Leonardo.ai

Logo for Leonardo AI featuring a stylized portrait resembling Leonardo da Vinci with geometric accents and vibrant colors next to the text 'Leonardo AI'.

Qualtrics

Qualtrics, deneyim yönetimi yazılımı tasarlar ve geliştirir.

Qualtrics'te odak noktamız müşteriler, çalışanlar, markalar ve ürünler için deneyim boşluklarını kapatan teknoloji oluşturmaktır. Bunu başarmak için; metin sınıflandırması, sıra etiketleme, söylem analizi, anahtar kelime öbeği çıkarma, konu çıkarma, kümeleme ve uçtan uca konuşma anlama gibi yeni özellikleri başlatmak için karmaşık çok görevli, çok modlu derin öğrenme modelleri geliştiriyoruz. Bu daha karmaşık modelleri daha fazla uygulamada kullandıkça, yapılandırılmamış verilerin hacmi artar ve müşterilerimize en iyi deneyimleri sunmak için Inf2 bulut sunucuları gibi, bu talepleri karşılayabilecek daha performanslı ve çıkarım açısından optimize edilmiş çözümlere ihtiyacımız var. Yeni Inf2 bulut sunucuları için heyecanlıyız çünkü yalnızca daha yüksek aktarım hızı elde etmemize izin verirken gecikmeyi önemli ölçüde azaltmamıza olanak tanımakla kalmayıp daha büyük, daha karmaşık büyük modellere doğru ilerlerken dağıtım ihtiyaçlarını karşılamak için ölçeklendirmemize yardımcı olacak dağıtılmış çıkarım ve gelişmiş dinamik girdi şekli desteği gibi özellikler de sunuyor.

Aaron Colak, Temel Makine Öğrenimi Bölüm Başkanı, Qualtrics

Qualtrics XM logo with stylized 'XM' in blue gradient on a white background.

Finch Computing

Finch Computing; devlet, finansal hizmetler ve veri entegratörü müşterileri için yapay zeka uygulamaları sağlayan bir doğal dil teknolojisi şirketidir.

Müşterilerimizin gerçek zamanlı doğal dil işleme ihtiyaçlarını karşılamak için, büyük üretim iş yüklerine ölçeklenebilen son teknoloji derin öğrenme modelleri geliştiriyoruz. Küresel veri akışlarını işlemek için düşük gecikmeli işlemler sağlamalı ve yüksek aktarım hızı elde etmeliyiz. Birçok üretim iş yükünü Inf1 bulut sunucularına çoktan geçirdik ve GPU'lara kıyasla maliyeti %80 oranında azalttık. Şimdi ise yazılı metinden daha derin, daha öngörülü anlam sağlayan daha büyük, daha karmaşık modeller geliştiriyoruz. Müşterilerimizin çoğunun bu öngörülere gerçek zamanlı olarak erişmesi gerekir ve Inf2 bulut sunucularındaki performans, Inf1 bulut sunucularına göre daha kısa gecikme süresi ve daha yüksek aktarım hızı sunmamıza yardımcı olacaktır. Inf2 performans iyileştirmeleri ve dinamik girdi boyutları desteği gibi yeni Inf2 özellikleriyle maliyet verimliliğimizi artırıyor, gerçek zamanlı müşteri deneyimini yükseltiyor ve müşterilerimizin verilerinden yeni bilgiler edinmelerine yardımcı oluyoruz.

Franz Weckesser, Baş Mimar, Finch Computing

Logo of Finch AI featuring a stylized origami bird and the text 'FinchAI'.

Dataminr

Yüz binlerce kaynaktan farklı biçimlerde (görüntüler, videolar, ses dosyaları, metin sensörleri, tüm bu türlerin kombinasyonları) birçok dilde dünyanın dört bir yanından birçok olay türü hakkında uyarılar sağlıyoruz. Bu ölçek göz önüne alındığında hız ve maliyeti optimize etmek, işletmemiz için kesinlikle kritik bir öneme sahiptir. AWS Inferentia ile model gecikmesini azalttık ve USD başına 9 kata kadar daha iyi aktarım hızı elde ettik. Bu, daha gelişmiş derin öğrenme modelleri dağıtarak ve maliyetlerimizi kontrol altında tutarken 5 kat daha fazla veri hacmi işleyerek model doğruluğunu artırmamıza ve platformumuzun özelliklerini büyütmemize olanak sağladı.

Alex Jaimes, Bilim Departmanı Müdürü ve Yapay Zeka Kıdemli Başkan Yardımcısı, Dataminr

The logo for Dataminr, featuring the company name and a distinctive icon in blue.

Snap Inc.

Makine öğrenimini Snapchat'in birçok özelliğine ekliyoruz ve bu alanda yenilikleri keşfetmek en önemli önceliğimiz. Infertia'yı öğrendiğimizde performans ve maliyet dahil olmak üzere makine öğrenimi dağıtımları için bize yardımcı olması adına Inf1/Inferentia bulut sunucuları edinmek üzere AWS ile işbirliğine başladık. Öneri modellerimiz ile başladık ve gelecekte Inf1 bulut sunucuları ile daha fazla model edinmeyi dört gözle bekliyoruz.

Nima Khajehnouri, VP Engineering, Snap Inc.

The Snapchat logo, featuring a white ghost icon on a black background.

Sprinklr

Sprinklr'ın yapay zeka temelli birleştirilmiş müşteri deneyimi yönetme (Unified-CXM) platformu, şirketlerin birden fazla kanalda gerçek zamanlı müşteri geri bildirimlerini toplayıp eyleme geçirilebilir öngörülere dönüştürmesine olanak tanır ve sonuç olarak proaktif sorun çözümü, iyileştirilmiş ürün geliştirme, iyileştirilmiş içerik pazarlaması, daha iyi müşteri hizmeti ve çok daha fazlasını ortaya çıkarır. Amazon EC2 Inf1'i kullanarak NLP modellerimizden birinin performansını önemli ölçüde iyileştirebildik ve görüntü işleme modellerimizden birinin performansını artırdık. Küresel müşterilerimize daha iyi hizmet sunabilmek adına Amazon EC2 Inf1'i kullanmaya devam etmek için sabırsızlanıyoruz.

Vasant Srinivasan, Ürün Mühendisliği Kıdemli Başkan Yardımcısı, Sprinklr

The logo of Sprinklr, featuring a multicolored icon and text. Used for branding and visual identification.

Autodesk

Autodesk, Inferentia kullanarak yapay zeka temelli sanal asistanımız olan Autodesk Virtual Agent'in (AVA) bilişsel teknolojisini geliştiriyor. AVA, doğal dil anlama (NLU) ve derin öğrenme teknikleri uygulayarak sorguların arkasındaki bağlamı, niyeti ve anlamı çıkarmak için aylık 100.000 müşteri sorusunu cevaplamaktadır. Inferentia kullanarak NLU modellerimiz için G4dn bulut sunucularına kıyasla 4,9 kat daha yüksek aktarım hızı elde edebiliyoruz ve Inferentia temelli Inf1 bulut sunucularında daha fazla iş yükü çalıştırmayı dört gözle beliyoruz.

Binghui Ouyang, Kıdemli Veri Bilimcisi, Autodesk

The Autodesk logo in black text on a white background.

Screening Eagle Technologies

Yere nüfuz eden radarın kullanımı ve görsel kusurların tespiti genel olarak uzman anketörlerin alanıdır. AWS mikro hizmet tabanlı mimari, otomatik denetim araçları ve denetçiler tarafından çekilen videoları işlememize olanak tanır. Şirket içi yerleşik modellerimizi geleneksel GPU tabanlı bulut sunucularından Inferentia'ya geçirerek maliyetleri %50 oranında azaltmayı başardık. Ayrıca süreleri bir G4dn GPU bulut sunucusuyla karşılaştırırken performans kazanımlarını görebildik. Ekibimiz, Inferentia tabanlı Inf1 bulut sunucularında daha fazla iş yükü çalıştırmayı dört gözle bekliyor.

Jesús Hormigo, Bulut Başkanı ve Yapay Zeka Sorumlusu, Screening Eagle Technologies

The Screening Eagle logo featuring a stylized eagle head with the words 'Screening Eagle' in teal.

NTT PC Communications Inc.

Japonya'da bir ağ hizmeti ve iletişim çözümü sağlayıcısı olan NTT PC Communications, bilgi ve iletişim teknolojisi pazarına yenilikçi ürünler kazandırma konusunda telekomünikasyon alanında liderdir.

NTT PC, gelişmiş duruş tahmini makine öğrenimi modellerine dayanan bir hareket analizi API platform hizmeti olan AnyMotion hizmetini geliştirdi. AnyMotion platformumuzu tam olarak yönetilen bir container düzenleme hizmeti için Amazon ECS'yi kullanarak Amazon EC2 Inf1 bulut sunucuları üzerinde dağıttık. AnyMotion container'larımızı Amazon EC2 Inf1 üzerinde dağıtarak, güncel nesil GPU tabanlı EC2 bulut sunucularına kıyasla aktarım hızında 4,5 kat artış, %25 daha düşük çıkarım gecikme süresi ve %90 daha düşük maliyet sağladık. Bu üstün sonuçlar, uygun ölçekte AnyMotion hizmetinin kalitesini artırmaya yardımcı olacak.

Toshiki Yanagisawa, Yazılım Mühendisi, NTT PC Communications Inc.

The logo of NTTPC Communications, featuring stylized text and a circular emblem.

Anthem

Anthem, onlarca eyalette 40 milyondan fazla üyenin sağlık bakım ihtiyaçlarını karşılayan ülkenin önde gelen sağlık yardımı şirketlerinden biridir.

Dijital sağlık platformları pazarı gözle görülür bir hızla büyüyor. Bu pazarda istihbarat toplamak çok miktarda müşteri görüşleri verisi olduğundan ve bu verilerin yapılandırılmamış doğasından zorlayıcı bir görevdir. Uygulamamız DL doğal dil modelleri (Dönüştürücüler) aracılığıyla müşteri görüşlerinden eyleme dönüştürülebilir öngörüler oluşturmayı otomatik hâle getirir. Uygulamamız işlem açısından yoğundur ve uygulamamızın yüksek performanslı bir şekilde dağıtılması gerekir. Derin öğrenme çıkarım iş yükümüzü AWS Inferentia işlemcisi tarafından sağlanan Amazon EC2 Inf1 bulut sunucularına sorunsuz bir şekilde dağıttık. Yeni Inf1 bulut sunucuları, GPU tabanlı bulut sunucularına kıyasla 2 kat daha yüksek aktarım hızı sağlıyor ve çıkarım iş yüklerimizi kolaylaştırmamıza olanak tanıyor.

Numan Laanait ve Miro Mihaylov, PhD, Yapay Zeka Yöneticileri/Veri Bilimcileri, Anthem

The Anthem logo featuring the word 'Anthem' alongside stylized blue cross and blue shield symbols.

Videolar