Chip AI của AWS

AWS Inferentia

Đạt hiệu năng cao với chi phí thấp nhất trong Amazon EC2 dành cho quá trình học sâu và suy luận AI tạo sinh

Bắt đầu sử dụng chip AWS Inferentia bằng AWS Neuron

Tại sao nên chọn Inferentia?

Chip AWS Inferentia được thiết kế bởi AWS nhằm mang lại hiệu năng cao với mức chi phí thấp nhất trong Amazon EC2 cho các ứng dụng suy luận học sâu (DL) và AI tạo sinh của bạn.

Chip AWS Inferentia thế hệ đầu hỗ trợ các phiên bản Inf1 của Amazon Elastic Compute Cloud (Amazon EC2), cung cấp thông lượng cao hơn tới 2,3 lần và chi phí cho mỗi lượt suy luận thấp hơn tới 70% so với các phiên bản Amazon EC2 tương đương. Nhiều khách hàng, bao gồm Finch AI, Snap, Sprinklr, Money Forward và Amazon Alexa, đã áp dụng các phiên bản Inf1 và nhận ra các lợi ích về hiệu năng và chi phí.

Chip AWS Inferentia2 cung cấp thông lượng cao hơn tới 4 lần và độ trễ thấp hơn tới 10 lần so với Inferentia. Các phiên bản Inf2 của Amazon EC2 dựa trên Inferentia2 được tối ưu hóa để triển khai các mô hình ngày càng phức tạp như mô hình ngôn ngữ lớn (LLM) và mô hình khuếch tán ngầm, trên quy mô lớn. Phiên bản Inf2 là phiên bản được tối ưu hóa suy luận đầu tiên trong Amazon EC2 để hỗ trợ suy luận phân tán ở quy mô tăng theo phiên bản với khả năng kết nối tốc độ cực cao giữa các chip. Nhiều khách hàng bao gồm Leonardo.ai, Deutsche Telekom và Qualtrics đã áp dụng các phiên bản Inf2 cho các ứng dụng DL và AI tạo sinh của mình.

SDK AWS Neuron giúp các nhà phát triển triển khai các mô hình trên chip AWS Inferentia (và đào tạo các mô hình đó trên chip AWS Trainium). SDK AWS Neuron tích hợp nguyên bản với các khung phổ biến như PyTorch và TensorFlow để bạn có thể tiếp tục sử dụng mã và quy trình làm việc hiện có của mình và chạy trên các chip Inferentia.

Lợi ích của AWS Inferentia

Mỗi chip Inferentia thế hệ đầu tiên có bốn NeuronCores thế hệ đầu tiên và mỗi phiên bản EC2 Inf1 có tối đa 16 chip Inferentia. Mỗi chip Inferentia2 có hai NeuronCores thế hệ thứ hai và mỗi phiên bản EC2 Inf2 có tới 12 chip Inferentia2. Mỗi chip Inferentia2 hỗ trợ hiệu năng FP16 lên đến 190 nghìn tỷ phép toán dấu phẩy động mỗi giây (TFLOPS). Inferentia thế hệ đầu tiên sở hữu bộ nhớ DDR4 8 GB cho mỗi chip và cũng có bộ nhớ dung lượng lớn trên chip. Inferentia2 cung cấp 32 GB HBM cho mỗi chip, tăng tổng bộ nhớ lên gấp 4 lần và băng thông bộ nhớ gấp 10 lần so với Inferentia.

SDK AWS Neuron tích hợp theo mặc định với các khung ML phổ biến như PyTorch và TensorFlow. Với AWS Neuron, bạn có thể sử dụng các khung này để triển khai một cách tối ưu các mô hình DL trên cả chip AWS Inferentia và Neuron được thiết kế để giảm thiểu các thay đổi đối với mã và tình trạng ràng buộc với các giải pháp của riêng nhà cung cấp. Neuron giúp bạn vận hành các ứng dụng suy luận của mình để hiểu/xử lý ngôn ngữ tự nhiên (NLP), biên dịch ngôn ngữ, tóm tắt văn bản, tạo video và hình ảnh, nhận dạng giọng nói, cá nhân hóa, phát hiện gian lận, v.v. trên chip Inferentia.

Inferentia thế hệ đầu tiên hỗ trợ các loại dữ liệu FP16, BF16 và INT8. Inferentia2 bổ sung tính năng hỗ trợ thêm cho FP32, TF32 và loại dữ liệu FP8 có thể định cấu hình (cFP8) mới để giúp các nhà phát triển làm việc linh hoạt hơn, nhờ đó tối ưu hóa hiệu năng và độ chính xác. AWS Neuron lấy các mô hình FP32 có độ chính xác cao và tự động ép kiểu chúng sang các loại dữ liệu có độ chính xác thấp hơn, đồng thời tối ưu hóa độ chính xác và hiệu năng. Tính năng ép kiểu tự động giúp giảm thời gian đưa ra thị trường bằng cách loại bỏ nhu cầu đào tạo lại với độ chính xác thấp hơn.

Inferentia2 bổ sung thêm tính năng tối ưu hóa phần cứng cho kích cỡ đầu vào động và toán tử tùy chỉnh được viết bằng C++. Đồng thời hỗ trợ làm tròn ngẫu nhiên, một cách làm tròn theo xác suất cho phép đạt được hiệu năng cao và độ chính xác cao hơn so với các phương thức làm tròn cũ.

Các phiên bản Inf2 mang đến hiệu năng/watt cao hơn tới 50% so với các phiên bản Amazon EC2 tương tự vì những phiên bản này và chip Inferentia2 cơ sở được xây dựng nhằm mục đích vận hành mô hình DL trên quy mô lớn. Phiên bản Inf2 giúp bạn đáp ứng các mục tiêu phát triển bền vững khi triển khai các mô hình siêu lớn.

Karakuri

Tìm hiểu xem Karakuri làm thế nào để vừa cung cấp AI hiệu suất cao vừa kiểm soát chi phí bằng cách sử dụng AWS Inferentia

Xem video

Metagenomi

Tìm hiểu xem Metagenomi làm thế nào để giảm đến 56% chi phí thiết kế protein quy mô lớn trên bằng cách sử dụng AWS Inferentia

Đọc blog

NetoAI

Tìm hiểu xem NetoAI làm thế nào để đạt được độ trễ suy luận 300–600 ms bằng cách sử dụng AWS Inferentia2

Đọc chứng thực

Tomofun

Tìm hiểu xem Tomofun cắt giảm 83% chi phí triển khai suy luận BLIP bằng cách di chuyển sang AWS Inferentia như thế nào

Đọc chứng thực

SplashMusic

Tìm hiểu xem SplashMusic làm thế nào để giảm độ trễ suy luận
lên đến 10 lần bằng cách sử dụng AWS Inferentia

Đọc chứng thực

Leonardo.ai

Đội ngũ của chúng tôi tại Leonardo tận dụng AI tạo sinh để hỗ trợ các chuyên gia sáng tạo cùng những người giàu đam mê tạo ra các tài sản trực quan với chất lượng, tốc độ và tính nhất quán trong phong cách chưa từng có. Với việc sử dụng AWS Inferentia2, chúng tôi có thể giảm 80% chi phí mà không làm hao hụt hiệu năng, thay đổi cơ bản đề xuất giá trị mà chúng tôi có thể cung cấp cho khách hàng và cho phép họ sử dụng các tính năng tiên tiến nhất của chúng tôi với mức giá dễ tiếp cận hơn. Phiên bản này cũng làm giảm bớt những lo ngại về chi phí và khả năng cung cấp công suất cho các dịch vụ AI phụ trợ của chúng tôi, vốn ngày càng quan trọng khi chúng tôi phát triển và điều chỉnh quy mô. Đó là một công nghệ hỗ trợ quan trọng đối với chúng tôi khi chúng tôi tiếp tục vượt trên giới hạn của những điều khả thi với AI tạo sinh, tạo ra một kỷ nguyên mới về sáng tạo và sức mạnh biểu đạt cho người dùng của chúng tôi.

Pete Werner, Trưởng bộ phận AI, Leonardo.ai

Qualtrics

Qualtrics thiết kế và phát triển phần mềm quản lý trải nghiệm.

Tại Qualtrics, trọng tâm của chúng tôi là xây dựng công nghệ giúp thu hẹp khoảng cách trải nghiệm cho khách hàng, nhân viên, thương hiệu và sản phẩm. Để đạt được điều đó, chúng tôi đang phát triển các mô hình DL đa nhiệm, đa phương thức phức tạp để tung ra các tính năng mới, chẳng hạn như phân loại văn bản, gắn thẻ trình tự, phân tích diễn ngôn, trích xuất cụm từ khóa, trích xuất chủ đề, phân cụm và hiểu cuộc trò chuyện đầu cuối. Khi chúng tôi sử dụng các mô hình phức tạp hơn này trong nhiều ứng dụng hơn, khối lượng dữ liệu phi cấu trúc tăng lên và chúng tôi cần nhiều giải pháp tối ưu hóa suy luận có hiệu năng cao hơn có khả năng đáp ứng các nhu cầu này, chẳng hạn như phiên bản Inf2, để mang lại trải nghiệm tốt nhất cho khách hàng của chúng tôi. Chúng tôi rất hào hứng với phiên bản Inf2 mới vì phiên bản này sẽ không chỉ cho phép chúng tôi đạt được thông lượng cao hơn trong khi giảm đáng kể độ trễ mà còn đưa vào các tính năng như suy luận phân tán và hỗ trợ hình dạng đầu vào động nâng cao, giúp chúng tôi điều chỉnh quy mô để đáp ứng nhu cầu triển khai khi chúng tôi thúc đẩy các mô hình lớn hơn, phức tạp hơn.

Aaron Colak, Trưởng bộ phận Máy học cốt lõi, Qualtrics

Finch Computing

Finch Computing là một công ty công nghệ ngôn ngữ tự nhiên cung cấp các ứng dụng trí tuệ nhân tạo cho chính phủ, dịch vụ tài chính và khách hàng tích hợp dữ liệu.

Để đáp ứng nhu cầu NLP theo thời gian thực của khách hàng, chúng tôi phát triển các mô hình DL hiện đại có thể điều chỉnh quy mô cho khối lượng công việc sản xuất lớn. Chúng tôi phải cung cấp các giao dịch có độ trễ thấp và đạt được thông lượng cao để xử lý nguồn cấp dữ liệu toàn cầu. Chúng tôi đã di chuyển nhiều khối lượng công việc sản xuất sang các phiên bản Inf1 và giảm 80% chi phí so với GPU. Bây giờ, chúng tôi đang phát triển các mô hình lớn hơn, phức tạp hơn cho phép hiểu ý nghĩa sâu xa và chuyên sâu hơn từ văn bản viết. Rất nhiều khách hàng của chúng tôi cần truy cập vào những thông tin chuyên sâu này theo thời gian thực và hiệu năng trên các phiên bản Inf2 sẽ giúp chúng tôi cung cấp độ trễ thấp hơn và thông lượng cao hơn so với các phiên bản Inf1. Với những cải tiến về hiệu năng của Inf2 và các tính năng mới của Inf2, chẳng hạn như hỗ trợ kích thước đầu vào động, chúng tôi đang cải thiện hiệu quả chi phí, nâng cao trải nghiệm khách hàng theo thời gian thực và giúp khách hàng thu thập thông tin chuyên sâu mới từ dữ liệu của họ.

Franz Weckesser, Kiến trúc sư trưởng, Finch Computing

Dataminr

Chúng tôi cảnh báo về nhiều loại sự kiện trên toàn thế giới bằng nhiều ngôn ngữ, ở các định dạng khác nhau (hình ảnh, video, âm thanh, cảm biến văn bản, kết hợp tất cả các loại này) từ hàng trăm nghìn nguồn. Tối ưu hóa tốc độ và chi phí với quy mô đó là điều vô cùng quan trọng đối với doanh nghiệp của chúng tôi. Với AWS Inferentia, chúng tôi đã giảm độ trễ của mô hình và đạt được thông lượng tốt hơn tới 9 lần trên mỗi đồng tiền. Điều này đã cho phép chúng tôi tăng độ chính xác của mô hình và phát triển khả năng của nền tảng bằng cách triển khai các mô hình DL tinh vi hơn và xử lý được khối lượng dữ liệu nhiều hơn gấp 5 lần, đồng thời vẫn kiểm soát được chi phí.

Alex Jaimes, Giám đốc khoa học và Phó chủ tịch cấp cao về AI, Dataminr

Snap Inc.

Chúng tôi đã tích hợp công nghệ ML vào nhiều khía cạnh của Snapchat. Trong lĩnh vực này, việc khám phá sự đổi mới là ưu tiên quan trọng. Khi biết đến Inferentia, chúng tôi đã cộng tác với AWS để áp dụng các phiên bản Inf1/Inferentia nhằm hỗ trợ việc triển khai ML xoay quanh hiệu năng và chi phí. Chúng tôi bắt đầu từ mô hình đề xuất và, trong tương lai, chúng tôi sẽ tìm cách triển khai những mô hình khác bằng các phiên bản Inf1.

Nima Khajehnouri, Kỹ sư VP, Snap Inc.

Sprinklr

Nền tảng quản lý trải nghiệm người dùng thống nhất (Unified-CXM) định hướng AI của Sprinklr cho phép các công ty thu thập và chuyển đổi phản hồi của khách hàng theo thời gian thực trên nhiều kênh thành những thông tin chuyên sâu hữu ích – từ đó chủ động giải quyết vấn đề, tăng cường phát triển sản phẩm, cải thiện quá trình tiếp thị nội dung, nâng cao dịch vụ khách hàng, v.v. Bằng cách sử dụng Amazon EC2 Inf1, chúng tôi đã có thể cải thiện đáng kể hiệu suất của một trong những mô hình NLP cũng như một trong những mô hình thị giác máy tính của chúng tôi. Chúng tôi mong muốn tiếp tục sử dụng Amazon EC2 Inf1 để phục vụ những khách hàng toàn cầu của mình tốt hơn.

Vasant Srinivasan, Phó chủ tịch cấp cao về kỹ thuật sản phẩm, Sprinklr

Autodesk

Autodesk đang sử dụng Inferentia để cải tiến công nghệ nhận thức cho trợ lý ảo hoạt động dựa trên AI của mình, với tên gọi Autodesk Virtual Agent (AVA). AVA có thể trả lời 100.000 câu hỏi của khách hàng mỗi tháng bằng cách áp dụng hệ thống hiểu ngôn ngữ tự nhiên (NLU) và các kỹ thuật DL để rút ra ngữ cảnh, ý định và ý nghĩa đằng sau các câu hỏi. Với việc thí điểm Inferentia, chúng tôi đạt được mức thông lượng cao hơn gấp 4,9 lần so với G4dn cho các mô hình NLU của mình và mong muốn chạy thêm khối lượng công việc trên các phiên bản Inf1 dựa trên Inferentia.

Binghui Ouyang, Sr. Nhà khoa học dữ liệu cấp cao, Autodesk

Screening Eagle Technologies

Việc sử dụng radar xuyên đất và phát hiện các sai sót trực quan thường là lĩnh vực của các khảo sát viên chuyên nghiệp. Kiến trúc dựa trên vi dịch vụ của AWS cho phép chúng tôi xử lý các video thu được từ những phương tiện kiểm tra tự động và nhân viên thanh tra. Nhờ việc di chuyển các mô hình được xây dựng nội bộ từ những phiên bản dựa trên GPU truyền thống sang Inferentia, chúng tôi có thể giảm 50% chi phí. Hơn nữa, chúng tôi còn nhận thấy hiệu suất tăng lên so với thời điểm sử dụng phiên bản GPU G4dn. Nhóm của chúng tôi mong muốn chạy nhiều khối lượng công việc hơn trên các phiên bản Inf1 dựa trên Inferentia.

Jesús Hormigo, Giám đốc phụ trách Đám mây và AI, Screening Eagle Technologies

NTT PC Communications Inc.

NTT PC Communications là nhà cung cấp giải pháp truyền thông và dịch vụ mạng tại Nhật Bản. Đây là công ty viễn thông đi đầu trong việc giới thiệu các sản phẩm sáng tạo mới đến thị trường công nghệ thông tin và truyền thông.

NTT PC đã phát triển AnyMotion, dịch vụ nền tảng API phân tích chuyển động dựa trên các mô hình ML dự đoán tư thế nâng cao. Chúng tôi đã triển khai nền tảng AnyMotion của mình trên các phiên bản Amazon EC2 Inf1 bằng cách sử dụng Amazon ECS cho dịch vụ điều phối bộ chứa được quản lý toàn phần. Nhờ việc triển khai bộ chứa AnyMotion của mình trên Amazon EC2 Inf1, chúng tôi đạt thông lượng cao hơn gấp 4,5 lần, độ trễ suy luận giảm 25% và chi phí giảm 90% so với phiên bản EC2 dựa trên GPU thế hệ hiện tại. Những kết quả vượt trội này sẽ giúp cải thiện chất lượng của dịch vụ AnyMotion trên quy mô lớn.

Toshiki Yanagisawa, Kỹ sư phần mềm, NTT PC Communications Inc.

Anthem

Anthem là công ty chuyên về trợ cấp sức khỏe hàng đầu cả nước, phục vụ nhu cầu chăm sóc sức khỏe của hơn 40 triệu thành viên tại hàng chục tiểu bang.

Thị trường về nền tảng sức khỏe số đang phát triển với tốc độ chóng mặt. Việc thu thập thông tin về thị trường này là một công việc đầy thách thức do lượng dữ liệu về ý kiến của khách hàng là rất lớn và phi cấu trúc. Ứng dụng của chúng tôi tự động tạo ra thông tin chuyên sâu hữu ích dựa trên ý kiến của khách hàng thông qua mô hình ngôn ngữ tự nhiên DL (Transformer). Ứng dụng này thiên về điện toán và cần được triển khai theo cách mang lại hiệu quả cao. Chúng tôi đã triển khai liền mạch khối lượng công việc suy luận DL của mình trên các phiên bản Amazon EC2 Inf1 dựa trên sức mạnh của bộ xử lý AWS Inferentia. Phiên bản Inf1 mới mang lại thông lượng cao gấp 2 lần so với các phiên bản dựa trên GPU và cho phép chúng tôi hợp lý hóa các khối lượng công việc suy luận.

Numan Laanait và Miro Mihaylov, Tiến sĩ, Nhà khoa học dữ liệu/AI chính, Anthem

Video

Tìm hiểu bên trong cơ sở hạ tầng AI tạo sinh tại Amazon

Giới thiệu phiên bản Amazon EC2 Inf2 hoạt động trên nền tảng AWS Inferentia2

Hành trình giảm chi phí ML và thúc đẩy đổi mới với AWS Inferentia của bốn khách hàng AWS

Tài nguyên

Blog

Tinh chỉnh và triển khai một cách tiết kiệm chi phí các mô hình Llama 2 trong Amazon SageMaker JumpStart với AWS Inferentia và AWS Trainium

Đọc blog

Blog

Tinh chỉnh Llama 2 bằng QLoRA và triển khai trên Amazon SageMaker với AWS Inferentia2

Đọc blog

Blog

Tối đa hóa hiệu năng của Stable Diffusion và giảm chi phí suy luận với AWS Inferentia2

Đọc blog

Blog

Đạt hiệu năng cao với chi phí thấp nhất cho suy luận AI tạo sinh bằng AWS Inferentia2 và AWS Trainium trên Amazon SageMaker

Đọc blog

Blog

ByteDance tiết kiệm tới 60% chi phí suy luận đồng thời giảm độ trễ và tăng thông lượng bằng cách sử dụng AWS Inferentia

Đọc blog

Blog

Cách Amazon Search giảm 85% chi phí suy luận ML bằng AWS Inferentia

Đọc blog

Tài nguyên khác

Sử dụng AWS Neuron và bắt đầu sử dụng AWS Inferentia từ trong TensorFlow, PyTorch hoặc MXNet

Tìm hiểu thêm

Tài nguyên khác

Sơ đồ hướng dẫn tính năng trên AWS Neuron

Tìm hiểu thêm

Tài nguyên khác

Bắt đầu suy luận trên AWS Inferentia bằng cách sử dụng các hướng dẫn dễ hiểu này

Tìm hiểu thêm

Bắt đầu sử dụng AWS Inferentia

Tìm hiểu thêm

Bảng điều khiển

Bắt đầu xây dựng trong bảng điều khiển

Đăng nhập

Bậc miễn phí

Mẫu/hướng dẫn suy luận (Inf2/Trn1)

Tìm hiểu thêm

AWS Inferentia

Tại sao nên chọn Inferentia?

Lợi ích của AWS Inferentia

Karakuri

Metagenomi

NetoAI

Tomofun

SplashMusic

Leonardo.ai

Qualtrics

Finch Computing

Dataminr

Snap Inc.

Sprinklr

Autodesk

Screening Eagle Technologies

NTT PC Communications Inc.

Anthem

Video

Tài nguyên

Tinh chỉnh và triển khai một cách tiết kiệm chi phí các mô hình Llama 2 trong Amazon SageMaker JumpStart với AWS Inferentia và AWS Trainium

Tinh chỉnh Llama 2 bằng QLoRA và triển khai trên Amazon SageMaker với AWS Inferentia2

Tối đa hóa hiệu năng của Stable Diffusion và giảm chi phí suy luận với AWS Inferentia2

Đạt hiệu năng cao với chi phí thấp nhất cho suy luận AI tạo sinh bằng AWS Inferentia2 và AWS Trainium trên Amazon SageMaker

ByteDance tiết kiệm tới 60% chi phí suy luận đồng thời giảm độ trễ và tăng thông lượng bằng cách sử dụng AWS Inferentia

Cách Amazon Search giảm 85% chi phí suy luận ML bằng AWS Inferentia

Sử dụng AWS Neuron và bắt đầu sử dụng AWS Inferentia từ trong TensorFlow, PyTorch hoặc MXNet

Sơ đồ hướng dẫn tính năng trên AWS Neuron

Bắt đầu suy luận trên AWS Inferentia bằng cách sử dụng các hướng dẫn dễ hiểu này

Bắt đầu sử dụng AWS Inferentia

Bắt đầu xây dựng trong bảng điều khiển

Mẫu/hướng dẫn suy luận (Inf2/Trn1)

Tìm hiểu

Tài nguyên

Nhà phát triển

Trợ giúp

AWS Inferentia

Tại sao nên chọn Inferentia?

Lợi ích của AWS Inferentia

Được tối ưu hóa nhằm mang đến thông lượng cao với độ trễ thấp

Hỗ trợ theo mặc định cho các khung ML

Nhiều loại dữ liệu với tính năng ép kiểu tự động

Tính năng DL tiên tiến

Được xây dựng nhằm mục đích phát triển bền vững

Karakuri

Metagenomi

NetoAI

Tomofun

SplashMusic

Leonardo.ai

Qualtrics

Finch Computing

Dataminr

Snap Inc.

Sprinklr

Autodesk

Screening Eagle Technologies

NTT PC Communications Inc.

Anthem

Video

Tài nguyên

Tinh chỉnh và triển khai một cách tiết kiệm chi phí các mô hình Llama 2 trong Amazon SageMaker JumpStart với AWS Inferentia và AWS Trainium

Tinh chỉnh Llama 2 bằng QLoRA và triển khai trên Amazon SageMaker với AWS Inferentia2

Tối đa hóa hiệu năng của Stable Diffusion và giảm chi phí suy luận với AWS Inferentia2

Đạt hiệu năng cao với chi phí thấp nhất cho suy luận AI tạo sinh bằng AWS Inferentia2 và AWS Trainium trên Amazon SageMaker

ByteDance tiết kiệm tới 60% chi phí suy luận đồng thời giảm độ trễ và tăng thông lượng bằng cách sử dụng AWS Inferentia

Cách Amazon Search giảm 85% chi phí suy luận ML bằng AWS Inferentia

Sử dụng AWS Neuron và bắt đầu sử dụng AWS Inferentia từ trong TensorFlow, PyTorch hoặc MXNet

Sơ đồ hướng dẫn tính năng trên AWS Neuron

Bắt đầu suy luận trên AWS Inferentia bằng cách sử dụng các hướng dẫn dễ hiểu này

Bắt đầu sử dụng AWS Inferentia

Bắt đầu xây dựng trong bảng điều khiển

Mẫu/hướng dẫn suy luận (Inf2/Trn1)

Tìm hiểu

Tài nguyên

Nhà phát triển

Trợ giúp