Ana İçeriğe Atla

Amazon Bedrock

Amazon Bedrock Değerlendirmeleri

İhtiyaçlarınıza uygun modelleri bulmak için özel ve içe aktarılmış modeller de dahil olmak üzere altyapı modellerini değerlendirin. Ayrıca Amazon Bedrock Bilgi Tabanları'nda geri alma veya uçtan uca RAG iş akışınızı da değerlendirebilirsiniz.

Genel Bakış

Amazon Bedrock, üretken yapay zeka uygulamalarının benimsenmesini hızlandırmanız için değerlendirme araçları sağlar. Model Değerlendirmesi ile kullanım örneğiniz için altyapı modeli değerlendirmesi, karşılaştırması ve seçimi yapın. Alma ya da alma ve oluşturma işlevlerini değerlendirerek Amazon Bedrock Bilgi Tabanları veya özel RAG sistemleriniz üzerinde oluşturulan RAG uygulamalarınızı üretime hazırlayın.

Missing alt text value

Değerlendirme türleri

    Doğruluk, eksiksizlik ve zararlılık gibi ölçümlerle özel istem veri kümelerinizi kullanarak model çıktılarını değerlendirmek için Yargıç olarak LLM kullanın.

    Model çıktılarını geleneksel doğal dil algoritmaları ve BERT Skoru, F1 ve diğer tam eşleştirme teknikleri gibi ölçümler kullanarak, yerleşik istem veri kümelerini kullanarak veya kendi veri kümelerinizi getirerek değerlendirin.

    Model çıktılarını kendi iş gücünüzle değerlendirin veya özel istem veri kümelerinize verilen yanıtlarla ilgili değerlendirmelerinizin AWS tarafından yerleşik veya özel ölçümlerle yönetilmesini sağlayın.

    Özel RAG sisteminizin veya Amazon Bedrock Bilgi Tabanlarınızın alma kalitesini istemlerinizin yanı sıra bağlam alaka düzeyi ve bağlam kapsamı gibi ölçümleriniz ile değerlendirin.

    Özel RAG işlem hattınızdan veya Amazon Bedrock Bilgi Tabanlarınızdan gelen uçtan uca RAG iş akışınızda oluşturulan içeriği değerlendirin. Kendi istemlerinizi ve sadakat (halüsinasyon algılama), doğruluk ve eksiksizlik gibi ölçümlerinizi kullanın.

Uçtan uca RAG iş akışınızı değerlendirin

Uygulamanızın uçtan uca almayla artırılmış üretim (RAG) yeteneğini değerlendirmek için alma ve oluşturma değerlendirmelerini kullanın. Üretilen içeriğin doğru ve eksiksiz olduğundan, halüsinasyonları sınırladığından ve sorumlu yapay zeka ilkelerine bağlı kaldığından emin olun. Bir Bedrock Bilgi Tabanının performansını değerlendirin veya özel RAG sisteminizden kendi çıkarım yanıtlarınızı getirin. Amazon Bedrock Bilgi Tabanlarınızda veya özel RAG çıktılarınızda yargıç olarak kullanmak üzere bir LLM seçin, veri kümenizi yükleyin ve değerlendirmeniz için en önemli ölçümleri seçin.
Missing alt text value

RAG sisteminizden eksiksiz ve alakalı alma sağlayın

Amazon Bedrock Bilgi Tabanlarınızın veya özel RAG sisteminizin depolama ve alma ayarlarını değerlendirmek için RAG alma değerlendirmelerini kullanın. Alınan içeriklerin alakalı olduğundan ve kullanıcı sorgusunun tamamını kapsadığından emin olun. Yargıç olarak kullanmak için bir LLM seçin, özel RAG sistemi alımlarınızı istem veri kümenize dahil etmek veya değerlendirmek için bir Bedrock Bilgi Tabanı ve ölçümlerinizi seçin.
Missing alt text value

FM'leri değerlendirerek kullanım örneğiniz için en iyi olanı seçin

Amazon Bedrock Model Değerlendirmesi, belirli bir kullanım örneği için altyapı modellerini seçmek üzere hem otomatik hem de insan tarafından yapılmış değerlendirmeler kullanmanıza olanak tanır. Otomatik (Programlı) model değerlendirmesi, seçilmiş ve özel veri kümelerini kullanarak doğruluk, sağlamlık ve toksisite dahil olmak üzere önceden tanımlanmış ölçümler sağlar. Öznel ölçümler için Amazon Bedrock'ı kullanarak birkaç basit adımla insan değerlendirmesi iş akışı oluşturabilirsiniz. İnsan değerlendirmelerinde kendi veri kümelerinizi getirebilir ve alaka düzeyi, stil ve marka sesine uyum gibi özel ölçümler tanımlayabilirsiniz. İnsan değerlendirmesi iş akışlarında, inceleyici olarak kendi çalışanlarınızı kullanabilir veya insan değerlendirmesini gerçekleştirmesi için AWS tarafından yönetilen bir ekibi görevlendirebilirsiniz. Bu seçenekte AWS, yetenekli değerlendiricileri işe alır ve tüm iş akışını sizin adınıza yönetir. Ayrıca veri kümenizde doğruluk, eksiksizlik, sadakat (halüsinasyon) gibi ölçümlerin yanı sıra yanıt reddetme ve zararlılık gibi sorumlu yapay zeka ölçümleriyle yüksek kaliteli değerlendirmeler sağlamak için bir Yargıç Olarak LLM kullanabilirsiniz. Giriş istemi veri kümenize kendi çıkarım yanıtlarınızı getirerek Bedrock modellerini veya herhangi bir modeli herhangi bir yerde değerlendirebilirsiniz.
Missing alt text value

Daha hızlı karar almak için birden fazla değerlendirme işinden elde edilen sonuçları karşılaştırın

İstemlerinizde, değerlendirilen modellerde, özel RAG sistemlerinizde veya Bedrock Bilgi Tabanlarında yaptığınız değişikliklerin sonuçlarını görmek için değerlendirmelerde karşılaştırma özelliğini kullanın.
Missing alt text value