Amazon Bedrock

การประเมินผลของ Amazon Bedrock

ประเมินโมเดลพื้นฐานรวมถึงโมเดลที่กำหนดเองและนำเข้า เพื่อค้นหาโมเดลที่เหมาะกับความต้องการของคุณ คุณยังสามารถประเมินเวิร์กโฟลว์การดึงข้อมูลหรือเวิร์กโฟลว์ RAG แบบครบวงจรในฐานความรู้ของ Amazon Bedrock

ภาพรวม

Amazon Bedrock มีเครื่องมือประเมินสำหรับคุณเพื่อเร่งการนำแอปพลิเคชัน AI ช่วยสร้างมาใช้ ประเมิน เปรียบเทียบ และเลือกรูปแบบพื้นฐานสำหรับกรณีการใช้งานของคุณด้วยการประเมินโมเดล เตรียมแอปพลิเคชัน RAG ของคุณสำหรับการผลิตที่สร้างขึ้นบน Amazon Bedrock Knowledge Bases หรือระบบ RAG แบบกำหนดเองของคุณ โดยประเมินฟังก์ชันดึงข้อมูลหรือดึงข้อมูลและสร้าง

ประเภทการประเมินผล

ใช้ LLM ในฐานะผู้ตัดสินเพื่อประเมินผลลัพธ์ของโมเดลโดยใช้ชุดข้อมูลพร้อมท์ที่กำหนดเองของคุณที่มีตัววัดต่าง ๆ เช่น ความถูกต้อง ความสมบูรณ์ และความเป็นอันตราย

ประเมินผลลัพธ์ของโมเดลโดยใช้อัลกอริทึมและตัววัดภาษาธรรมชาติแบบดั้งเดิม เช่น คะแนน BERT, F1 และเทคนิคการจับคู่ที่แน่นอนอื่น ๆ โดยใช้ชุดข้อมูลพร้อมท์ในตัวหรือใช้ชุดของตัวเอง

ประเมินผลลัพธ์ของโมเดลกับพนักงานของคุณเองหรือให้ AWS จัดการการประเมินของคุณเกี่ยวกับการตอบสนองต่อชุดข้อมูลพร้อมท์ที่กำหนดเองของคุณด้วยตัววัดในตัวหรือแบบกำหนดเอง

ประเมินคุณภาพการเรียกค้นระบบ RAG ที่กำหนดเองของคุณหรือ Amazon Bedrock Knowledge Bases ด้วยพร้อมท์และตัววัดต่าง ๆ เช่น ความเกี่ยวข้องของบริบทและการครอบคลุมบริบท

ประเมินเนื้อหาที่สร้างขึ้นของเวิร์กโฟลว์ RAG ครบวงจรของคุณจากไปป์ไลน์ RAG ที่กำหนดเองของคุณหรือ Amazon Bedrock Knowledge Bases ใช้พร้อมท์และตัววัดของคุณเอง เช่น ความซื่อสัตย์ (การตรวจจับผลลัพธ์เพี้ยน) ความถูกต้อง และความสมบูรณ์

ประเมินเวิร์กโฟลว์ RAG แบบครบวงจร

ใช้การดึงข้อมูลและสร้างการประเมินเพื่อประเมินความสามารถในการสร้างเสริมการดึงข้อมูลแบบครบวงจร (RAG) ของแอปพลิเคชันของคุณ ตรวจสอบให้แน่ใจว่าเนื้อหาที่สร้างขึ้นนั้นถูกต้อง สมบูรณ์ จำกัดผลลัพธ์เพี้ยน และปฏิบัติตามหลักการ AI ที่มีความรับผิดชอบ ไม่ว่าจะประเมินประสิทธิภาพของ Bedrock Knowledge Base หรือนำการตอบสนองการอนุมานของคุณเองจากระบบ RAG ที่กำหนดเองของคุณ เพียงเลือก LLM ที่จะใช้เป็นตัวตัดสินโดยใช้ Amazon Bedrock Knowledge Bases ของคุณหรือสำหรับผลลัพธ์ RAG ที่กำหนดเองของคุณ อัปโหลดชุดข้อมูลของคุณ และเลือกตัววัดที่สำคัญที่สุดสำหรับการประเมินของคุณ

ตรวจสอบให้แน่ใจว่าการดึงข้อมูลที่สมบูรณ์และเกี่ยวข้องจากระบบ RAG ของคุณ

ใช้การประเมินการดึงข้อมูล RAG เพื่อประเมินการจัดเก็บและการตั้งค่าการดึงข้อมูลของ Amazon Bedrock Knowledge Bases หรือระบบ RAG แบบกำหนดเองของคุณ ตรวจสอบให้แน่ใจว่าเนื้อหาที่ดึงมามีความเกี่ยวข้องและครอบคลุมคำถามของผู้ใช้ทั้งหมด เพียงเลือก LLM เพื่อใช้ในฐานะตัวตัดสิน เลือก Bedrock Knowledge Base เพื่อประเมินหรือรวมการดึงระบบ RAG ที่กำหนดเองของคุณในชุดข้อมูลพร้อมท์ของคุณ และเลือกตัววัดของคุณ

ประเมิน FM เพื่อเลือกอันที่ดีที่สุดสำหรับกรณีการใช้งานของคุณ

การประเมินโมเดล Amazon Bedrock ช่วยให้คุณสามารถใช้การประเมินอัตโนมัติและการประเมินโดยมนุษย์เพื่อเลือก FM สำหรับกรณีการใช้งานเฉพาะ การประเมินโมเดลอัตโนมัติ (ทางโปรแกรม) จะใช้ชุดข้อมูลที่ได้รับการคัดสรรและกำหนดเอง และมีมาตรวัดที่กำหนดไว้ล่วงหน้า รวมถึงความแม่นยำ ความทนทาน และความเป็นพิษ สำหรับเมตริกส่วนตัว คุณสามารถใช้ Amazon Bedrock เพื่อตั้งค่าเวิร์กโฟลว์การประเมินโดยมนุษย์ด้วยขั้นตอนที่รวดเร็วเพียงไม่กี่ขั้นตอน ด้วยการประเมินโดยมนุษย์ คุณสามารถนำชุดข้อมูลของคุณเองและกำหนดตัวชี้วัดที่กำหนดเอง เช่น ความเกี่ยวข้อง สไตล์ และการจัดแนวกับลักษณะของแบรนด์ เวิร์กโฟลว์การประเมินโดยมนุษย์สามารถใช้พนักงานของคุณเองในฐานะผู้ตรวจสอบหรือคุณสามารถมีส่วนร่วมกับทีมที่จัดการโดย AWS เพื่อดำเนินการประเมินโดยมนุษย์ โดยที่ AWS จ้างผู้ประเมินที่มีทักษะและจัดการเวิร์กโฟลว์อย่างสมบูรณ์ในนามของคุณ คุณยังสามารถใช้ LLM ในฐานผู้ตัดสินพื่อให้การประเมินคุณภาพสูงบนชุดข้อมูลของคุณด้วยตัววัดต่าง ๆ เช่น ความถูกต้อง ความสมบูรณ์ ความซื่อสัตย์ (ผลลัพธ์เพี้ยน) รวมถึงตัววัด AI ที่มีความรับผิดชอบ เช่น การปฏิเสธคำตอบและความเป็นอันตราย คุณสามารถประเมินโมเดล Bedrock หรือโมเดลใดก็ได้ทุกที่โดยนำการตอบสนองการอนุมานของคุณเองในชุดข้อมูลอินพุตพร้อมท์ของคุณ

เปรียบเทียบผลลัพธ์ในงานการประเมินหลายงานเพื่อตัดสินใจได้เร็วขึ้น

ใช้ฟีเจอร์การเปรียบเทียบในการประเมินเพื่อดูผลลัพธ์ของการเปลี่ยนแปลงใด ๆ ที่คุณทำกับพร้อมท์ โมเดลที่กำลังประเมิน ระบบ RAG ที่กำหนดเองของคุณหรือ Bedrock Knowledge Bases

วิธีเริ่มต้นใช้งาน

บล็อก

ฐานความรู้ของ Amazon Bedrock รองรับการประเมิน RAG แล้ว

อ่านบล็อก

บล็อก

ขณะนี้การประเมินโมเดลบน Amazon Bedrock มี LLM-as-a-Judge แล้ว

อ่านบล็อก

บล็อก

เรียนรู้วิธีการประเมินโมเดลสำหรับกรณีการใช้งานของคุณ

อ่านบล็อก

การประเมินผลของ Amazon Bedrock

ภาพรวม

ประเภทการประเมินผล

ประเมินเวิร์กโฟลว์ RAG แบบครบวงจร

ตรวจสอบให้แน่ใจว่าการดึงข้อมูลที่สมบูรณ์และเกี่ยวข้องจากระบบ RAG ของคุณ

ประเมิน FM เพื่อเลือกอันที่ดีที่สุดสำหรับกรณีการใช้งานของคุณ

เปรียบเทียบผลลัพธ์ในงานการประเมินหลายงานเพื่อตัดสินใจได้เร็วขึ้น

วิธีเริ่มต้นใช้งาน

ฐานความรู้ของ Amazon Bedrock รองรับการประเมิน RAG แล้ว

ขณะนี้การประเมินโมเดลบน Amazon Bedrock มี LLM-as-a-Judge แล้ว

เรียนรู้วิธีการประเมินโมเดลสำหรับกรณีการใช้งานของคุณ

เรียนรู้

ทรัพยากร

นักพัฒนา

ความช่วยเหลือ

การประเมินผลของ Amazon Bedrock

ภาพรวม

ประเภทการประเมินผล

โมเดล: LLM ในฐานะผู้ตัดสิน

โมเดล: แบบเป็นโปรแกรม

โมเดล: อิงจากมนุษย์

RAG: การดึงข้อมูล

RAG: ดึงข้อมูลและสร้าง

ประเมินเวิร์กโฟลว์ RAG แบบครบวงจร

ตรวจสอบให้แน่ใจว่าการดึงข้อมูลที่สมบูรณ์และเกี่ยวข้องจากระบบ RAG ของคุณ

ประเมิน FM เพื่อเลือกอันที่ดีที่สุดสำหรับกรณีการใช้งานของคุณ

เปรียบเทียบผลลัพธ์ในงานการประเมินหลายงานเพื่อตัดสินใจได้เร็วขึ้น

วิธีเริ่มต้นใช้งาน

ฐานความรู้ของ Amazon Bedrock รองรับการประเมิน RAG แล้ว

ขณะนี้การประเมินโมเดลบน Amazon Bedrock มี LLM-as-a-Judge แล้ว

เรียนรู้วิธีการประเมินโมเดลสำหรับกรณีการใช้งานของคุณ

เรียนรู้

ทรัพยากร

นักพัฒนา

ความช่วยเหลือ