การประเมินผลของ Amazon Bedrock
ประเมินโมเดลพื้นฐานรวมถึงโมเดลที่กำหนดเองและนำเข้า เพื่อค้นหาโมเดลที่เหมาะกับความต้องการของคุณ คุณยังสามารถประเมินเวิร์กโฟลว์การดึงข้อมูลหรือเวิร์กโฟลว์ RAG แบบครบวงจรในฐานความรู้ของ Amazon Bedrock
ภาพรวม
Amazon Bedrock มีเครื่องมือประเมินสำหรับคุณเพื่อเร่งการนำแอปพลิเคชัน AI ช่วยสร้างมาใช้ ประเมิน เปรียบเทียบ และเลือกรูปแบบพื้นฐานสำหรับกรณีการใช้งานของคุณด้วยการประเมินโมเดล เตรียมแอปพลิเคชัน RAG ของคุณสำหรับการผลิตที่สร้างขึ้นบน Amazon Bedrock Knowledge Bases หรือระบบ RAG แบบกำหนดเองของคุณ โดยประเมินฟังก์ชันดึงข้อมูลหรือดึงข้อมูลและสร้าง
ประเภทการประเมินผล
ใช้ LLM ในฐานะผู้ตัดสินเพื่อประเมินผลลัพธ์ของโมเดลโดยใช้ชุดข้อมูลพร้อมท์ที่กำหนดเองของคุณที่มีตัววัดต่าง ๆ เช่น ความถูกต้อง ความสมบูรณ์ และความเป็นอันตราย
ประเมินผลลัพธ์ของโมเดลโดยใช้อัลกอริทึมและตัววัดภาษาธรรมชาติแบบดั้งเดิม เช่น คะแนน BERT, F1 และเทคนิคการจับคู่ที่แน่นอนอื่น ๆ โดยใช้ชุดข้อมูลพร้อมท์ในตัวหรือใช้ชุดของตัวเอง
ประเมินผลลัพธ์ของโมเดลกับพนักงานของคุณเองหรือให้ AWS จัดการการประเมินของคุณเกี่ยวกับการตอบสนองต่อชุดข้อมูลพร้อมท์ที่กำหนดเองของคุณด้วยตัววัดในตัวหรือแบบกำหนดเอง
ประเมินคุณภาพการเรียกค้นระบบ RAG ที่กำหนดเองของคุณหรือ Amazon Bedrock Knowledge Bases ด้วยพร้อมท์และตัววัดต่าง ๆ เช่น ความเกี่ยวข้องของบริบทและการครอบคลุมบริบท
ประเมินเนื้อหาที่สร้างขึ้นของเวิร์กโฟลว์ RAG ครบวงจรของคุณจากไปป์ไลน์ RAG ที่กำหนดเองของคุณหรือ Amazon Bedrock Knowledge Bases ใช้พร้อมท์และตัววัดของคุณเอง เช่น ความซื่อสัตย์ (การตรวจจับผลลัพธ์เพี้ยน) ความถูกต้อง และความสมบูรณ์
ประเมินเวิร์กโฟลว์ RAG แบบครบวงจร
ตรวจสอบให้แน่ใจว่าการดึงข้อมูลที่สมบูรณ์และเกี่ยวข้องจากระบบ RAG ของคุณ
ประเมิน FM เพื่อเลือกอันที่ดีที่สุดสำหรับกรณีการใช้งานของคุณ
เปรียบเทียบผลลัพธ์ในงานการประเมินหลายงานเพื่อตัดสินใจได้เร็วขึ้น