Đánh giá của Amazon Bedrock
Đánh giá mô hình nền tảng, bao gồm các mô hình tùy chỉnh và mô hình đã nhập, để tìm những mô hình phù hợp với nhu cầu của bạn. Bạn cũng có thể đánh giá quy trình truy xuất hoặc quy trình làm việc RAG toàn diện trong Cơ sở kiến thức của Amazon Bedrock.
Tổng quan
Amazon Bedrock cung cấp các công cụ đánh giá để giúp bạn tăng tốc quá trình áp dụng các ứng dụng AI tạo sinh. Đánh giá, so sánh và chọn mô hình nền tảng cho trường hợp sử dụng của bạn bằng Đánh giá mô hình. Chuẩn bị đưa vào sản xuất các ứng dụng RAG được xây dựng trên Cơ sở kiến thức dành cho Amazon Bedrock hoặc hệ thống RAG tùy chỉnh của chính bạn bằng cách đánh giá các hàm truy xuất hoặc truy xuất và tạo.
Các loại đánh giá
Sử dụng LLM làm công cụ đánh giá để đánh giá đầu ra của mô hình bằng cách sử dụng tập dữ liệu câu lệnh tùy chỉnh của bạn với các chỉ số như tính chính xác, tính đầy đủ và tính gây hại.
Đánh giá đầu ra của mô hình bằng thuật toán ngôn ngữ tự nhiên truyền thống và các chỉ số như BERT Score, F1 và các kỹ thuật so khớp chính xác khác, bằng cách sử dụng tập dữ liệu câu lệnh tích hợp sẵn hoặc của riêng bạn.
Đánh giá đầu ra của mô hình bằng nhân sự của riêng bạn hoặc để AWS quản lý bản đánh giá cho phản hồi đối với tập dữ liệu câu lệnh tùy chỉnh của bạn bằng các chỉ số tích hợp sẵn hoặc tùy chỉnh.
Đánh giá chất lượng truy xuất của hệ thống RAG tùy chỉnh hoặc Cơ sở kiến thức dành cho Amazon Bedrock với các câu lệnh và chỉ số của bạn như mức độ liên quan với ngữ cảnh và phạm vi ngữ cảnh.
Đánh giá nội dung được tạo trong quy trình làm việc RAG toàn diện của bạn từ quy trình RAG tùy chỉnh của bạn hoặc Cơ sở kiến thức dành cho Amazon Bedrock. Sử dụng câu lệnh và chỉ số của riêng bạn như tính trung thực (phát hiện ảo giác), tính chính xác và tính đầy đủ.
Đánh giá quy trình làm việc RAG toàn diện của bạn
Đảm bảo truy xuất hoàn chỉnh và phù hợp từ hệ thống RAG của bạn
Đánh giá FM để chọn FM phù hợp nhất cho trường hợp sử dụng của bạn
So sánh kết quả giữa nhiều tác vụ đánh giá để ra quyết định nhanh hơn