Pular para o conteúdo principalAWS Startups
  1. Biblioteca de prompts a agentes
  2. Agente de avaliação LLM
Agent Icon

Agente de avaliação LLM

  • Prototyping
  • S3
  • Intermediário (200)

Este agente ajuda você a avaliar LLMs, agentes e prompts por meio de configuração em linguagem natural, geração automatizada de conjuntos de dados, avaliação por vários avaliadores e relatórios em PDF.

Criado em 14 de mai. de 2026 por Andre Gomes

Ao usar esses prompts, você concorda com este aviso de isenção de responsabilidade.

Detalhes do agente

An LLM Evaluation Agent that you can describe to it what you want to evaluate in natural language — the expert AI agent handles dataset generation, judge configuration, execution, and analysis end-to-end, and hands you back a PDF report.

Features
Expert agent interface — The agent knows evaluation best practices, recommends criteria and validates configurations before execution. No config files or CLI expertise needed.
Jury system — Multiple judges from different model families (e.g. Claude Sonnet, Nova Pro, Nemotron) each evaluate distinct aspects of every response — correctness, reasoning, completeness. Combining diverse judge families reduces self-preference bias, and aggregating weak signals from diverse judges and criteria produces stronger results than any single judge (Verma et al., 2025, Frick et al., 2025).
Adaptable binary scoring — Binary pass/fail per criteria rather than subjective numeric scales, shown to produce more reliable results across judges (Chiang et al., 2025). Criteria are tailored by the agent to what you're evaluating.
Document-grounded synthetic data — Upload PDFs, knowledge bases, or product docs and generate QA pairs grounded in your actual content, reflecting real customer scenarios.
Agentic eval support — Evaluate any agent calling Bedrock (Strands, LangChain, custom boto3) with zero code modification via OpenTelemetry instrumentation.

Instruções de instalação

Pré-requisitos

  • Credenciais da AWS com acesso a modelos do Bedrock
  • uv instalado
  • Claude Code, Cursor, Kiro, VS Code ou qualquer IDE compatível com MCP

Instalar

Escolha seu IDE e cole/clique.

Claude Code — um comando CLI:

claude mcp add eval -s user -- uvx --from llm-evaluation-system eval-mcp

Cursor — Link direto com um clique: Instale o eval-mcp no Cursor

Kiro — add to ~/.kiro/settings/mcp.json:

{ "mcpServers": { "eval": { "command": "uvx", "args": ["--from", "llm-evaluation-system", "eval-mcp"] } } }

Codex CLI — adicione a ~/.codex/config.toml e depois reinicie o Codex:

[mcp_servers.eval] command = "uvx"args = ["--from", "llm-evaluation-system", "eval-mcp"]

VS Code (com GitHub Copilot MCP) — um comando da CLI:

code --add-mcp '{"name":"eval","command":"uvx","args":["--from","llm-evaluation-system","eval-mcp"]}'

Usando um agente de codificação para instalar? Aponte para  INSTALL.md — ele lida com a edição da configuração e pergunta sobre o compartilhamento opcional da equipe do S3.

Upgrade

uvx  armazena em cache a versão resolvida por pacote. Para obter versões mais recentes, invalide o cache:

uv cache clean llm-evaluation-system

Reinicie seu IDE depois. O próximo lançamento resolve e armazena em cache a versão mais recente publicada.

Usar

Peça ao seu assistente de IA que avalie agentes, modelos ou solicitações usando um conjunto de dados que você fornece ou um gerado a partir de seus documentos ou contexto:

  • “Avalie meu agente em ./my_agent.py"
  • “Compare o Claude Sonnet com o Nova Pro neste conjunto de dados”
  • “Teste esses três modelos de prompt com meu conjunto de referência de controle de qualidade”
  • “Gere um conjunto de dados a partir deste PDF e execute uma avaliação”

O agente seleciona o modo adequado, gera automaticamente o que estiver faltando (conjunto de dados, avaliador, critérios), executa o processo, abre o visualizador de resultados no seu navegador e entrega a você um relatório em PDF.