Agente de avaliação LLM

An LLM Evaluation Agent that you can describe to it what you want to evaluate in natural language — the expert AI agent handles dataset generation, judge configuration, execution, and analysis end-to-end, and hands you back a PDF report. Features Expert agent interface — The agent knows evaluation best practices, recommends criteria and validates configurations before execution. No config files or CLI expertise needed. Jury system — Multiple judges from different model families (e.g. Claude Sonnet, Nova Pro, Nemotron) each evaluate distinct aspects of every response — correctness, reasoning, completeness. Combining diverse judge families reduces self-preference bias, and aggregating weak signals from diverse judges and criteria produces stronger results than any single judge (Verma et al., 2025, Frick et al., 2025). Adaptable binary scoring — Binary pass/fail per criteria rather than subjective numeric scales, shown to produce more reliable results across judges (Chiang et al., 2025). Criteria are tailored by the agent to what you're evaluating. Document-grounded synthetic data — Upload PDFs, knowledge bases, or product docs and generate QA pairs grounded in your actual content, reflecting real customer scenarios. Agentic eval support — Evaluate any agent calling Bedrock (Strands, LangChain, custom boto3) with zero code modification via OpenTelemetry instrumentation.

Instruções de instalação

Pré-requisitos

Credenciais da AWS com acesso a modelos do Bedrock
uv instalado
Claude Code, Cursor, Kiro, VS Code ou qualquer IDE compatível com MCP

Instalar

Escolha seu IDE e cole/clique.

Claude Code — um comando CLI:

claude mcp add eval -s user -- uvx --from llm-evaluation-system eval-mcp

Cursor — Link direto com um clique: Instale o eval-mcp no Cursor

Kiro — add to ~/.kiro/settings/mcp.json:

{ "mcpServers": { "eval": { "command": "uvx", "args": ["--from", "llm-evaluation-system", "eval-mcp"] } } }

Codex CLI — adicione a ~/.codex/config.toml e depois reinicie o Codex:

[mcp_servers.eval] command = "uvx"args = ["--from", "llm-evaluation-system", "eval-mcp"]

VS Code (com GitHub Copilot MCP) — um comando da CLI:

code --add-mcp '{"name":"eval","command":"uvx","args":["--from","llm-evaluation-system","eval-mcp"]}'

Usando um agente de codificação para instalar? Aponte para INSTALL.md — ele lida com a edição da configuração e pergunta sobre o compartilhamento opcional da equipe do S3.

Upgrade

uvx armazena em cache a versão resolvida por pacote. Para obter versões mais recentes, invalide o cache:

uv cache clean llm-evaluation-system

Reinicie seu IDE depois. O próximo lançamento resolve e armazena em cache a versão mais recente publicada.

Usar

Peça ao seu assistente de IA que avalie agentes, modelos ou solicitações usando um conjunto de dados que você fornece ou um gerado a partir de seus documentos ou contexto:

“Avalie meu agente em ./my_agent.py"
“Compare o Claude Sonnet com o Nova Pro neste conjunto de dados”
“Teste esses três modelos de prompt com meu conjunto de referência de controle de qualidade”
“Gere um conjunto de dados a partir deste PDF e execute uma avaliação”

O agente seleciona o modo adequado, gera automaticamente o que estiver faltando (conjunto de dados, avaliador, critérios), executa o processo, abre o visualizador de resultados no seu navegador e entrega a você um relatório em PDF.